當地時間 8 月 5 日,谷歌 DeepMind 發布了其“世界模型”(World Model)的最新版本——Genie 3。該模型能夠根據用戶的文本或圖像提示,實時生成可供用戶及 AI 智能體(AI agent)進行互動的 3D 虛擬環境。相比前代產品,Genie 3 實現了向實時可交互虛擬世界模擬的重大跨越,尤其在互動時長和記憶連貫性上取得了巨大進步。
所謂“世界模型”,是一種旨在理解并模擬世界運行規律的 AI 系統。不同于傳統的電子游戲需要開發者預先制作好所有 3D 資產和環境,世界模型可以僅憑一句指令,如“一個正在下雨的賽博朋克城市”或“一片陽光明媚的奇幻森林”,便能即時“創造”出一個對應的空間供用戶進入探索。DeepMind 在這一領域已深耕十余年,從訓練能夠掌握復雜即時戰略游戲的 AI,到為機器人和開放式學習開發模擬環境,Genie 系列模型正是這些研究的集大成者。
Genie 3 的核心突破在于其“實時交互性”和“長時程一致性”。此前的版本,如 2024 年 12 月發布的 Genie 2,雖然也能根據圖像生成可互動的世界,但交互時間僅有 10 到 20 秒,且并非實時進行,分辨率也停留在 360p。而 Genie 3 則實現了質的提升,它能以 720p 的分辨率和每秒 24 幀(24fps)的速率流暢運行,用戶可以持續進行長達數分鐘的互動。

圖丨Genie 3 的重要參數對比(DeepMind)
更重要的是,Genie 3 擁有了初步的“記憶”能力。在其技術演示中,模型能夠維持大約一分鐘的視覺記憶。如果一個用戶在一個生成的房間墻壁上涂鴉,然后轉身探索別處,過一會再回到原地,墻上的涂鴉依舊會保留。這種對環境狀態的持續性記憶,是營造沉浸式體驗的關鍵,它解決了前代模型在長時間交互后容易出現內容“遺忘”或前后矛盾的問題。DeepMind 的研究人員指出,這種長時程的一致性是一種涌現能力,并非被直接編碼到模型中,這使得 Genie 3 生成的世界遠比過去更加動態和豐富。
除了基礎的導航探索,Genie 3 還引入了一項名為“可提示的世界事件”(promptable World Events)的功能。這允許用戶在交互過程中,通過新的文本指令動態地改變世界。比如,用戶可以在一個寧靜的滑雪場景中輸入指令“加入一群鹿”,模型便會實時在環境中生成相應的動態角色。
同樣,用戶也可以通過指令改變天氣、添加物體,甚至召喚出完全不合常理的角色,如“穿著天鵝絨背心的大猩猩”。這種能力極大地增強了交互的自由度和創造性,使得這些 AI 生成的世界更像一個可以隨意修改的“沙盒”,而不僅僅是一個被動探索的環境。
那么,谷歌為何要大力投入研發這樣的世界模型?其應用遠不僅限于游戲和娛樂。DeepMind 認為,Genie 3 更深遠的目標在于推動通用人工智能(AGI,Artificial General Intelligence)的發展。研究人員認為,世界模型是通往 AGI 的關鍵基石,因為它們能夠為 AI Agent 提供一個近乎無限的、豐富多樣的模擬環境來進行訓練。
為了驗證這一點,DeepMind 已經將 Genie 3 用于其通用 AI 智能體 SIMA(Scalable, Instructable, Multiworld Agent)的訓練。SIMA 的目標是學習在各種不同的 3D 虛擬環境中遵循自然語言指令來完成任務。通過在 Genie 3 生成的無數個世界中進行訓練,SIMA 可以學習如何導航、與物體互動以及適應不可預見的突發狀況,例如,指示 Agent 在一個虛擬花園里完成“靠近水管”這樣的任務。這種方式為訓練更強大、更通用的具身智能體(embodied agents),例如未來可能應用于工業、物流領域的自主機器人,提供了成本更低、效率更高且環境更多樣化的解決方案。
不過,雖然 Genie 3 取得了巨大進步,但其目前仍存在諸多局限性。首先,Agent 本身能夠執行的動作范圍(action space)仍然有限,許多復雜的環境干預需要通過文本提示而非 Agent 的直接操作來完成。其次,模型在模擬多個獨立的 AI 智能體在共享環境中進行復雜互動方面仍面臨挑戰。
此外,Genie 3 目前還無法以完美地理精度模擬現實世界中的真實地點,并且其文本渲染能力較弱,通常只有在輸入提示詞中明確提供時,才能生成清晰易讀的文字。最后,雖然“數分鐘”的互動時長已是巨大進步,但這與真正意義上可以長時間游玩的電子游戲或進行長期模擬的科學研究相比,仍有不小的距離。
目前,Genie 3 并不會向公眾開放。谷歌僅提供一個“有限研究預覽版”給一小部分經過挑選的學者和創作者使用。谷歌表示,此舉的目的是為了在更廣泛地推廣這項技術之前,能夠更好地理解其潛在的風險和挑戰,并與社區合作,以負責任的方式推動技術發展。
雖然距離打造出如《星際迷航》中“全息甲板”那樣的終極虛擬現實體驗還有很長的路要走,但 Genie 3 作為第一個真正意義上實現了實時交互的通用世界模型,已經清晰地展示了這樣一條技術路徑的可能性。