Baidu is back」,在業界權威大模型公共基準測試平臺 LMArena 發布最新一期文本競技場排名(Text Arena)之后,有人發出了這樣的驚呼。

根據 11 月 8 日凌晨 LMArena 的最新排名顯示,百度文心最新模型 ERNIE-5.0-Preview-1022(文心 5.0 Preview)在文本榜單上一舉躍居全球并列第二、國內第一。
該模型取得了 1432 的高分,其與 OpenAI 的 gpt-4.5-preview-2025-02-27 以及 Anthropic 的 claude-opus-4-1-0805、claude-sonnet-4-5-20250929 三大國外頂級模型持平。

評論區的網友紛紛對百度新模型的亮眼表現送上了祝賀,還表示「已經迫不及待想親自體驗一番」。


毫無疑問,此次榜單結果將繼續強化百度文心系列模型在全球通用智能模型競爭格局中第一梯隊的地位。
全球 LLM 實戰擂臺,文心 5.0 Preview 悄然廝殺而來
在 AI 領域,LMArena 是由加州大學伯克利分校研究者創建的開放 AI 模型評測平臺,成為了 OpenAI、谷歌等國外以及國內大模型廠商廝殺的頂級競技場之一。
在該平臺上,用戶自己提交 prompt,接著系統會隨機抽取兩個匿名的 LLM 分別生成回答。用戶根據兩條回答選擇偏好,即「哪一個更好」或「兩者都差」等。更具體地,LMArena 會為每個模型分配初始 Elo 分數,并在每輪對決結束后實時更新分數。
相較于依賴傳統靜態數據集或自動評分的基準平臺,LMArena 通過真實用戶對模型輸出的偏好投票,形成了一種偏向于「現實世界評判」的動態排名機制。這種機制讓模型能力之間的較量更貼近實際使用場景,也讓榜單的含金量更高。
能在 LMArena 榜單上名列前茅的模型,在學術指標上表現突出之外,更在用戶體驗、語言理解、創意生成與指令執行等實際應用維度獲得廣泛認可。文心 5.0 Preview 正是在這樣真實的 LLM 對決戰場取得了優異表現。
具體來講,文心 5.0 Preview 在創意寫作、復雜長問題理解和指令遵循等方面表現出色,整體成績超越了包括 GPT-5-High 在內的多款國內外主流大模型。
其中,文心 5.0 Preview 在衡量創意生產力的重要指標——創意寫作任務中排名第一,這意味著其生成文章、營銷文案、劇本等內容的速度與質量均有大幅提升;在考驗模型處理多層邏輯與長文本能力的復雜長問題理解中排名第二,其更加勝任學術問答、報告分析、知識推理等高認知任務;在體現模型對用戶意圖理解與執行精度的指令遵循任務中排名第三,其在智能助理、代碼生成與業務自動化等場景的適用性大大增強。
