一手實測:文心開源全新思考模型,讓老外驚掉下巴 精華
開源的風,終于吹到了百度,力度還挺大。
上周百度開源了一個輕量級的思考模型:文心思考模型ERNIE-4.5-21B-A3B-Thinking,一款 MoE 架構的開源思考模型。它的總參數規模為 21B,但每個 token 僅激活 3B,實現了輕量高效。
這款模型已在星河社區、HuggingFace 等平臺開源,旨在支持開發者進行二次開發和創新。
值得注意的是,9 月 12 日當天,文心思考模型 ERNIE-4.5-21B-A3B-Thinking在 HuggingFace 全球模型總趨勢榜和文本模型趨勢榜均排名第一。

海外的Reddit社區,很多人都在熱火朝天的討論著, ERNIE-4.5-21B-A3B-Thinking的表現非常令人印象深刻,是他們使用過的中文模型中最好的一個。

HuggingFace研究員等X上的AI博主,也都在討論這款模型。

究竟強不強,我們一試便知。
ERNIE-4.5-21B-A3B-Thinking:開源思考模型,輕量高效
相較于剛發布的文心 X1.1 深度思考模型,這款模型會適合輕量級場景、對獨立開發者更加友好。
該模型專注于提升推理的質量和深度,在邏輯推理、數學、科學、編碼和文本生成等任務上性能顯著提升。

此外,它還增強了 128K 的長上下文理解能力。
接下來將以幾個實際的例子帶大家來看一下這款模型的效果。
首先我用它幫我做了一個VR游戲模擬器,看起來非常逼真。
提示詞:設計一個VR游戲模擬器吧

還能幫我設計出五行屬性的卡牌游戲。
提示詞:搞一個角色扮演的卡牌類游戲網頁,金木水火土五種屬性

還能做MBTI這種,直接推斷當天的氣運。
提示詞:搞一個MBTI (不同人格)x 玄學 x 不同文化 結合的H5網頁


邏輯推理能力
題目1:請解決以下邏輯謎題:在一個小鎮上有三個人,分別是醫生、律師和教師。已知:①醫生不是A;②B不是律師;③C不是教師。請推斷出A、B、C各自的職業,并詳細說明你的推理過程。

數學問題解決能力
題目2:求解以下數學問題:已知一個直角三角形的兩條直角邊分別為3和4,求斜邊的長度,并給出解題步驟。

- 題目3:
已知函數 ( f(x) = x^3 - 6x^2 + 11x - 6 ),請完成以下任務:
- 求函數的導數 ( f'(x) )。
- 利用導數求函數的極值點,并判斷這些極值點是極大值還是極小值。
- 求函數在 ( x = 2 ) 處的切線方程。
請給出詳細的解題步驟和結果。

科學知識理解與應用
題目4:
在化學反應 ( 2H_2 + O_2 =2H_2O ) 中,已知氫氣(( H_2 ))和氧氣(( O_2 ))的摩爾質量分別為2 g/mol和32 g/mol。現在有8 g的氫氣和32 g的氧氣進行反應,請回答以下問題:
- 計算反應物的摩爾數。
- 判斷反應物中哪一個是限制性試劑,并說明原因。
- 計算反應完成后生成的水(H2O)的質量。
- 從能量守恒的角度解釋為什么這個反應是放熱反應。 請給出詳細的解題步驟和結果。

編程輔助能力
題目5:
題目:請用Python編寫一個程序,實現一個簡單的任務調度系統。該系統需要滿足以下功能:
任務定義:
定義一個Task類,包含以下屬性:
task_id(任務ID,唯一標識一個任務,類型為整數)。
name(任務名稱,類型為字符串)。
priority(任務優先級,類型為整數,數字越大優先級越高)。
execution_time(任務執行時間,單位為秒,類型為浮點數)。
為Task類添加一個方法__str__,用于返回任務的基本信息,格式為"Task ID: {task_id}, Name: {name}, Priority: {priority}, Execution Time: {execution_time}s"。
任務調度器:
定義一個TaskScheduler類,包含以下功能:
使用一個列表存儲所有任務。
提供一個方法add_task(task),用于向調度器中添加一個任務。
提供一個方法remove_task(task_id),根據任務ID從調度器中移除一個任務。
提供一個方法schedule_tasks(),按照任務的優先級從高到低調度任務。如果優先級相同,則按照任務添加的順序進行調度。調度時,打印出每個任務的信息,并模擬任務的執行時間(可以使用time.sleep()函數來模擬)。
提供一個方法get_task_info(task_id),根據任務ID獲取任務的詳細信息,如果任務不存在,則返回"Task not found"。
測試代碼:
創建一個TaskScheduler對象。
添加以下任務:
Task(1, "Task A", 2, 3.0)
Task(2, "Task B", 1, 2.0)
Task(3, "Task C", 3, 1.0)
調用schedule_tasks()方法,觀察任務是否按照優先級正確調度。
調用get_task_info(2),獲取任務2的詳細信息并打印。
調用remove_task(1),移除任務1。
再次調用schedule_tasks()方法,觀察任務1是否被正確移除。

長文本理解和生成能力評測
題目6:閱讀以下段落,并根據要求完成任務:
“在當今數字化時代,大數據技術已經滲透到我們生活的方方面面。從電子商務平臺通過用戶行為數據進行精準營銷,到金融機構利用大數據分析評估信用風險,再到智慧城市項目中通過交通流量數據優化城市交通管理,大數據的應用場景無處不在。然而,大數據的收集、存儲和處理也面臨著諸多挑戰。數據安全問題首當其沖,數據泄露可能導致個人隱私泄露和企業商業機密被竊取。此外,數據的質量和準確性也直接影響到數據分析結果的可靠性。如何確保數據的質量、保護數據安全,同時充分發揮大數據的價值,成為企業和政府亟待解決的問題。”
- 總結這段文字的主要內容,包括大數據的應用場景、面臨的挑戰以及需要解決的問題。
- 根據這段文字,生成一篇800字左右的評論文章,探討大數據技術在現代社會中的重要性以及應對挑戰的策略。要求文章結構清晰,觀點明確,論據充分,語言流暢。請給出總結和生成的文章內容。
最終的結果:

ERNIE X1.1:全能型選手,能力再攀高峰
還有一個文心 X1.1 深度思考模型也給上線了,在智能體、工具調用、指令遵循、事實性等方面有了很大的提升。
而且,它是在文心4.5模型基礎之上訓練的深度思考模型,采用了全新的迭代式混合強化學習訓練框架,不僅僅提升了通用任務和智能體任務的效果,做到既能干活、又能人機協作,模型整體的效果提高了一個檔次。

在官方評測中,ERNIE X1.1 的整體效果領先于 DeepSeekR1-0528,并與 GPT-5 和 Gemini 2.5 Pro 表現持平。
現在普通用戶可以在文心一言官網、文小言APP、百度智能云千帆平臺都可以使用到。

文心一言官網:https://yiyan.baidu.com/X1
接下來會有幾個好玩的case。
1、穿越劇劇本創作
穿越劇一直是影視作品中的熱門題材,充滿了奇幻和趣味性。如果讓X1.1創作一個穿越劇劇本,可以檢驗其在構建奇幻情節和融合不同歷史時期元素方面的能力。
請以“一個程序員意外穿越到古代成了皇帝”為情節創作一個短劇本,要求包含程序員的現代思維與古代宮廷生活的沖突和趣事。

X1.1創作的劇本中,程序員皇帝會用代碼來管理國家事務,引發大臣們的困惑;或者用現代的科學知識解決古代的難題,卻鬧出一系列笑話;也可能因為不適應古代的禮儀而鬧出許多烏龍,整個劇本充滿了幽默和奇幻色彩,同時又能巧妙地融合現代與古代的元素。
2、為動漫角色寫“失憶后的生活”故事
動漫角色失憶后會發生什么有趣的事情呢?這個測試可以展現X1.1在構建二次元世界和角色性格扮演方面的能力。
請以《海賊王》中的路飛為主角,寫一段他失憶后誤入現代都市生活的故事,要求突出他的性格特點和由此引發的搞笑事件。

X1.1可能會寫出路飛失憶后把城市的高樓當成山峰去攀爬,或者誤把餐廳的菜單當成了藏寶圖,引發一系列啼笑皆非的事件。
同時,他樂觀、直爽的性格在現代都市環境中會制造出很多有趣的沖突和笑料,整個故事既保留了角色的核心特點,又充滿了現代生活的趣味性。
3、“如果動物會說話”系列故事
請以“如果貓會說話,它會如何吐槽它的主人”為主題創作一段幽默故事。

X1.1創作的故事中,貓可能會用優雅而傲嬌的語氣吐槽主人的種種行為,比如吐槽主人的起床時間太晚耽誤了它的早餐,或者吐槽主人的發型像被老鼠啃過一樣。整個故事通過貓的視角展現日常生活的點滴,充滿了幽默和詼諧,同時也體現了貓的獨特性格和視角。
4、“如果歷史人物開直播”互動腳本
這個測試可以檢驗X1.1在構建互動場景和歷史人物性格展現方面的能力,同時也充滿了趣味性和現代感。
請以諸葛亮為主角,寫一段他如果開直播講解《三國演義》的互動腳本,要求包含他與觀眾的互動和幽默講解。

X1.1創作的腳本中,諸葛亮用他那深沉而有智慧的語氣開場:“各位觀眾,今日我諸葛亮在此開講三國之事,爾等可要仔細聽好。”
然后在講解過程中,他會用現代的語言和例子來解釋復雜的三國戰略,比如把赤壁之戰比作一場大型的團隊對抗賽,還會與觀眾互動,回答他們關于三國的各種奇奇怪怪的問題,甚至可能會用一些幽默的網絡梗來解釋歷史事件,讓整個直播既有趣又富有知識性。
再來一個高難度的case,直接讓它幫我制作圖表。
請為我設計一個符合企業級標準的三維可視化數據大屏,參照現代科技感的紫色與橙色漸變風格,創建一個尖端科技風格的企業級數據可視化大屏HTML/CSS/JS完整應用,基于我提供的數據[這里可以描述您的具體數據],遵循以下規范:
## 設計風格
- 使用深色背景(深藍/黑色)作為基底,創造沉浸式數據體驗
- 采用紫色、粉色、藍色漸變作為主色調,配以橙色/珊瑚色作為強調色
- 所有圖表和界面元素應有發光邊緣效果,增強科技感和立體感
- 設計布局應采用三維空間感,讓數據圖表懸浮于不同層級
## 核心功能需求
1. 多維度數據可視化
- 包含折線圖、柱狀圖、面積圖、散點圖、熱力圖等多種圖表類型
- 所有圖表需支持3D效果和懸浮式設計
- 圖表間需有聯動效果,一個圖表的數據變化會影響其他相關圖表
2. 實時數據交互
- 所有圖表支持鼠標懸停顯示詳細數據信息
- 圖表支持縮放、旋轉等交互操作
3. 動態效果
- 數據加載和更新時的流動動畫效果
- 數據變化時的平滑過渡動效
- 背景元素(如粒子、光線)的微妙流動效果
- 3D空間中的數據元素漂浮動效
4. 移動端適配 - 設計移動端控制面板,如參考圖下方所示的手機界面 - 移動端界面應保持與大屏相同的設計語言 - 支持通過移動設備遠程控制大屏展示內容
## 技術實現
- 純前端實現:HTML5 + CSS3 + 現代JavaScript
- 基于Three.js或Echarts-GL實現3D可視化效果
- 使用WebGL處理大量數據渲染
- 支持多種數據源接入(API、CSV、數據庫等)
## 適配性要求
- 設計應具有靈活的數據模型,能適應不同行業的數據結構
- 提供模板配置系統,允許用戶自定義布局和圖表組合
- 支持多種分辨率(16:9、21:9、4:3等)屏幕比例
## 交付成果:完整的可視化大屏前端代碼
寫在最后
ERNIE X1.1 和 ERNIE-4.5-21B-A3B-Thinking 的發布,不僅展示了文心大模型在技術上的領先地位,更體現了百度對開發者生態的重視。
- ERNIE-4.5-21B-A3B-Thinking則以其高效的 MoE 架構和開源屬性,為廣大開發者提供了觸手可及的頂尖推理模型。
- ERNIE X1.1憑借其全面的能力和強大的“思考”深度,為企業級應用提供了堅實的基礎。
通過“技術領先 + 開源友好 + 開發者友好”的戰略,百度文心大模型正在構建一個充滿活力的技術生態,讓每一位開發者都能利用前沿的 AI 技術,創造出無限可能。
本文本文轉載自????AIGC新知????,作者:絳燁

















