一手實測：文心開源全新思考模型，讓老外驚掉下巴精華

AIGC新知

發布于 2025-9-26 00:21

瀏覽

0收藏

開源的風，終于吹到了百度，力度還挺大。

上周百度開源了一個輕量級的思考模型：文心思考模型ERNIE-4.5-21B-A3B-Thinking，一款 MoE 架構的開源思考模型。它的總參數規模為 21B，但每個 token 僅激活 3B，實現了輕量高效。

這款模型已在星河社區、HuggingFace 等平臺開源，旨在支持開發者進行二次開發和創新。

值得注意的是，9 月 12 日當天，文心思考模型 ERNIE-4.5-21B-A3B-Thinking在 HuggingFace 全球模型總趨勢榜和文本模型趨勢榜均排名第一。

一手實測：文心開源全新思考模型，讓老外驚掉下巴-AI.x社區

海外的Reddit社區，很多人都在熱火朝天的討論著， ERNIE-4.5-21B-A3B-Thinking的表現非常令人印象深刻，是他們使用過的中文模型中最好的一個。

一手實測：文心開源全新思考模型，讓老外驚掉下巴-AI.x社區

HuggingFace研究員等X上的AI博主，也都在討論這款模型。

一手實測：文心開源全新思考模型，讓老外驚掉下巴-AI.x社區

究竟強不強，我們一試便知。

ERNIE-4.5-21B-A3B-Thinking：開源思考模型，輕量高效

相較于剛發布的文心 X1.1 深度思考模型，這款模型會適合輕量級場景、對獨立開發者更加友好。

該模型專注于提升推理的質量和深度，在邏輯推理、數學、科學、編碼和文本生成等任務上性能顯著提升。

一手實測：文心開源全新思考模型，讓老外驚掉下巴-AI.x社區

此外，它還增強了 128K 的長上下文理解能力。

接下來將以幾個實際的例子帶大家來看一下這款模型的效果。

首先我用它幫我做了一個VR游戲模擬器，看起來非常逼真。

提示詞：設計一個VR游戲模擬器吧

一手實測：文心開源全新思考模型，讓老外驚掉下巴-AI.x社區

還能幫我設計出五行屬性的卡牌游戲。

提示詞：搞一個角色扮演的卡牌類游戲網頁，金木水火土五種屬性

一手實測：文心開源全新思考模型，讓老外驚掉下巴-AI.x社區

還能做MBTI這種，直接推斷當天的氣運。

提示詞：搞一個MBTI （不同人格）x 玄學 x 不同文化結合的H5網頁

一手實測：文心開源全新思考模型，讓老外驚掉下巴-AI.x社區

邏輯推理能力

題目1：請解決以下邏輯謎題：在一個小鎮上有三個人，分別是醫生、律師和教師。已知：①醫生不是A；②B不是律師；③C不是教師。請推斷出A、B、C各自的職業，并詳細說明你的推理過程。

一手實測：文心開源全新思考模型，讓老外驚掉下巴-AI.x社區

數學問題解決能力

題目2：求解以下數學問題：已知一個直角三角形的兩條直角邊分別為3和4，求斜邊的長度，并給出解題步驟。

一手實測：文心開源全新思考模型，讓老外驚掉下巴-AI.x社區

題目3：

已知函數 ( f(x) = x^3 - 6x^2 + 11x - 6 )，請完成以下任務：

求函數的導數 ( f'(x) )。
利用導數求函數的極值點，并判斷這些極值點是極大值還是極小值。
求函數在 ( x = 2 ) 處的切線方程。

請給出詳細的解題步驟和結果。

一手實測：文心開源全新思考模型，讓老外驚掉下巴-AI.x社區

科學知識理解與應用

題目4：

在化學反應 ( 2H_2 + O_2 =2H_2O ) 中，已知氫氣（( H_2 )）和氧氣（( O_2 )）的摩爾質量分別為2 g/mol和32 g/mol。現在有8 g的氫氣和32 g的氧氣進行反應，請回答以下問題：

計算反應物的摩爾數。
判斷反應物中哪一個是限制性試劑，并說明原因。
計算反應完成后生成的水（H2O）的質量。
從能量守恒的角度解釋為什么這個反應是放熱反應。請給出詳細的解題步驟和結果。

一手實測：文心開源全新思考模型，讓老外驚掉下巴-AI.x社區

編程輔助能力

題目5：

題目：請用Python編寫一個程序，實現一個簡單的任務調度系統。該系統需要滿足以下功能：
任務定義：
定義一個Task類，包含以下屬性：
task_id（任務ID，唯一標識一個任務，類型為整數）。
name（任務名稱，類型為字符串）。
priority（任務優先級，類型為整數，數字越大優先級越高）。
execution_time（任務執行時間，單位為秒，類型為浮點數）。
為Task類添加一個方法__str__，用于返回任務的基本信息，格式為"Task ID: {task_id}, Name: {name}, Priority: {priority}, Execution Time: {execution_time}s"。
任務調度器：
定義一個TaskScheduler類，包含以下功能：
使用一個列表存儲所有任務。
提供一個方法add_task(task)，用于向調度器中添加一個任務。
提供一個方法remove_task(task_id)，根據任務ID從調度器中移除一個任務。
提供一個方法schedule_tasks()，按照任務的優先級從高到低調度任務。如果優先級相同，則按照任務添加的順序進行調度。調度時，打印出每個任務的信息，并模擬任務的執行時間（可以使用time.sleep()函數來模擬）。
提供一個方法get_task_info(task_id)，根據任務ID獲取任務的詳細信息，如果任務不存在，則返回"Task not found"。
測試代碼：
創建一個TaskScheduler對象。
添加以下任務：
Task(1, "Task A", 2, 3.0)
Task(2, "Task B", 1, 2.0)
Task(3, "Task C", 3, 1.0)
調用schedule_tasks()方法，觀察任務是否按照優先級正確調度。
調用get_task_info(2)，獲取任務2的詳細信息并打印。
調用remove_task(1)，移除任務1。
再次調用schedule_tasks()方法，觀察任務1是否被正確移除。

一手實測：文心開源全新思考模型，讓老外驚掉下巴-AI.x社區

長文本理解和生成能力評測

題目6：閱讀以下段落，并根據要求完成任務：

“在當今數字化時代，大數據技術已經滲透到我們生活的方方面面。從電子商務平臺通過用戶行為數據進行精準營銷，到金融機構利用大數據分析評估信用風險，再到智慧城市項目中通過交通流量數據優化城市交通管理，大數據的應用場景無處不在。然而，大數據的收集、存儲和處理也面臨著諸多挑戰。數據安全問題首當其沖，數據泄露可能導致個人隱私泄露和企業商業機密被竊取。此外，數據的質量和準確性也直接影響到數據分析結果的可靠性。如何確保數據的質量、保護數據安全，同時充分發揮大數據的價值，成為企業和政府亟待解決的問題。”

總結這段文字的主要內容，包括大數據的應用場景、面臨的挑戰以及需要解決的問題。
根據這段文字，生成一篇800字左右的評論文章，探討大數據技術在現代社會中的重要性以及應對挑戰的策略。要求文章結構清晰，觀點明確，論據充分，語言流暢。請給出總結和生成的文章內容。

最終的結果：

一手實測：文心開源全新思考模型，讓老外驚掉下巴-AI.x社區

ERNIE X1.1：全能型選手，能力再攀高峰

還有一個文心 X1.1 深度思考模型也給上線了，在智能體、工具調用、指令遵循、事實性等方面有了很大的提升。

而且，它是在文心4.5模型基礎之上訓練的深度思考模型，采用了全新的迭代式混合強化學習訓練框架，不僅僅提升了通用任務和智能體任務的效果，做到既能干活、又能人機協作，模型整體的效果提高了一個檔次。

一手實測：文心開源全新思考模型，讓老外驚掉下巴-AI.x社區

在官方評測中，ERNIE X1.1 的整體效果領先于 DeepSeekR1-0528，并與 GPT-5 和 Gemini 2.5 Pro 表現持平。

現在普通用戶可以在文心一言官網、文小言APP、百度智能云千帆平臺都可以使用到。

一手實測：文心開源全新思考模型，讓老外驚掉下巴-AI.x社區

文心一言官網：https://yiyan.baidu.com/X1

接下來會有幾個好玩的case。

1、穿越劇劇本創作

穿越劇一直是影視作品中的熱門題材，充滿了奇幻和趣味性。如果讓X1.1創作一個穿越劇劇本，可以檢驗其在構建奇幻情節和融合不同歷史時期元素方面的能力。

請以“一個程序員意外穿越到古代成了皇帝”為情節創作一個短劇本，要求包含程序員的現代思維與古代宮廷生活的沖突和趣事。

一手實測：文心開源全新思考模型，讓老外驚掉下巴-AI.x社區

X1.1創作的劇本中，程序員皇帝會用代碼來管理國家事務，引發大臣們的困惑；或者用現代的科學知識解決古代的難題，卻鬧出一系列笑話；也可能因為不適應古代的禮儀而鬧出許多烏龍，整個劇本充滿了幽默和奇幻色彩，同時又能巧妙地融合現代與古代的元素。

2、為動漫角色寫“失憶后的生活”故事

動漫角色失憶后會發生什么有趣的事情呢？這個測試可以展現X1.1在構建二次元世界和角色性格扮演方面的能力。

請以《海賊王》中的路飛為主角，寫一段他失憶后誤入現代都市生活的故事，要求突出他的性格特點和由此引發的搞笑事件。

一手實測：文心開源全新思考模型，讓老外驚掉下巴-AI.x社區

X1.1可能會寫出路飛失憶后把城市的高樓當成山峰去攀爬，或者誤把餐廳的菜單當成了藏寶圖，引發一系列啼笑皆非的事件。

同時，他樂觀、直爽的性格在現代都市環境中會制造出很多有趣的沖突和笑料，整個故事既保留了角色的核心特點，又充滿了現代生活的趣味性。

3、“如果動物會說話”系列故事

請以“如果貓會說話，它會如何吐槽它的主人”為主題創作一段幽默故事。

一手實測：文心開源全新思考模型，讓老外驚掉下巴-AI.x社區

X1.1創作的故事中，貓可能會用優雅而傲嬌的語氣吐槽主人的種種行為，比如吐槽主人的起床時間太晚耽誤了它的早餐，或者吐槽主人的發型像被老鼠啃過一樣。整個故事通過貓的視角展現日常生活的點滴，充滿了幽默和詼諧，同時也體現了貓的獨特性格和視角。

4、“如果歷史人物開直播”互動腳本

這個測試可以檢驗X1.1在構建互動場景和歷史人物性格展現方面的能力，同時也充滿了趣味性和現代感。

請以諸葛亮為主角，寫一段他如果開直播講解《三國演義》的互動腳本，要求包含他與觀眾的互動和幽默講解。

一手實測：文心開源全新思考模型，讓老外驚掉下巴-AI.x社區

X1.1創作的腳本中，諸葛亮用他那深沉而有智慧的語氣開場：“各位觀眾，今日我諸葛亮在此開講三國之事，爾等可要仔細聽好。”

然后在講解過程中，他會用現代的語言和例子來解釋復雜的三國戰略，比如把赤壁之戰比作一場大型的團隊對抗賽，還會與觀眾互動，回答他們關于三國的各種奇奇怪怪的問題，甚至可能會用一些幽默的網絡梗來解釋歷史事件，讓整個直播既有趣又富有知識性。

再來一個高難度的case，直接讓它幫我制作圖表。

請為我設計一個符合企業級標準的三維可視化數據大屏，參照現代科技感的紫色與橙色漸變風格，創建一個尖端科技風格的企業級數據可視化大屏HTML/CSS/JS完整應用，基于我提供的數據[這里可以描述您的具體數據]，遵循以下規范： 
## 設計風格 
- 使用深色背景（深藍/黑色）作為基底，創造沉浸式數據體驗 
- 采用紫色、粉色、藍色漸變作為主色調，配以橙色/珊瑚色作為強調色 
- 所有圖表和界面元素應有發光邊緣效果，增強科技感和立體感 
- 設計布局應采用三維空間感，讓數據圖表懸浮于不同層級 

## 核心功能需求 
1. 多維度數據可視化
- 包含折線圖、柱狀圖、面積圖、散點圖、熱力圖等多種圖表類型
- 所有圖表需支持3D效果和懸浮式設計
- 圖表間需有聯動效果，一個圖表的數據變化會影響其他相關圖表 
2. 實時數據交互 
- 所有圖表支持鼠標懸停顯示詳細數據信息
- 圖表支持縮放、旋轉等交互操作 
3. 動態效果 
- 數據加載和更新時的流動動畫效果
- 數據變化時的平滑過渡動效
- 背景元素（如粒子、光線）的微妙流動效果
- 3D空間中的數據元素漂浮動效 
4. 移動端適配 - 設計移動端控制面板，如參考圖下方所示的手機界面 - 移動端界面應保持與大屏相同的設計語言 - 支持通過移動設備遠程控制大屏展示內容 

## 技術實現 
- 純前端實現：HTML5 + CSS3 + 現代JavaScript 
- 基于Three.js或Echarts-GL實現3D可視化效果 
- 使用WebGL處理大量數據渲染 
- 支持多種數據源接入（API、CSV、數據庫等） 

## 適配性要求 
- 設計應具有靈活的數據模型，能適應不同行業的數據結構
- 提供模板配置系統，允許用戶自定義布局和圖表組合 
- 支持多種分辨率（16:9、21:9、4:3等）屏幕比例 

## 交付成果：完整的可視化大屏前端代碼

一手實測：文心開源全新思考模型，讓老外驚掉下巴-AI.x社區

寫在最后

ERNIE X1.1 和 ERNIE-4.5-21B-A3B-Thinking 的發布，不僅展示了文心大模型在技術上的領先地位，更體現了百度對開發者生態的重視。

ERNIE-4.5-21B-A3B-Thinking則以其高效的 MoE 架構和開源屬性，為廣大開發者提供了觸手可及的頂尖推理模型。
ERNIE X1.1憑借其全面的能力和強大的“思考”深度，為企業級應用提供了堅實的基礎。

通過“技術領先 + 開源友好 + 開發者友好”的戰略，百度文心大模型正在構建一個充滿活力的技術生態，讓每一位開發者都能利用前沿的 AI 技術，創造出無限可能。

本文本文轉載自????AIGC新知????，作者：絳燁

標簽

文心開源

思考模型

AI玩法

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

一手實測：文心開源全新思考模型，讓老外驚掉下巴精華