圖靈測試過時了！奧特曼與量子計算之父提出的2.0來了

2025-11-14 11:19:08

隨著現在的主流大模型都能輕松通過圖靈測試，這個持續了數十年的標準開始逐漸過時。奧特曼和量子計算之父David Deutsch討論得出了一個新的圖靈測試2.0標準，可以更好地衡量究竟怎樣AI才算擁有真正的智能。

在過去的一年里，如果你還在用圖靈測試來評判一款大模型是否聰明，那可能已經有點跟不上節奏了。

從GPT-4、Claude 2、Gemini、LLaMA 3開始的這些模型，已經可以輕輕松松在圖靈測試中拿到通行證。

有研究者甚至表示：圖靈測試已經過時了。

只要模型在網上混得久一點、見多識廣一點，就能騙過絕大多數人類評審。

問題是：一臺會說話的機器，真的代表它理解你說的話嗎？

在最近的Axel Springer頒獎典禮上，奧特曼和量子物理學家David Deutsch正面交鋒，提出了一個新標準。

他們的對話中，一個大膽的提議浮出水面——圖靈測試2.0。

1950年，圖靈在那篇著名論文《計算機器與智能》（Computing Machinery and Intelligence）中設想：如果一臺機器能通過文字交流騙過人類評審，讓人以為它是另一個人，那么它就具備了智能。

這個標準在七十年前或許非常超前，但在今天的模型面前，已經有些不堪一擊。

2023年底，UCSD的一項研究找來500名受訪者與大模型對話，結果發現GPT-4在偽裝成人類時勝率超過50%，而人類本身在這個測試中的識別率也不過如此。

Claude 2、LLaMA 3也都在類似實驗中表現出色，順利蒙混過關。

也就是說，按照圖靈的標準，它們已經可以被認為是「有智能」的了。但這真的夠了嗎？

在Axel Springer的頒獎典禮上，主持人提到奧特曼最喜歡的一本書是《無窮的開始：世界進步的本源》，于是主辦方搞了個「驚喜連線」——作者David Deutsch出現在大屏幕上。

于是，一場關于AI是否真的「懂得思考」的對談開始了。

Deutsch的核心觀點是：真正的智能，應該能夠創造新知識、提出新假設、解決新問題，甚至推翻舊認知。

奧特曼接話拋出了一個假設：

如果某個模型哪天解出了量子引力的問題，并且能清楚地告訴我們它是怎么想的、為啥這么選，那這是不是就能算是真正的智能？

Deutsch回答：是的。

奧特曼點頭：「那我也同意用這個標準。」

一拍即合。奧特曼和Deutsch版圖靈測試2.0誕生了。

David Deutsch是個很特別的人。

他是量子計算理論的早期提出者之一，1985年就發表了關于「量子圖靈機」的論文（Quantum theory, the Church-Turing principle and the universal quantum computer），為之后的量子計算模型打下基礎。

但他更出圈的身份，是一位科學哲學布道者。

在《無窮的開始：世界進步的本源》里，他提出一個觀點：人類文明的進步，來自于不斷創造好解釋（good explanations）。

而「好解釋」的產生，正是智能的核心。

所以他在那場對談中，不斷強調「解釋力」——不僅要得到答案，還要能說清楚它為什么成立。否則只能算是黑箱，不算是真正的理解。

從一開始，圖靈測試就是個偽裝游戲。考驗的不是AI是否聰明，而是它能不能騙過人類。

但今天的模型越來越會騙了，有時連自己是不是AI都不太確定。

這讓圖靈測試在某種程度上失去了它的參考價值。

而Deutsch和Altman所設想的版本，更像是一種「創造力測試」——模型是否具備科學研究的能力，是否能提出新理論，是否能自洽地解釋自己的推理。

這個標準很高，甚至高到今天所有AI都達不到。

但它至少指向了一個方向：我們真正關心的，不僅僅是機器能不能說得像人，而更重要的是它有沒有可能在理解世界這件事上，成為我們的伙伴。

責任編輯：張燕妮來源：新智元