1500篇關(guān)于提示工程的學(xué)術(shù)論文表明你所知道的一切都是錯誤的

那些年收入超過 5000 萬美元的公司正在做著與大家所教完全相反的事情。經(jīng)過六個月的深入研究,閱讀了1500多篇論文,并分析了真正推動業(yè)務(wù)成果的技術(shù),我得出了一個令人不安的結(jié)論:網(wǎng)絡(luò)社區(qū)上流傳的大多數(shù)提示工程建議不僅無益,而且適得其反。
那些年收入 (ARR) 達(dá)到 5000 萬美元以上功能的公司并沒有遵循社交媒體討論中盛行的“最佳實(shí)踐”。他們系統(tǒng)性地采取了與傳統(tǒng)觀點(diǎn)相反的做法。聽起來不錯的東西和實(shí)際可行的東西之間存在著巨大的差距。
這不僅僅是學(xué)術(shù)上的好奇心。了解在提示工程中真正有效的方法與在會議演講中聽起來不錯的方法,可能會決定哪些AI功能是用戶滿意的,哪些是耗費(fèi)預(yù)算卻無法創(chuàng)造價值的。
在分析了數(shù)百份研究論文和現(xiàn)實(shí)世界的實(shí)施之后,我發(fā)現(xiàn)了六個普遍存在的誤區(qū),這些誤區(qū)正在誤導(dǎo)團(tuán)隊,而成功的公司則采用了經(jīng)過研究支持的現(xiàn)實(shí)方法。
改變一切的研究
在深入探討具體的誤區(qū)之前,重要的是要理解為什么傳統(tǒng)的提示工程智慧常常是錯誤的。大多數(shù)建議都來自于使用性能較差的模型進(jìn)行的早期實(shí)驗(yàn)、小規(guī)模測試的軼事證據(jù),或未考慮生產(chǎn)環(huán)境復(fù)雜性的理論框架。
相比之下,學(xué)術(shù)研究則涉及使用大型數(shù)據(jù)集進(jìn)行受控實(shí)驗(yàn)、對不同模型架構(gòu)進(jìn)行系統(tǒng)性比較,以及對哪些方法真正提升了性能而非僅僅出于直覺而進(jìn)行嚴(yán)格的統(tǒng)計分析。一位在快速優(yōu)化領(lǐng)域發(fā)表過大量論文的研究人員告訴我:“在人工智能領(lǐng)域,看似聰明的做法和實(shí)際可行的做法之間存在巨大差距。人們的決策是基于直覺,而不是證據(jù)。”
我發(fā)現(xiàn)的六個誤區(qū)代表了流行建議和經(jīng)驗(yàn)證據(jù)之間最大的差距。
誤區(qū)一:提示越長、越詳細(xì),結(jié)果就越好
在提示工程中最普遍的誤區(qū)是,提示越詳細(xì)、越長,結(jié)果就越好。這種直覺是有道理的——如果你向人類尋求幫助,提供更多背景信息和具體說明通常會帶來更好的結(jié)果。
但人工智能模型的運(yùn)作方式與人類不同。研究一致表明,結(jié)構(gòu)良好的簡短提示通常比冗長的提示效果更好,同時還能顯著降低成本。
最近的一項(xiàng)研究比較了不同任務(wù)類型提示的長度,發(fā)現(xiàn)結(jié)構(gòu)化的短提示在保持相同輸出質(zhì)量的同時,將 API 成本降低了 76%。關(guān)鍵在于結(jié)構(gòu),而不是長度。
過長的提示實(shí)際上會降低性能,因?yàn)樗鼤朐胍簟a(chǎn)生相互沖突的指令,或?qū)⒅匾纳舷挛臄D到模型的注意力范圍之外。最有效的提示是精準(zhǔn)且簡潔的語言。
現(xiàn)實(shí):結(jié)構(gòu)比長度更重要。一個條理清晰的50字題目通常比一個冗長的500字題目效果更好,而且執(zhí)行成本也低得多。
誤區(qū)二:更多的例子總是有幫助的(少量提示法)
少量樣本提示法(提供所需輸入-輸出對的示例)在大型語言模型的早期發(fā)展中變得流行,因?yàn)楫?dāng)時的演示顯著提升了模型的性能。這導(dǎo)致了一種假設(shè):示例越多,結(jié)果就越好。
最近的研究表明,這種假設(shè)不僅是錯誤的,而且可能對 GPT-4 和 Claude 等先進(jìn)模型造成危害。
現(xiàn)代模型足夠復(fù)雜,無需大量示例即可理解指令,而提供不必要的示例實(shí)際上可能會混淆模型或使其偏向不能很好地推廣到新輸入的模式。
現(xiàn)實(shí):像 OpenAI 的 o1 這樣的高級模型在輸入示例時實(shí)際上表現(xiàn)更差。它們足夠復(fù)雜,能夠理解直接指令,而示例可能會引入不必要的偏差或噪聲。
誤區(qū)三:完美的措辭最重要
提示工程中最耗時的環(huán)節(jié)之一是措辭——精心構(gòu)思完美的措辭、調(diào)整語氣、優(yōu)化用詞。許多團(tuán)隊花費(fèi)數(shù)小時討論是否應(yīng)該使用“請”或特定的術(shù)語。
研究表明,這種努力在很大程度上是錯誤的。提示的格式和結(jié)構(gòu)遠(yuǎn)比使用的具體詞語更重要。
具體來說,對于 Claude 模型而言,無論具體內(nèi)容如何,XML 格式與自然語言格式相比,性能始終提升 15%。這種格式優(yōu)勢往往比精心的詞匯優(yōu)化更有價值。
現(xiàn)實(shí):格式勝過內(nèi)容。XML 標(biāo)簽、清晰的分隔符和結(jié)構(gòu)化的格式比完美的措辭更能帶來持續(xù)的改進(jìn)。
誤區(qū)四:思路鏈適用于一切
思路鏈提示法(要求模型“逐步思考”)在研究顯示數(shù)學(xué)推理任務(wù)顯著提升后變得極為流行。這一成功促使其在各類問題中得到廣泛應(yīng)用。
但思路提示并非萬能的解決方案。它對數(shù)學(xué)和邏輯推理任務(wù)很有效,但對許多其他應(yīng)用卻收效甚微,實(shí)際上還會損害某些任務(wù)的性能。
具體來說,對于數(shù)據(jù)分析任務(wù),研究表明,表格鏈方法(圍繞表格數(shù)據(jù)構(gòu)建推理)比傳統(tǒng)的思路鏈方法提高了 8.69%。
現(xiàn)實(shí):思路鏈?zhǔn)轻槍μ囟ㄈ蝿?wù)的。它擅長數(shù)學(xué)和邏輯,但像表格鏈這樣的專業(yè)方法更適合數(shù)據(jù)分析任務(wù)。
誤區(qū)五:人類專家寫出最好的提示
認(rèn)為人類專家是最好的提示工程師,這種假設(shè)在直覺上是有道理的。人類能夠理解上下文、細(xì)微差別以及特定領(lǐng)域的需求,而這些方式似乎無法被自動化所理解。
最近關(guān)于自動提示優(yōu)化的研究表明,這種假設(shè)是錯誤的。人工智能系統(tǒng)能夠比人類專家更有效地優(yōu)化提示,而且速度顯著加快。
比較人類提示工程師和自動優(yōu)化系統(tǒng)的研究發(fā)現(xiàn),AI 系統(tǒng)能夠持續(xù)生成性能更佳的提示,而且只需 10 分鐘,而人類則需要 20 小時。
現(xiàn)實(shí):人工智能在極短的時間內(nèi)就能比人類更好地優(yōu)化提示。人類的專業(yè)知識更應(yīng)該用于定義目標(biāo)和評估結(jié)果,而不是精心設(shè)計提示。
誤區(qū)六:設(shè)定好之后就忘掉它
或許最危險的誤區(qū)是,提示工程只是一次性的優(yōu)化任務(wù)。團(tuán)隊投入精力創(chuàng)建提示,將其部署到生產(chǎn)環(huán)境中,并假設(shè)它們會一直保持最佳狀態(tài)。
實(shí)際數(shù)據(jù)顯示,隨著模型變化、數(shù)據(jù)分布變化和用戶行為演變,提示性能會隨著時間的推移而下降。那些憑借人工智能功能取得持續(xù)成功的公司將提示優(yōu)化視為一個持續(xù)的過程,而非一次性任務(wù)。
持續(xù)提示優(yōu)化研究表明,與靜態(tài)提示相比,系統(tǒng)改進(jìn)流程可以在 12 個月內(nèi)將性能提高 156%。
現(xiàn)實(shí):持續(xù)優(yōu)化至關(guān)重要。隨著系統(tǒng)性的改進(jìn)流程,績效會隨著時間的推移顯著提升。
5000萬美元以上ARR公司實(shí)際上在做什么
那些開發(fā)可擴(kuò)展、帶來巨額收入的人工智能功能的公司并沒有遵循社交媒體的建議。他們遵循著完全不同的策略:
- 他們優(yōu)化的是業(yè)務(wù)指標(biāo),而不是模型指標(biāo)。他們關(guān)注的不是技術(shù)性能指標(biāo),而是用戶滿意度、任務(wù)完成率和收入影響。
- 它們實(shí)現(xiàn)了提示優(yōu)化的自動化。它們不再需要人工手動迭代提示,而是采用系統(tǒng)化的方法不斷測試和改進(jìn)提示的性能。
- 它們構(gòu)建了一切。格式、組織和清晰的分隔符比巧妙的措辭或冗長的例子更重要。
- 他們根據(jù)任務(wù)類型制定專門的技術(shù)。他們不會將思路鏈應(yīng)用到所有問題上,而是根據(jù)具體問題類型匹配優(yōu)化技術(shù)。
- 他們把提示視為產(chǎn)品。與任何產(chǎn)品功能一樣,提示需要基于真實(shí)用戶數(shù)據(jù)持續(xù)維護(hù)、改進(jìn)和優(yōu)化。
方法論差距
這些謬論之所以持續(xù)存在,是因?yàn)閷W(xué)術(shù)研究與行業(yè)實(shí)踐之間存在根本的方法論差距。學(xué)術(shù)研究人員在多個模型架構(gòu)上進(jìn)行了有適當(dāng)基線、統(tǒng)計顯著性檢驗(yàn)和系統(tǒng)評估的受控實(shí)驗(yàn)。
行業(yè)從業(yè)者通常依賴直覺、小規(guī)模的 A/B 測試或特定用例的軼事證據(jù)。這形成了一個反饋循環(huán),無效的技術(shù)會因?yàn)楦杏X正確而不是持續(xù)有效而得到強(qiáng)化。
“應(yīng)用人工智能的最大問題是,人們只關(guān)注有意義的東西,而不是真正有效的方法,”一家大型科技公司的機(jī)器學(xué)習(xí)工程師向我解釋道。“研究提供了直覺常常忽略的基本事實(shí)。”
實(shí)際意義
理解這些研究結(jié)果對于構(gòu)建人工智能功能的任何人來說都具有直接的實(shí)際意義:
- 從結(jié)構(gòu)入手,而非內(nèi)容。在措辭之前,先花時間整理格式和組織結(jié)構(gòu)。
- 盡早實(shí)現(xiàn)自動化優(yōu)化。構(gòu)建系統(tǒng)來系統(tǒng)地測試和改進(jìn)提示,而不是依賴手動迭代。
- 將技巧與任務(wù)相匹配。數(shù)學(xué)推理使用思路鏈,數(shù)據(jù)分析使用表格鏈,其他大多數(shù)應(yīng)用則使用直接指令。
- 衡量業(yè)務(wù)影響。跟蹤對您的用戶和業(yè)務(wù)至關(guān)重要的指標(biāo),而不是抽象的模型性能分?jǐn)?shù)。
- 制定持續(xù)改進(jìn)計劃。將快速優(yōu)化融入到持續(xù)的開發(fā)流程中,而不是將其視為一次性任務(wù)。
競爭優(yōu)勢
那些以研究而非傳統(tǒng)觀念為基礎(chǔ)進(jìn)行提示工程設(shè)計的公司將獲得顯著的競爭優(yōu)勢:
他們以更低的成本實(shí)現(xiàn)了更高的績效。他們構(gòu)建了更穩(wěn)健、更持續(xù)改進(jìn)的系統(tǒng)。他們避免了那些遵循流行但無效建議的團(tuán)隊陷入死胡同。
最重要的是,他們可以將人類的專業(yè)知識集中在高價值活動上,例如定義目標(biāo)和評估結(jié)果,而不是手動提示制作。
每個團(tuán)隊都應(yīng)該問的問題
- 不要問“我們?nèi)绾尾拍軐懗龈玫奶崾荆俊保獑枴拔覀內(nèi)绾尾拍芨鶕?jù)經(jīng)驗(yàn)證據(jù)系統(tǒng)地優(yōu)化我們的人工智能交互?”
- 這種視角的轉(zhuǎn)變讓你從追隨趨勢轉(zhuǎn)向追隨數(shù)據(jù)。它讓你的團(tuán)隊能夠構(gòu)建真正可擴(kuò)展的AI功能,而不是那些在演示中聽起來很棒但無法提供可持續(xù)價值的功能。
- 您的團(tuán)隊對提示工程的假設(shè)有哪些是基于傳統(tǒng)觀念而非研究成果?如何挑戰(zhàn)這些假設(shè)才能提高績效并降低成本?
那些在人工智能領(lǐng)域取得成功的公司,并非那些追隨社交媒體上最響亮聲音的公司。他們將會是那些遵循證據(jù)的公司,即使這些證據(jù)與大眾觀點(diǎn)相悖。研究結(jié)果很明確。問題在于你是否準(zhǔn)備好忽略那些迷思,遵循真正有效的方法。






























