精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時 原創

發布于 2025-10-30 13:32
瀏覽
0收藏

編輯 | 云昭

如果讓大模型去外包平臺去接單,它真的可以賺到錢嗎?

現在終于有專業的評測機構站出來公布答案了。不用硬夸AI,事實是讓它接單,它會餓死。

今天一早,大洋彼岸的“AI評測”王牌企業Scale AI剛剛發布了一項非同尋常的新指標:RLI(遠程勞動力指數)。

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時-AI.x社區

顧名思義,就是專門用于實證評測大模型或者Agent產品能夠獨立執行真實且具經濟價值的遠程工作的能力。

它回答的是一個盤桓在AI圈上空的許久沒有解決的問題——AI真的可以自動化替代人類有價值的工作嗎?

這一基準也第一時間得到了前CEO Alexandr Wang的轉發。

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時-AI.x社區

結果顯示,不管是GPT-5,還是Claude Sonnet、Gemini,亦或是主打通用Agent的Manus,都統統被人類接單首踩在泥土里,真實水平墊底。

1.讓大模型去賺外快,打工秒變打臉

如果讓GPT去知名接單平臺賺任務,是否真的可以賺到錢?

這個問題,最近被 Scale AI 認真地做了一遍實驗——他們推出了一個名為 “Remote Labor Index(遠程勞動指數,RLI)” 的新基準。

讓AI去干真實的自由職業工作,然后看看能不能交差。

Scale把AI模型當作真正的“打工人”,從Upwork平臺上挑了240個真實項目,涵蓋寫報告、修圖、建3D模型、做音效、寫代碼……然后給AI發任務,看它能否完成、能賺多少錢、能替代多少人工成本。

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時-AI.x社區圖片

這些項目都是ScaleAI精挑細選出來,真能交易的項目,平均每單高達630美刀以上。

總經濟價值: 143,991 美元

項目難度和價值: RLI 項目反映了真實自由職業工作的復雜性,遠遠超過了以往的基準。

人類平均完成時間: 28.9 小時(中位數:11.5 小時)

項目平均價值: 632.60 美元(中位數:200 美元)

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時-AI.x社區圖片

結果出來之后,全場沉默了。在RLI榜單中,所有AI模型的表現幾乎都跌到了谷底。

2.98% AI提交的項目被“老板退貨”

結果是,這240個項目,AI提交的作品,即便成績最好的選手,也僅被老板認可了6個,234個項目都被退貨了。

而更沒想到的是,這位最優生,不是GPT-5,也不是Sonnet,而是今年爆火的黑馬 Manus,自動化率為 2.5%。

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時-AI.x社區圖片

其他模型表現更慘:

Claude Sonnet 4.5、GPT-5、Gemini 2.5 Pro、ChatGPT Agent……全部“翻車”,沒一個能穩定交付客戶滿意的作品。

而且,據ScaleAI放出的官方博文介紹,AI雖然很高產,但交付的質量實在是沒眼看,可以說全軍覆沒。平均每個項目的人類用時是28.9小時,AI花同樣的“算力時間”,多數交付品卻被判為“不合格”。

人工評審總結了失敗原因:

  • 45.6%:作品質量太差,像小學生練手。
  • 35.7%:交付不完整,視頻截斷、文件丟失。
  • 17.6%:格式錯誤、文件損壞。
  • 14.8%:視覺或邏輯不一致,比如3D建筑的不同視角完全對不上。

唯一的亮點,是在部分音頻處理和圖片生成任務中,AI能完成得像模像樣。比如做廣告圖、分離人聲這類“創意但封閉”的任務。

在同步發布的官方視頻中,美人工智能安全中心執行主任 Dan Hendrycks 和 Scale AI 研究主管Bing Liu指出:

AI完成得較好的少數任務多來自創意領域,如音頻與圖像生成,比如為游戲制作音效、剪輯配音、生成Logo等。這些領域的AI已經能與人類專業人士旗鼓相當。

但凡涉及跨文件邏輯、復雜工具鏈、長期一致性……AI都露餡了。

但更復雜的任務——那些需要多步驟執行、嚴格遵守說明、持續數小時甚至更久的項目——仍會讓最強的模型出錯。

所以,Scale團隊得出了很殘酷的結論:

“AI絕對自動化幾乎為零。”AI還遠遠不能替代專業遠程勞動。

3.這項基準報告,意義有何不同

小編看來,這項新發布的基準,意義非同尋常。

因為,要知道現在AI圈為什么非常卷?其中很大一部分原因,就在于大家一直在已有的基準評測上卷來卷去。從一開始的文科能力再到理科題目,再到今年的各種Coding、Agentic能力。

但問題是,卷來卷去,我們在實測中發現,結果想要勉強滿意,大概率都是要多次抽卡的。

所以,既然已有的測評數據集已經不能用來評估人類真正所需的模型能力,我們就必須設計一種新的評估或測評基準,一種真正可以評估如何評價智能體是否真的在做事的方法。

這也是為什么Scale AI要構建一個衡量完整自動化產出的基準,而不是只測單項技能的原因。

如果只測寫作或數學等單項技能,就無法評估AI是否能在長時間跨度內持續完成任務。模型可能在某個環節出錯,導致整體無效。這些問題在孤立技能測試中很難被捕捉。

我們希望關注那些人類需要花數小時或數天完成的任務,這樣的評估更具生態真實性,更能反映現實中的工作狀態。

畢竟,真實工作并非一連串孤立任務,它涉及上下文整合、信息綜合和跨任務協作。只有把這些因素都處理好,才能真正勝任工作。

因此,我們關注的不是AI是否能解封閉題,而是能否完成一個完整的工作流。

4.許多知名測評基準已過時

那么,究竟這樣一份“讓AI去自由職業接單平臺的測評”,跟其他知名基準,比如GDP-eval、SWE-bench 有何不同?


在采訪中,Hendrycks 給出了答案:原來那些基準要么過于封閉,要么測得不準,要么已經過時。

以“humanity's last exam”為例,那類基準是封閉題、非行動型的;而RLI是開放的、具備行為導向的。

GDP-val雖然試圖覆蓋經濟任務,但它聲稱AI已接近人類水平,這顯然不現實。如果真那樣,世界早已截然不同。

SWE-bench主要測AI在軟件工程領域(如Django類問題)的能力,但業內普遍認為,它對實際開發影響的預測力越來越低,比如對Cursor等工具的應用參考價值有限。

這些基準要么過于封閉,要么測得不準,要么已“封頂”失去預測效度。而RLI旨在更開放、更貼近經濟實況,覆蓋更廣泛的真實任務與項目。

這里,他們還提到了用合成任務來做測試集的不合理之處。“合成任務往往缺乏真實性!”

Liu Bing:為什么要在真實付費任務上測試,而不是合成任務?

Hendrycks :因為真實工作中充滿各種邊緣情況,而沒有什么比現實更復雜。若想了解AI在現實世界的影響,就必須使用包含這些復雜情境的數據集,而不是人造的“假問題”。合成任務往往缺乏真實性。比如,讓人編個“刁鉆的機器學習題目”,那只是測試數學能力,而非真實工程工作。因此,RLI要立足現實任務,涵蓋足夠多的復雜案例,才能檢驗模型在真實挑戰中的適應力。

5.智能不等于生產力

那么,這份“AI勞動績效表”,究竟該如何看待呢?

首先,需要為所有打工人慶祝一番:AI距離替代人類干活,還很遠。

Hendrycks 在采訪中指出,目前模型在RLI上準確率不足10%,這意味著,在我們測試的所有自由職業任務中,即便是最好的AI模型,也只有不到十分之一的任務能達到客戶可接受的專業水準。

這提醒我們,工作不僅僅是回答問題或生成內容,還包括理解上下文、運用工具,并完整地完成任務——而這是當前AI明顯欠缺的。

其次,這可以說是全球首次用來評估AI“干活能力”的基準。

它和以前那些論文題型的AI測試(比如MMLU、GSM8K)不同,后者主要是測智商,而RLI關注的是真實世界的交付:

能不能打開文件?能不能保存格式?

能不能從A到Z獨立完成一份交差作品?

這才是AI走出實驗室,進入社會的真正門檻。

只不過,如今的結果說明還可以說只是萬里長征第一步,人類還需要為AI收拾爛攤子。AI能生成,但它還不會交差;它可以寫文案、畫圖、寫代碼,但在整合和收尾環節一塌糊涂。

正如Hendrycks在采訪中最后所說的 ,最關鍵的一點是,AI的進步必須以真實經濟價值為衡量標準。

RLI告訴我們,“智能”并不等于“勞動”。真正的自動化,需要AI全面掌握語境、具備可靠性與判斷力。

6.暴風前的平靜:別大意,AI自動打工就在眼前

但別急著對AI失望。Scale AI 團隊發現,雖然AI“干不好活”,但進步是可測的。

他們用Elo評分體系追蹤各模型的相對表現——新一代模型比舊版有穩步提升,哪怕整體分數還低。

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時-AI.x社區圖片

也就是說,AI距離“自動打工”雖然還遠,但它的學習曲線是清晰的。

或許當我們下次再測,Automation Rate從2.5%升到10%、30%、50%——有了新榜單可以刷,早晚,“AI勞動力市場”就真的要誕生了。

別忘了,就在昨天,剛完成重組的OpenAI就馬不停蹄的宣布了它們的3年目標:2026年9月之前,讓一個自動化的AI研究實習生在數十萬張GPU上運行,并在2028年3月之前實現真正的自動化AI研究員。

要實現這個任務,安全策略、價值觀對齊、算力、資金的問題顯然要交給OpenAI這個龐然大物去處理,但具體該如何評價“AI自動化”能力,恐怕就要從今天Scale AI提出的RLI開始了。

Ps:小編突然想到今年6月,強化學習之父Sutton在智源大會演講中提到的AI發展的新階段。

“高質量的人類數據資源已經幾乎被用到極限……

如果我們希望 AI 擁有真正的創造力和適應能力,它必須進入一個全新的階段,也就是‘經驗時代’。在這個階段,AI 不再依賴固定的數據集,而是通過自身與外部世界的交互,從中獲取經驗并不斷進化。”

那看來,從這個測評基準開始,AI真得要進入“接管真實人類派單”的經驗時代了!

論文地址也為大家扒下來了,enjoy!

論文鏈接:

??https://scale.com/research/rli????https://static.scale.com/uploads/654197dc94d34f66c0f5184e/Remote_Labor_Index%20(4).pdf??

本文轉載自??51CTO技術棧??,作者:云昭

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
精品国产鲁一鲁一区二区三区| 欧美一区观看| 国产 日韩 欧美 成人| 欧美sss在线视频| 欧美色区777第一页| 青青草综合在线| 毛片在线能看| 国产成人午夜视频| 亲子乱一区二区三区电影| 免费黄在线观看| 成人av动漫| 欧美色中文字幕| 免费 成 人 黄 色| 日本韩国在线视频爽| 91丨porny丨首页| 成人精品久久一区二区三区| 成人午夜视频精品一区| 99久久99久久精品国产片果冰| 亚洲国产精品人久久电影| 亚洲欧美视频二区| 成人av观看| 亚洲在线中文字幕| 综合视频在线观看| 伦理片一区二区三区| 国产成人免费视频网站| 国产日韩欧美夫妻视频在线观看| www.中文字幕在线观看| 欧美色综合网| 久久久精品一区二区| 欧美多人猛交狂配| 日韩高清一级| 欧美精品一区二区三区四区 | 天堂av网手机版| 国产精品对白久久久久粗| 欧美精品高清视频| 久久久久国产一区| 欧美日韩视频免费观看| 大桥未久av一区二区三区| 日b视频免费观看| wwwav在线| 自拍偷在线精品自拍偷无码专区| 日韩欧美亚洲区| 久草视频在线看| 2021国产精品久久精品| 久久五月天婷婷| 先锋av资源站| 波多野结衣在线一区| 国产精品.com| 免费看av毛片| 成人av第一页| 久精品国产欧美| 五月婷婷久久久| jlzzjlzz国产精品久久| 久久精品人成| 久青青在线观看视频国产| 久久综合狠狠综合久久综合88 | 日韩在线观看| yw.139尤物在线精品视频| 国产三级精品三级观看| 97视频热人人精品免费| 久久久精品一区二区| 欧美日韩精品一区二区三区视频播放 | 国语对白在线刺激| 亚洲一区二区三区小说| 人妻夜夜添夜夜无码av| 日产福利视频在线观看| 色婷婷av一区二区三区gif| 国产成人精品无码播放| 992tv国产精品成人影院| 欧美日韩国产综合久久| 在线观看视频你懂得| 超碰97久久国产精品牛牛| 亚洲福利视频二区| 男女做爰猛烈刺激| 久久日文中文字幕乱码| 欧美巨猛xxxx猛交黑人97人| 国产五月天婷婷| 毛片一区二区| 成人a在线观看| 秋霞视频一区二区| 久久九九99视频| 在线免费观看成人网| 欧美人与性动交α欧美精品济南到 | 综合另类专区| 欧美日韩一区二区三区四区五区| 手机av在线网站| 老司机成人在线| 中文字幕精品久久| 青青草手机在线观看| 亚洲一区二区三区四区五区午夜 | 日韩免费av网站| 激情五月婷婷综合| 精品一区2区三区| 日韩精品成人av| 亚洲国产日产av| 91日韩视频在线观看| 亚洲成人偷拍| 一区二区三区日韩在线| 成人免费看片98| 日韩精品亚洲专区| 国产精品一区二区免费看| 黄视频在线观看免费| 一区二区激情视频| 日本美女高潮视频| 国产精品视频3p| 色诱女教师一区二区三区| 日韩欧美亚洲视频| 精品一区二区三区免费播放| 精品综合久久| 日韩影视在线| 欧美日韩视频在线第一区| 国产极品一区二区| 91综合视频| 国产成人精品一区二区三区| 亚洲欧美国产高清va在线播放| 国产精品污污网站在线观看| 日本国产在线播放| 一区二区三区在线资源| 中文字幕亚洲自拍| 日日噜噜噜噜人人爽亚洲精品| 国产成人av电影免费在线观看| 亚洲va韩国va欧美va精四季| 在线看片福利| 亚洲国产日韩欧美在线99| 国产精品视频一区二区三| 日韩精品一卡二卡三卡四卡无卡| 精品无码久久久久国产| 久久免费电影| 日韩欧美国产三级| 欧美日韩午夜视频| 久久精品国产第一区二区三区 | 66久久国产| 国产欧美日韩综合精品| 国产一区二区三区福利| 欧美性xxxxx极品娇小| 在线精品一区二区三区| 在线国产欧美| 国产精品自拍首页| 成人女同在线观看| 日韩欧美一卡二卡| 极品久久久久久| 国内精品久久久久影院一蜜桃| 亚洲bbw性色大片| 国产91亚洲精品久久久| 一区二区三区天堂av| 日韩av免费播放| 日本一区二区视频在线| 欧美三级理论片| 成人高清电影网站| 国产日韩在线看| 国内外激情在线| 日韩欧美精品在线| 久久久国产精品黄毛片| 成人午夜视频在线| 欧美黑人经典片免费观看| 婷婷综合一区| 国产成人一区三区| 尤物视频在线免费观看| 69成人精品免费视频| 成年人一级黄色片| 丁香啪啪综合成人亚洲小说| 精品少妇在线视频| 亚洲人成网亚洲欧洲无码| 国产精品福利在线观看| 日本中文字幕伦在线观看| 欧美一级夜夜爽| 精品无码一区二区三区电影桃花| www.视频一区| 激情综合网婷婷| 日韩电影免费网址| 91精品国产99久久久久久红楼 | 国产精品一区二区在线| 国产精品一区二区三区视频网站| 欧美不卡一区二区| 男人午夜免费视频| 国产精品女主播在线观看| 久久久久久久久久久久久久久国产 | 久久福利一区二区| 日韩成人av在线资源| 国产精品自拍视频| 日韩少妇视频| 亚洲无亚洲人成网站77777| 怡红院男人天堂| 亚洲欧美激情在线| 免费的av网站| 久久99久久99| 日日摸日日碰夜夜爽无码| 欧美一区二区三| 国产成人精品免费视频大全最热 | 欧美成熟毛茸茸复古| 老司机精品视频网| 国内精品一区二区三区四区| 国产美女性感在线观看懂色av| 7777精品伊人久久久大香线蕉超级流畅| 日韩乱码一区二区| 国产精品福利影院| 在线免费观看黄色小视频| 极品美女销魂一区二区三区| 欧美成人一区二区在线观看| 国产精品精品国产一区二区| 精品欧美日韩| 国产一区二区av在线| 国产精品96久久久久久| 韩国日本一区| 久久深夜福利免费观看| 国产一区二区影视| 亚洲精品aⅴ中文字幕乱码| 国产裸体无遮挡| 在线看国产一区二区| 九九热国产视频| 亚洲靠逼com| 日韩av片在线| 久久人人超碰精品| 午夜免费福利影院| 国产在线视频一区二区三区| 国产视频一区二区三区在线播放 | 少妇愉情理伦片bd| 美国十次了思思久久精品导航 | 国产午夜免费视频| 亚洲人吸女人奶水| 日韩视频在线观看免费视频| 成人精品亚洲人成在线| 红桃视频 国产| 视频一区中文字幕| 97视频在线免费播放| 激情综合自拍| 国产日韩亚洲欧美在线| 国产精品毛片久久| 亚洲人成网站在线观看播放| 国产精品中文字幕亚洲欧美| 精品视频导航| 国产精品巨作av| 国产精品久久波多野结衣| 年轻的保姆91精品| 91久久精品美女高潮| 久久电影天堂| 国产日韩欧美日韩大片| 欧美一级免费| 国产在线视频91| 久久99国产精品二区高清软件| 国产成人鲁鲁免费视频a| 一区二区电影免费观看| 全球成人中文在线| 三级成人在线| 国产精品视频精品视频| 日韩精品专区| 国产精品国内视频| 电影一区二区| 成人网在线免费看| 日韩视频1区| 粉嫩av免费一区二区三区| 超碰成人在线免费| 精品综合在线| 国产剧情在线观看一区| 色噜噜色狠狠狠狠狠综合色一| 国产日韩欧美一区二区三区| 日韩中文字幕av在线| 日韩中文欧美| 国产手机视频在线观看| 欧美日本不卡高清| 97超碰在线人人| 久久久综合网| 狠狠干狠狠操视频| 国产91精品一区二区麻豆网站| 男女性杂交内射妇女bbwxz| av成人免费在线观看| 天天躁日日躁aaaxxⅹ| 欧美高清在线一区| 五月综合色婷婷| 午夜精品福利视频网站| 亚洲熟女综合色一区二区三区| 欧美性一级生活| 国产黄色片免费观看| 亚洲国产精品高清久久久| 国产福利免费在线观看| www.午夜精品| av今日在线| 国产精品视频1区| japanese色系久久精品| 麻豆精品视频| 亚洲国产一成人久久精品| 欧美深夜福利视频| 蜜桃视频第一区免费观看| 亚洲一级Av无码毛片久久精品| 久久女同精品一区二区| 国产精品白丝喷水在线观看| 精品国产老师黑色丝袜高跟鞋| 中国a一片一级一片| 亚洲成人激情图| 95在线视频| 久久久在线视频| 成人在线视频免费| 国产亚洲欧美一区二区三区| 日韩一区二区在线| www.com毛片| 国产精品自在在线| 免费看91的网站| 亚洲成人福利片| 一区二区三区精彩视频| 亚洲精品小视频在线观看| 黄色网址在线免费| 国产91在线高潮白浆在线观看| 色妞ww精品视频7777| 午夜老司机精品| 亚洲深爱激情| 欧美xxxx黑人| 国产精品欧美一区喷水| 国产精品黄色大片| 欧美刺激脚交jootjob| 又爽又大又黄a级毛片在线视频| 26uuu日韩精品一区二区| 日韩精品一级| 自拍偷拍亚洲色图欧美| 日韩和欧美一区二区| av鲁丝一区鲁丝二区鲁丝三区| 一区二区三区免费网站| 一区二区三区精| 中文字幕日韩在线视频| 三上悠亚激情av一区二区三区| 国产精品一区二区三区在线 | 欧美理伦片在线播放| 黄色一级片av| 激情综合色丁香一区二区| 我不卡一区二区| 91成人在线精品| 欧美另类自拍| 欧美一级大片在线免费观看| 成人影院中文字幕| 热久久最新网址| 国产一区二区91| 看免费黄色录像| 这里只有精品免费| 免费在线毛片网站| 国产日韩欧美日韩大片| 日韩精品四区| 91高清国产视频| 国产精品女上位| 91国在线视频| 精品国偷自产在线视频| 日韩综合久久| 7777在线视频| 国产裸体歌舞团一区二区| 日韩影院一区二区| 日韩欧美专区在线| 污污的视频在线观看| 9a蜜桃久久久久久免费| 欧美1级日本1级| 色姑娘综合天天| 一区二区三区在线视频免费观看| 99久久精品日本一区二区免费| 久久资源免费视频| 清纯唯美激情亚洲| av无码久久久久久不卡网站| 99久久婷婷国产综合精品| 国产精品第5页| 亚洲一区av在线播放| 激情中国色综合| 99久re热视频精品98| 丁香婷婷深情五月亚洲| 免费观看成人毛片| 亚洲天堂av综合网| 国模私拍国内精品国内av| 中文字幕日韩精品一区二区| 国产精品66部| 性无码专区无码| 中文字幕欧美日韩精品| 国产精品久久免费视频| 免费看欧美一级片| 2021中文字幕一区亚洲| 一级aaaa毛片| 久久久久久久97| 久久99久久人婷婷精品综合 | 天天操夜夜操视频| 一本大道亚洲视频| 精品国产第一国产综合精品| 久久久久久久9| 国产欧美精品国产国产专区| 91国在线视频| 2019亚洲日韩新视频| 操欧美老女人| 亚洲一级Av无码毛片久久精品| 色综合久久66| a毛片在线观看| 欧美一进一出视频| 国产精品99久久久久久久女警| 国产一级特黄aaa大片| 亚洲色图美腿丝袜| 日韩精品视频中文字幕| 黄色av免费在线播放| 一区二区三区av电影| 福利片在线看| 国产精品免费观看高清| 日本成人超碰在线观看| 国产亚洲精品久久久久久无几年桃 | youjizz.com日本| 91福利在线导航| 91www在线| 波多野结衣三级在线| 久久久久国色av免费看影院| 国产黄色片免费|