管提需求,大模型解決問題:圖表處理神器SheetCopilot上線
這種絲滑的操作流程簡直是職場人的福音!

近日,來自中科院自動化所、港理工等機構(gòu)的研究者們造出了一個「表格 AI 助手」SheetCopilot,該智能體能根據(jù)用戶指令生成操縱表格的解決方案并在特定軟件(如:Excel、GoogleSheets 等)上執(zhí)行。SheetCopilot 可以快速連接多款表格處理軟件,且支持多表操作、圖表繪制和數(shù)據(jù)透視表生成,有望賦能多個領(lǐng)域的表格數(shù)據(jù)處理和可視化,并向?qū)崿F(xiàn)通才智能助手邁出關(guān)鍵一步。

網(wǎng)站:https://sheetcopilot-demo.github.io/
論文:https://arxiv.org/abs/2305.19308
讓我們首先通過以下示例來感受 SheetCopilot 如何顯著提升工作效率。
假如你是一個剛?cè)肼毿“祝幸惶炖习逡竽銕退治鲣N售數(shù)據(jù)。你拿到表格一看,上千行的數(shù)據(jù)眼花繚亂,一時不知從何下手,于是你邊查邊做。
首先,你嘗試采用把各 Product 名稱提取出來,然后用公式對各 Product 的收入求和。

搞了二十多分鐘,SUMIF 一直報”#NAME?”的錯誤,遂放棄。
繼續(xù)上網(wǎng)搜索,發(fā)現(xiàn)還有數(shù)據(jù)透視表(Pivot table)這么方便的工具,于是開始第二次挑戰(zhàn)。

又花了二十多分鐘,終于搞定。整個過程將近一個小時,效率不如人意。以后每次老板交個你新的表格處理任務,你之前的經(jīng)驗派不上用場,又得從頭開始邊查網(wǎng)站邊做: (。
你的同事則使用 SheetCopilot,伸個懶腰的工夫就把各種奇怪的要求都完成了: )。

看到 SheetCopilot 如此絲滑,你也簡單嘗試了一下,畫個圖不在話下。

有了 SheetCopilot,你再也不用把鼠標滑過半張桌子的距離來選中超出屏幕的數(shù)據(jù)了,輕松讓上千行數(shù)據(jù)在多張表之間輾轉(zhuǎn)騰挪。

為什么提出 SheetCopilot
長久以來,人們一直渴望擁有即使沒有專業(yè)經(jīng)驗也能熟練掌握復雜軟件的能力。許多人都曾遇到過這樣的情況:不知如何操作 PhotoShop 的繁瑣界面,想要分析數(shù)據(jù)卻不知道數(shù)據(jù)透視表這一高級功能,想要繪制齒輪卻對 Solidworks 一無所知。
隨著具有強大語言理解和生成能力的大型語言模型(LLM)的出現(xiàn),這個愿景比以往任何時候都更接近現(xiàn)實。如果能夠引導 LLM 掌握各種軟件,就能夠釋放出 LLM 幾乎無限的潛能,進而讓人類的生產(chǎn)力達到前所未有的高度。
這篇文章指出電子表格(Spreadsheet)是進行這項研究的理想基礎(chǔ),因為它是一種常見的多功能生產(chǎn)工具。然而,表格操控面臨著多樣化的挑戰(zhàn),用戶難以掌握足夠的表格處理和編程技巧以應對變化多端的任務需求。
如果有一種通才 AI 智能體,它掌握豐富的軟件操控技能,那么不僅辦公效率能得到極大提升,企業(yè)產(chǎn)出也會大大加快。SheetCopilot 的出現(xiàn)正好契合了人們這樣的遠景。
SheetCopilot 有哪些亮點
1. 覆蓋表格處理的典型需求
SheetCopilot 涵蓋了表格操作的幾乎所有典型任務,可以出色地完成各式圖表生成任務。

銷售數(shù)據(jù)分析

實驗圖表繪制

復雜公式計算

應用條件格式
2. 超越基于 VBA 的方法
SheetCopilot 優(yōu)于用GPT-3.5 生成 VBA 代碼并執(zhí)行的方法,生成的解決方案的顯著優(yōu)于后者(見下圖),這使得 SheetCopilot 有望成為數(shù)據(jù)處理人員未來強大的 AI 輔助工具。

不僅如此,相比于晦澀的 VBA 代碼,SheetCopilot生成的解決方案包含通俗易懂的步驟,這免去了學習新編程語言并艱難調(diào)試的痛苦。

左圖:冗長的 VBA 代碼;右圖:SheetCopilot簡單易懂的解決方案。
3. 舒適的使用體驗
SheetCopilot 在網(wǎng)絡(luò)連接穩(wěn)定的情況下,僅需約 10 步多表組合操作,即可在上千行數(shù)十列的表格中快速完成任務。這不僅解放了用戶疲憊的雙眼,還節(jié)省了查找網(wǎng)站并逐個嘗試操作步驟所浪費的時間,同時也避免了學習 VBA 的成本。

方法原理
這篇文章將表格操控所需的核心功能抽象為一組虛擬 API(稱為原子操作,見下圖),用于生成解決方案,作為 LLM 與應用軟件之間交互的橋梁。

最簡單的方法是對 LLM 的一次查詢(query)生成一個任務的所有步驟。然而,隨著任務復雜度的增加,后序步驟更加依賴前序步驟的執(zhí)行結(jié)果,導致這種開環(huán)控制難以得到正確結(jié)果。例如,如果無法確定篩選后可見數(shù)據(jù)的位置,LLM 就難以確定操作范圍。
為了實現(xiàn)高效的閉環(huán)控制,SheetCopilot 根據(jù)軟件狀態(tài)反饋和外置原子操作知識庫優(yōu)化解決方案,提升了成功率和效率。
如何評測
該文提出了一個高質(zhì)量評測基準。該基準的任務具有多樣化的表述,并涉及豐富的原子操作,如下面詞云所示:

此基準采用了如下有關(guān)成功率的指標(越高越好):
- Exec@1:生成的任務解決方案的執(zhí)行成功率。
- Pass@1:任務通過率,即執(zhí)行后能匹配上任意參考答案的解決方案的占比。
此基準還考慮如下效率指標(越低越好):
- A50:將符合任務要求的解決方案的步數(shù)除以參考答案最少步數(shù),然后對所有計算結(jié)果取中位數(shù)。
- A90:計算方式同上,但取所有計算結(jié)果的 90 分位數(shù)。該指標反映動作數(shù)的極值分布。
實驗結(jié)果

表 1:在 SheetCopilot 數(shù)據(jù)集上對比 GPT-3.5-Turbo、GPT-4、Claude 以及生成 VBA 的方法。
不出意料,GPT-4 符合任務要求的解決方案占比最高且效率最優(yōu),而 GPT-3.5-Turbo 則緊隨其后,Claude 最次但也接近 GPT-3.5-Turbo。
一個值得關(guān)注的結(jié)果是,與將用戶指令翻譯成 VBA 代碼并在 Excel 上執(zhí)行的方法對比,SheetCopilot 取得了非常出色的成功率。這意味著 SheetCopilot 讓軟件智能控制離我們又近了一大步,讓不會編程的用戶能以日常交流的方式指揮計算機完成繁雜的工作。
我們再通過下面各個細分類別上的指標來看一看這三個 LLM 各自的優(yōu)缺點。

GPT-3.5 和 GPT-4 輕而易舉地解決了 Management(排序、篩選等表格管理操作)和 Entry & manipulation(數(shù)據(jù)輸入與操縱)這兩類任務,均取得了 100% 可執(zhí)行率。此外,三個 LLM 在不同任務類別中各自表現(xiàn)出最佳效率,這一有趣的發(fā)現(xiàn)表明每個 LLM 都有其獨特的優(yōu)勢,GPT-4 也難以完勝其它模型。
結(jié)語
SheetCopilot 借助 LLM成功地將感知、推理和決策通過文字接口構(gòu)成了一個閉環(huán),實現(xiàn)高效的電子表格操控,促進智能軟件控制更上一層樓,也為對通才智能體感興趣的研究者帶來了新的靈感。





















