精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

檢索總結能力超博士后,首個大模型科研智能體PaperQA2開源了

人工智能 新聞
這是 AI 智能體在大部分科學研究中超越人類的第一個案例,或許會徹底改變人類與科學文獻互動的方式。

最近一段時間,有關 AI 科學家的研究越來越多。大語言模型(LLM)有望幫助科學家檢索、綜合和總結文獻,提升人們的工作效率,但在研究工作中使用仍然有很多限制。

對于科研來說,事實性至關重要,而大模型會產生幻覺,有時會自信地陳述沒有任何現有來源或證據的信息。另外,科學需要極其注重細節,而大模型在面對具有挑戰性的推理問題時可能會忽略或誤用細節。

最后,目前科學文獻的檢索和推理基準尚不完善。AI 無法參考整篇文獻,而是局限于摘要、在固定語料庫上檢索,或者只是直接提供相關論文。這些基準不適合作為實際科學研究任務的性能代理,更重要的是,它們通常缺乏與人類表現的直接比較。因此,語言模型和智能體是否適合用于科學研究仍不清楚。

近日,來自 FutureHouse、羅切斯特大學等機構的研究者們嘗試構建一個更為強大的科研智能體,并對 AI 系統和人類在三個現實任務上的表現進行嚴格比較。這三個任務有關搜索整個文獻以回答問題;生成一篇有引用的、維基百科風格的科學主題文章;從論文中提取所有主張,并檢查它們與所有文獻之間的矛盾。

這可能是第一個在多個現實文獻搜索任務上評估單個 AI 系統的強大程序。利用新開發的評估方法,研究者探索了多種設計,最終形成了 PaperQA2 系統,它在檢索和總結任務上的表現超過了博士生和博士后

圖片

將 PaperQA2 應用于矛盾檢測任務讓我們能夠大規模識別生物學論文中的矛盾。例如,ZNF804A rs1344706 等位基因對精神分裂癥患者的大腦結構有積極影響的說法與后來發表的研究相矛盾,該研究發現 rs1344706 對大腦皮質厚度、表面積和皮質體積的影響會加劇患精神分裂癥的風險。

  • 論文地址:https://storage.googleapis.com/fh-public/paperqa/Language_Agents_Science.pdf
  • GitHub 鏈接:https://github.com/Future-House/paper-qa

網友紛紛表示這項工作太棒了,并且是開源的。

圖片

回答科學問題

為了評估 AI 系統對科學文獻的檢索能力,研究者首先生成了 LitQA2,這是一組共 248 個多項選擇題,其答案需要從科學文獻中檢索。LitQA2 問題的設計目的是讓答案出現在論文正文中,但不出現在摘要中,理想的情況下,在所有科學文獻中只出現一次。這些約束使我們能夠通過將系統引用的來源 DOI 與問題創建者最初分配的 DOI 進行匹配來評估回答的準確性(下圖 A)。

為了執行這些標準,研究者生成了大量關于最近論文中模糊的中間發現的問題,然后排除了任何現有 AI 系統或人類注釋者可以使用替代來源進行回答的問題。它們都是由專家生成的。

在回答 LitQA2 問題時,模型可以通過選擇「信息不足,無法回答此問題」來拒絕回答。與先前的研究和實際的科學問題類似,有些問題本來就是無法回答的。研究者評估了兩個指標:精確度(即在提供答案時正確回答的問題的比例)和準確度(即所有問題中正確答案的比例)。此外還考慮了召回率,即系統將其答案歸因于 LitQA2 中表示的正確源 DOI 的問題的總百分比。

在開發了 LitQA2 之后,研究者利用它來設計一個科學文獻的 AI 系統。在 PaperQA 的啟發下,PaperQA2 是一個 RAG 智能體,它將檢索和響應生成視為一個多步驟智能體任務,而不是一個直接過程。PaperQA2 將 RAG 分解為工具,使其能夠修改其搜索參數,并在生成最終答案之前生成和檢查候選答案(下圖 A)。

PaperQA2 可以訪問「論文搜索」工具,其中智能體模型將用戶請求轉換為用于識別候選論文的關鍵字搜索。候選論文被解析為機器可讀的文本,并分塊以供智能體稍后使用。PaperQA2 使用最先進的文檔解析算法(Grobid19),能可靠地解析論文中的章節、表格和引文。找到候選論文后,PaperQA2 可以使用「收集證據」工具,該工具首先使用 top-k 密集向量檢索步驟對論文塊進行排序,然后進行大模型重新排序和上下文摘要(RCS)步驟。

在回答 LitQA2 問題時,PaperQA2 平均每道題解析并使用 14.5 ± 0.6(平均值 ± SD,n = 3)篇論文。在 LitQA2 上運行 PaperQA2 可獲得 85.2% ± 1.1%(平均值 ± SD,n = 3)的精確度和 66.0% ± 1.2%(平均值 ± SD,n = 3)的準確度。另外,系統在 21.9% ± 0.9%(平均值 ± SD,n = 3)的答案中選擇報告「信息不足」(下圖 B)。

研究者發現 PaperQA2 在 LitQA2 基準測試中的精確度和準確度均優于其他 RAG 系統。我們還可以發現,除 Elicit 外所有測試的 RAG 系統在精確度和準確度方面均優于非 RAG 前沿模型。

為了確保 PaperQA2 不會過擬合,從而無法在 LitQA2 上取得優異成績,研究者在對 PaperQA2 進行大量工程改動后,生成了一組新的 101 個 LitQA2 問題。

PaperQA2 在原始 147 個問題上的準確率與后一組 101 個問題的準確率沒有顯著差異,這表明在第一階段的優化已經很好地推廣到了新的 LitQA2 問題(下表 2)。

圖片

PaperQA2 性能分析

研究者嘗試改變 PaperQA2 的參數,以了解哪些參數決定其準確性(下圖 C)。他們創建了一個非智能體版本,其中包含一個硬編碼操作序列(論文搜索、收集證據,然后生成答案)。非智能體系統的準確率明顯較低(t (3.7)= 3.41,p= 0.015),驗證了使用智能體的選擇。

研究者將性能差異歸因于智能體更好的記憶能力,因為它可以在觀察到找到的相關論文數量后返回并更改關鍵字搜索(論文搜索工具調用)。

結果顯示,LitQA2 運行準確度最高時為每個問題進行了 1.26 ± 0.07(平均值 ± SD)次搜索,每個問題進行了 0.46 ± 0.02(平均值 ±SD)次引用遍歷,這表明智能體有時會返回進行額外搜索或遍歷引用圖以收集更多論文。

為了改進相關塊檢索,研究者假設,找到的論文對于現有相關塊的引用者或被引用者而言將是一種有效的分層索引形式。通過去除「引用遍歷」工具驗證了這一點,該工具顯示準確率有所提高(t (2.55) = 2.14,p= 0.069),DOI 召回率顯著提高(t (3) = 3.4,p = 0.022),并在 PaperQA2 流程的所有階段都是如此。該工具的流程反映了科學家與文獻互動的方式。

研究者曾假設解析質量會影響準確度,但 Grobid 解析和更大的塊并沒有顯著提高 LitQA2 的精度、準確度或召回率(下圖 6)。

總結科學主題

為了評估 PaperQA2 的摘要功能,研究者設計了一個名為 WikiCrow 的系統。該系統通過結合多個 PaperQA2 調用來生成有關人類蛋白質編碼基因的維基百科風格文章,而這些調用涉及基因的結構、功能、相互作用和臨床意義等主題。

研究者使用 WikiCrow 生成了 240 篇有關基因的文章,這些文章已經有非存根維基百科文章進行匹配比較。WikiCrow 文章平均為 1219.0 ± 275.0 個字(平均值 ± SD,N = 240),比相應的維基百科文章(889.6 ± 715.3 個字)長。平均文章生成時間為 491.5 ± 324.0 秒,平均每篇文章成本為 4.48 ± 1.02 美元(包括搜索和 LLM API 的費用)。

同時,「引用但不受支持」評估類別包括不準確的陳述(例如真實幻覺或推理錯誤)和準確但引用不當的聲明。

為了進一步調查維基百科和 WikiCrow 中的錯誤性質,研究者手動檢查了所有報告的錯誤,并嘗試將問題分類為以下幾類:

  • 推理問題,即書面信息自相矛盾、過度推斷或不受任何引用支持;
  • 歸因問題,即信息可能得到另一個包含的來源支持,但該聲明在本地沒有包含正確的引用或來源太寬泛(例如數據庫門戶鏈接);
  • 瑣碎的聲明,這些聲明雖是真實的段落,但過于迂腐或沒有必要。

檢測文獻中的矛盾

由于 PaperQA2 可以比人類科學家探索吞吐量高得多的科學文獻,因此研究者推測可以部署它來系統地、大規模地識別文獻中矛盾和不一致的地方。矛盾檢測是一個「一對多」問題,原則上涉及將一篇論文中的觀點或聲明與文獻中所有其他觀點或聲明進行比較。在規模上,矛盾檢測變成了「多對多」問題,對人類來說失去了可行性。

因此,研究者利用 PaperQA2 構建了一個名為 ContraCrow 的系統,可以自動檢測文獻中的矛盾(下圖 A)。

ContraCrow 首先使用一系列 LLM completion 調用從提供的論文中提取聲明,然后將這些聲明輸入到 PaperQA2 中,并附帶矛盾檢測提示。該提示指示系統評估文獻中是否存在與提供的聲明相矛盾的內容,并提供答案和 11-point 李克特量表的選擇。使用李克特量表可讓系統在提供排名時給出更可靠、更易于解釋的分數。

圖片

接下來,研究者評估了 ContraCrow 檢測 ContraDetect 中矛盾的能力。通過將李克特量表輸出轉換為整數,他們能夠調整檢測閾值并獲得 AUC 為 0.842 的 ROC 曲線。將閾值設置為 8(矛盾),ContraCrow 實現了 73% 的準確率、88% 的精度和僅為 7% 的假陽性率(下圖 C)。

圖片

研究者將 ContraCrow 應用于從數據庫中隨機選擇的 93 篇生物學相關論文,平均每篇論文識別出 35.16 ± 21.72(平均值 ± SD,N = 93)個聲明。在對 93 篇論文分析出的 3180 個聲明中,ContraCrow 認為 6.85% 與文獻相矛盾,其中分別有 2.89%、3.77% 和 0.19% 的聲明被打了 8 分、9 分和 10 分(下圖 D)。

圖片

此外,當將李克特量表閾值設定為 8,研究者發現平均每篇論文有 2.34 ± 1.99 個矛盾(平均值 ± SD)(下圖 E)。

圖片

更多任務細節和測試結果請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-06-10 11:22:04

美團

2025-09-02 09:05:00

AI大模型智能體

2025-07-17 08:14:22

2025-06-09 09:41:25

2025-09-25 12:42:33

2013-02-21 15:46:32

寶德深圳博士后

2025-06-09 08:56:00

2023-12-01 09:36:59

華為云大模型混合云華為云行業高峰論壇

2025-03-17 08:40:00

開源智能體框架

2023-11-22 12:41:42

AI模型

2020-06-28 15:01:18

代碼開發繪圖

2025-11-07 09:12:35

2020-12-02 14:56:19

計算機互聯網 技術

2017-01-10 14:24:23

點贊
收藏

51CTO技術棧公眾號

女人天堂av手机在线| 成人免费视频网址| 国产传媒国产传媒| 深夜福利亚洲| 天涯成人国产亚洲精品一区av| 欧美日韩精品免费观看| 国产精品无码白浆高潮| 亚洲日本久久| 色哟哟网站入口亚洲精品| 免费观看污网站| 日韩一级二级 | 久久综合电影一区| 91久久久久久国产精品| 精品99久久久久成人网站免费| 亚洲人成网www| 91精品免费观看| 99精品在线免费视频| 老司机精品影院| 91偷拍与自偷拍精品| 91夜夜未满十八勿入爽爽影院| 精品无码人妻一区二区三区| 欧美一区二区三区高清视频| 亚洲第一男人av| 一级做a免费视频| 欧美伦理91| 玉足女爽爽91| 椎名由奈jux491在线播放| 天天综合在线视频| 国产一区二区三区精品视频| 国产91色在线免费| 精品无码一区二区三区电影桃花| 欧美freesextv| 亚洲性视频网址| 中文在线永久免费观看| 日韩成人精品| 制服.丝袜.亚洲.另类.中文| caoporn超碰97| 在线视频cao| 性欧美疯狂xxxxbbbb| 强开小嫩苞一区二区三区网站| 国产视频福利在线| 久久网站最新地址| 欧美成熟毛茸茸复古| 神马一区二区三区| va亚洲va日韩不卡在线观看| 波多野结衣精品久久| 国产精品美女一区| 九一久久久久久| 国产欧美精品日韩| 中文字幕免费在线看| 日韩一区精品字幕| 日韩av日韩在线观看| 日日夜夜综合网| 99在线热播精品免费99热| 欧美黑人性猛交| 青娱乐91视频| 亚洲午夜精品久久久久久app| 久久精品视频中文字幕| 2014亚洲天堂| 午夜精品一区二区三区国产| 日韩视频欧美视频| 麻豆天美蜜桃91| 伊人情人综合网| 欧美成人一二三| 日本少妇bbwbbw精品| 一本一道久久综合狠狠老精东影业| 欧美国产视频日韩| 日本少妇激情视频| 久久一区二区三区超碰国产精品| 欧美制服第一页| www.日韩一区| 久草这里只有精品视频| 成人欧美一区二区三区在线观看| 国产成a人亚洲精v品无码| 成人午夜在线免费| 久久综合九色综合网站| 91精品国产91久久久久游泳池| 久久精品人人做人人爽人人| 亚洲欧洲精品一区二区三区波多野1战4| www.亚洲.com| 亚洲男人都懂的| 成年人看的毛片| 亚洲人体影院| 欧美久久久久久久久中文字幕| 日韩av福利在线观看| 超碰97久久| 亚洲午夜av久久乱码| 911国产在线| 99国产精品久久久久久久成人| 日皮视频在线观看| 亚洲综合视频在线观看| 在线免费视频一区二区| 91精品在线免费观看| 中文字幕免费不卡| 欧美日一区二区在线观看 | 日韩av片免费观看| www久久99| 在线观看日韩专区| 欧美性极品少妇精品网站| 久久精品久久久精品美女| 欧美欧美天天天天操| 日韩一级电影| 美女搞黄视频在线观看| 人人妻人人玩人人澡人人爽| 国产日本精品视频| 亚洲一级高清| 国产精品丝袜视频| 亚洲免费视频网| 欧美激情一区二区三区蜜桃视频| 国产又粗又猛又爽又黄的网站| 亚洲精品mv| 日韩一级二级三级精品视频| 精品人妻无码一区| 国语精品一区| 91免费国产网站| 色鬼7777久久| 亚洲国产日韩综合久久精品| 亚洲娇小娇小娇小| 精品一区在线| 91精品91久久久久久| 国产伦精品一区二区三区视频痴汉| eeuss鲁片一区二区三区在线观看 eeuss影院一区二区三区 | 亚洲天堂av在线| 精品少妇一区二区三区免费观看| 国产一区二区三区四区五区六区| 伊人成人网在线看| 亚洲一区二区三区四区在线播放| 东热在线免费视频| 色综合网站在线| 国产一级伦理片| 国内揄拍国内精品久久| 91免费精品国偷自产在线| 99免在线观看免费视频高清| 色天使色偷偷av一区二区| 2一3sex性hd| 亚洲性色视频| 99国产高清| 国产激情在线| 91精品国产综合久久精品| 日韩精品久久久久久久的张开腿让| 美女被久久久| 免费看污久久久| 亚洲优女在线| 精品亚洲一区二区三区在线观看| 日韩av在线天堂| 成人a区在线观看| 久草视频国产在线| 女同久久另类99精品国产| 国产+成+人+亚洲欧洲| 国模无码一区二区三区| 亚洲激情校园春色| 91人人澡人人爽| 欧美视频福利| 国产在线视频欧美一区二区三区| 色噜噜狠狠狠综合欧洲色8| 日韩欧美的一区二区| 黄色一级片在线免费观看| 国产风韵犹存在线视精品| www成人免费| 哺乳一区二区三区中文视频 | 中文字幕日韩一区二区三区不卡| 欧美亚洲人成在线| 久久影视免费观看| 韩国av在线免费观看| 性做久久久久久免费观看| 久久久无码人妻精品一区| 日韩电影网1区2区| 亚洲在线观看一区| 玖玖玖电影综合影院| 国内精品中文字幕| 韩国中文免费在线视频| 欧美日韩高清一区二区| 欧美日韩在线观看成人| bt欧美亚洲午夜电影天堂| 日本三级免费观看| 99久久久久久中文字幕一区| 成人自拍视频网站| 在线成人av观看| 中文字幕精品www乱入免费视频| 一本色道久久综合熟妇| 一区二区在线电影| 欧美特黄一区二区三区| 久久国产剧场电影| 日日摸日日碰夜夜爽无码| 嫩草一区二区三区| 亚洲综合日韩在线| 黑人巨大精品欧美一区二区桃花岛| 中文字幕亚洲无线码在线一区| 不卡的日韩av| 日本道精品一区二区三区| 日韩免费av一区| 北条麻妃一区二区三区| 午夜激情在线观看视频| 欧美精品观看| 日韩欧美三级电影| 加勒比中文字幕精品| 国产欧美一区二区三区在线看 | 国产经典一区二区| 中中文字幕av在线| 一区二区三区无码高清视频| 亚洲国产剧情在线观看| 欧美天堂亚洲电影院在线播放| 久久午夜无码鲁丝片午夜精品| 国产日韩亚洲欧美综合| 亚洲av永久无码精品| 精品一区二区三区免费毛片爱| 六月丁香激情网| 香蕉综合视频| 日韩精品久久久毛片一区二区| 中文字幕视频精品一区二区三区| 国产精品视频一区二区三区四| a国产在线视频| 久久夜色精品国产| 国产三级在线观看| 亚洲成成品网站| 99在线精品视频免费观看软件| 色先锋aa成人| www.av视频在线观看| 亚洲色图另类专区| xxxx日本黄色| 久久日一线二线三线suv| 日本wwwwwww| 国内精品久久久久影院一蜜桃| 50路60路老熟妇啪啪| 亚洲精品精选| 真实国产乱子伦对白视频| 91欧美在线| 亚洲图色在线| 成人在线亚洲| 日韩高清dvd| 久久不见久久见国语| 久久精品日韩| 人人精品亚洲| 久久99精品久久久久久水蜜桃 | 久久精品72免费观看| 别急慢慢来1978如如2| 久久人人97超碰国产公开结果| 成人午夜精品久久久久久久蜜臀| 欧美喷水视频| 91视频 - 88av| 欧美日韩国产在线一区| 国产精品啪啪啪视频| 中文无码久久精品| 91大学生片黄在线观看| 欧美va天堂在线| www.一区二区.com| 亚洲精品九九| 欧美在线观看成人| 男人的天堂亚洲| 精品久久久久久无码国产| 老司机精品导航| 亚洲黄色av网址| 久久9热精品视频| www.污网站| 成人午夜激情影院| 特级西西人体4444xxxx| 久久影院电视剧免费观看| 91精品国自产在线| 中文字幕色av一区二区三区| 欧美另类视频在线观看| 精品动漫一区二区| 日韩熟女一区二区| 欧美三级中文字幕在线观看| 亚洲字幕av一区二区三区四区| 欧美福利视频导航| 亚洲爱爱综合网| 亚洲美女av黄| 四虎久久免费| 久久久久成人网| 伊人久久国产| 色狠狠综合天天综合综合| 欧美精品第三页| 一本色道久久| 亚洲欧美日韩一级| 国产91对白在线观看九色| 免费无码一区二区三区| 国产欧美日韩视频在线观看| 羞羞在线观看视频| 一区二区三区毛片| 天天操夜夜操视频| 欧美精品久久一区二区三区| 性一交一乱一色一视频麻豆| 日韩久久免费电影| 午夜在线视频播放| 久久久久久尹人网香蕉| 日本在线视频一区二区| 99在线免费观看视频| 欧美人与牛zoz0性行为| 无码人妻精品一区二区三区99v| 亚洲免费中文| 成人不卡免费视频| 99re在线精品| 免费在线观看a级片| 狠狠躁18三区二区一区| 国产女主播福利| 亚洲欧美三级伦理| 草美女在线观看| 国产狼人综合免费视频| 久久九九热re6这里有精品| 亚洲人体一区| 亚洲欧美日韩国产一区二区| 在线视频观看91| 91视频xxxx| 欧美黄色免费在线观看| 欧洲色大大久久| 少妇一级淫片免费看| 久久视频在线免费观看| 欧美三级精品| 国产一区二区高清视频| 羞羞答答成人影院www| jizz欧美激情18| 久久综合色综合88| 久久久久久久久久久久久久久久久 | 国产亚洲成av人片在线观看桃| av免费看在线| 91美女高潮出水| 四虎成人精品永久免费av九九| 久久无码高潮喷水| 成年人网站91| 久久国产精品二区| 538在线一区二区精品国产| 经典三级在线| 26uuu亚洲国产精品| 97青娱国产盛宴精品视频| 欧美少妇一级片| 久久精品国产精品亚洲红杏| 久久美女免费视频| 日本韩国欧美一区二区三区| 天天躁日日躁狠狠躁喷水| 欧美黑人xxxⅹ高潮交| 日韩视频一二区| 91久久精品网| 超碰在线观看99| 久久中文字幕在线| 国产激情一区| 一区精品在线| 精品伊人久久久久7777人| 极品尤物一区二区| 欧美主播一区二区三区| 成人在线播放视频| 国产精品手机播放| 成人看的羞羞网站| 9l视频白拍9色9l视频| 日本一区二区动态图| 一区二区三区在线免费观看视频| 国产一区二区三区网站| 视频一区在线免费看| 日韩欧美视频一区二区| 美女视频一区在线观看| 久久精品一区二区三区四区五区| 精品视频一区 二区 三区| 一区二区三区视频网站| 成人夜晚看av| 精品91在线| 欧美性xxxx图片| 91极品视觉盛宴| 色大18成网站www在线观看| 91精品久久久久久久久久久久久| 99久精品视频在线观看视频| 日本黄色一级网站| 亚洲va中文字幕| 国产永久免费高清在线观看| 国产精品中文字幕久久久| 久久久久av| 人妻av一区二区| 91国偷自产一区二区使用方法| 中国日本在线视频中文字幕| 国产日韩欧美日韩大片| 国产精品扒开腿做爽爽爽软件| 国产精品久久久久久在线观看| 色综合一个色综合| 美女免费久久| 精品国产乱码久久久久久88av| 久久不射2019中文字幕| 国产精品久久久免费看| 精品动漫一区二区三区在线观看| 久久sese| 在线无限看免费粉色视频| 从欧美一区二区三区| 亚洲毛片一区二区三区| 精品国产欧美一区二区五十路| h视频久久久| 999精品视频在线| 一区二区三区在线免费观看| 亚洲欧美综合一区二区| 国产精品日日做人人爱| 国产综合婷婷| 人妻无码一区二区三区免费| 精品国产乱码久久久久久蜜臀 | 四虎永久免费影院| 51精品国自产在线| 性感女国产在线| 日本黄色播放器| 91亚洲永久精品| a级片在线播放| 国产精品久久久久久久久久久久久久 | 色一情一乱一乱一91av| free性欧美hd另类精品| 蜜桃av色综合| 粉嫩一区二区三区在线看|