精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Nature曝驚人內幕:論文被天價賣出喂AI!出版商狂賺上億,作者0收入

人工智能 新聞
Nature的一篇文章透露:你發過的paper,很可能已經被拿去訓練模型了!有的出版商靠賣數據,已經狂賺2300萬美元。然而辛辛苦苦碼論文的作者們,卻拿不到一分錢,這合理嗎?

全球數據告急,怎么辦?

論文來湊!

最近,Nature的一篇文章向我們揭露了這樣一個事實:連科研論文,都被薅去訓AI了……

圖片

據悉,很多學術出版商,已經向科技公司授權訪問自家的論文,用來訓練AI模型。

一篇論文從醞釀idea到成稿,包含了多少作者日日夜夜的心血,如今很可能在不知情的情況下,就成為訓AI的數據。

這合理嗎?

更可氣的是,自己的論文還被出版商拿來牟利了。

根據Nature報告,上個月英國的學術出版商Taylor & Francis已經和微軟簽署了一項價值1000萬美元的協議,允許微軟獲取它的數據,來改進AI系統。

而6月的一次投資者更新顯示,美國出版商Wiley允許某家公司使用其內容訓模型后,直接一舉豪賺2300萬美元!

但這個錢,跟廣大論文的作者是半毛錢關系都沒有的。

而且,華盛頓大學AI研究員Lucy Lu Wang還表示,即使不在可開放獲取的存儲庫內,任何可在線閱讀的內容,都很可能已經被輸入LLM中。

更可怕的是,如果一篇論文已經被用作模型的訓練數據,在模型訓練完成后,它是無法刪除的。

如果現在,你的論文還尚未被用于訓練AI,那也不用擔心——它應該很快就會了!

數據集如黃金,各大公司紛紛出價

我們都知道,LLM需要在海量數據上進行訓練的,而這些數據通常是從互聯網上抓取的。

正是從這些訓練數據中數十億的token中,LLM推導出模式,從而生成文本、圖像、代碼。

而學術論文篇幅又長,信息密度又高,顯然就是能喂給LLM的最有價值的數據之一。

而且,在大量科學信息上訓練LLM,也能讓它們在科學主題上的推理能力大大提高。

Wang已經共同創建了基于8110萬篇學術論文的數據集S2ORC。起初,S2ORC數據集是為了文本挖掘而開發的,但后來,它被用于訓練LLM。

2020年非營利組織Eleuther AI構建的Pile,是NLP研究中應用最廣泛的大型開源數據集之一,總量達到800GB。其中就包含了大量學術來源的文本,arXiv論文比例為8.96%,此外還涵蓋了PubMed、FreeLaw、NIH等其他學術網站。

圖片

前段時間開源的1T token數據集MINT也挖掘到了arXiv這個寶藏,共提取到了87萬篇文檔、9B token。

從下面這張數據處理流程圖中,我們就能發現論文數據的質量有多高——幾乎不需要太多的過濾和去重,使用率極高。

圖片

而現在,為了應對版權爭議,各大模型公司也開始真金白銀地出價,購買高質量數據集了。

今年,「金融時報」已經把自己的內容以相當可觀的價格,賣給了OpenAI;Reddit也和谷歌達成了類似的協議。

而以后,這樣的交易也少不了。

證明論文曾被LLM使用,難度極高

有些AI開發者會開放自己的數據集,但很多開發AI模型的公司,會對大部分訓練數據保密。

Mozilla基金會的AI訓練數據分析員Stefan Baack表示,對于這些公司的訓練數據,誰都不知道有什么。

而最受業內人士歡迎的數據來源,無疑就是開源存儲庫arXiv和學術數據庫PubMed的摘要了。

目前,arXiv已經托管了超過250萬篇論文的全文,PubMed包含的引用數量更是驚人,超過3700萬。

雖然PubMed等網站的一些論文全文有付費墻,但論文摘要是免費瀏覽的,這部分可能早就被大科技公司抓取干凈了。

所以,有沒有技術方法,能識別自己的論文是否被使用了呢?

目前來說,還很難。

倫敦帝國理工學院的計算機科學家Yves-Alexandre de Montjoye介紹道:要證明LLM使用了某篇確定的論文,是很困難的。

有一個辦法,是使用論文文本中非常罕見的句子來提示模型,看看它的輸出是否就是原文中的下一個詞。

圖片

有學者曾以「哈利·波特與魔法石」第三章的開頭提示GPT-3,模型很快正確地吐出了大約一整頁書中的內容

如果是的話,那就沒跑了——論文就在模型的訓練集中。

如果不是呢?這也未必是有效證據,能證明論文未被使用。

因為開發者可以對LLM進行編碼,讓它們過濾響應,從而不和訓練數據過于匹配。

可能的情況是,我們費了老大勁,依然無法明確地證明。

另一種方法,就是「成員推理攻擊」。

圖片

這種方法的原理,就是當模型看到以前見過的東西時,會對輸出更有信心,

圖片

論文地址:https://arxiv.org/abs/2112.03570

為此,De Montjoye的團隊專門開發了一種「版權陷阱」。

圖片

論文地址:https://arxiv.org/abs/2402.09363

為了設置陷阱,團隊會生成看似合理卻無意義的句子,并將其隱藏在作品中,比如白色背景上的白色文本或網頁上顯示為零寬度的字段。

如果模型對未使用的控制句的困惑度,比對隱藏在文本中的控制句的困惑度更高,這就可以作為陷阱曾被看到的統計證據。

圖片

版權爭議

然而,即使能證明LLM是在某篇論文上訓練的,又能怎么辦呢?

這里,就存在一個由來已久的爭議。

在出版商看來,如果開發者在訓練中使用了受版權保護的文本,且沒有獲得許可,那鐵定就是侵權。

但另一方卻可以這樣反駁:大模型并沒有抄襲啊,所以何來侵權之說?

的確,LLM并沒有復制任何東西,它只是從訓練數據中獲取信息,拆解這些內容,然后利用它們學習生成新的文本。

當然,這類訴訟已經有先例了,比如「紐約時報」對OpenAI那場石破天驚的起訴。

其中更加復雜的問題,是如何劃清商用和學術研究用途。

根據目前arXiv網站上的使用條款,如果是個人或研究用途,抓取、存儲、使用所有的電子預印本論文和網站元數據都是合規且被支持的。

圖片

然而,arXiv對商業方面的使用是嚴令禁止的。

那么問題來了,如果某個商業公司使用了學術機構發布的開源數據集訓練自己的商業模型,且數據來源含有arXiv或類似學術出版機構,這怎么算?

此外,出版商在用戶的訂閱條款中往往也沒有明確規定,能否將論文用作模型的訓練數據。

比如,一個付費購買Wiley論文庫閱讀全文資格的用戶,是否被允許將這些文本拷貝下來喂給模型?

現在的問題是,有人想讓自己的作品納入LLM的訓練數據中,有人不想。

圖片

有人已經做出來一個[haveibeentrained」的同名網站,用來檢測自己的內容是否被用于訓練AI模型

比如Mozilla基金會的Baack就表示,非常樂于看到自己的作品讓LLM變得更準確,「我并不介意有一個以我的風格寫作的聊天機器人」。

但是,他只能代表自己,依然有其他很多藝術家和作家,會受到LLM的威脅。

如果提交論文后,這篇論文的出版商決定出售對版權作品的訪問權限,那個別的論文作者是根本沒有權力干涉的。

整個圈子也是魚龍混雜,公開發表的文章既沒有既定的方法來分配來源,也無法確定文本是否已被使用。

包括de Montjoye在內的一些研究者對此感到沮喪。

「我們需要LLM,但我們仍然希望有公平可言,但目前我們還沒有發明出理想的公平是什么樣子?!?/span>

多模態數據不夠,arXiv來湊

事實上,龐大的arXiv論文庫中,可以利用的不止文本數據。

ACL 2024接收了一篇來自北大和港大學者的論文,他們嘗試利用這些論文中的圖文構建高質量多模態數據集,取得了非常不錯的效果。

圖片

項目主頁:https://mm-arxiv.github.io/

前段時間,紐約大學謝賽寧教授和Yann LeCun等人發布的Cambrian模型也用到了這個數據集。

圖片

之所以要用arXiv論文中的圖片,主要還是由于科學領域訓練數據集的稀缺。

GPT-4V等視覺語言模型雖然在自然場景的圖像中有出色的表現,但在解釋抽象圖片方面,比如幾何形狀和科學圖表,依舊能力有限,也無法理解學術圖片中細微的語義差別。

這篇論文構建的多模態arXiv數據集總共用到了各個STEM領域的57.2萬篇論文,超過arXiv論文總數(2.5M)的五分之一,包含兩部分:問答數據集ArXivQA和圖片標注數據集ArXivCap。

圖片

依托arXiv大量且多樣的論文收錄,與之前的科學圖片數據集相比,ArXivCap的數據量是第二名SciCap的3倍,ArXivQA也是唯一涵蓋廣泛領域內真實論文的問答數據集。

圖片

通過使用這些領域特定數據進行訓練,VLM的的數學推理能力有了顯著增強,在多模態數學推理基準上實現了10.4%的準確率提升。

比如,在ArXivQA上訓練過的Qwen 7B模型能夠正確理解條形圖并回答相關問題(左圖),數學能力也有所提高(右圖)。不僅答案正確,給出的推理過程也更加完整充分。

圖片

數據集構建

數據集的構建流水線如下圖所示。由于arXiv是預印本平臺,所以需要先通過發表記錄篩選出被期刊或會議接收的論文,以保證數據質量。

提取論文中的圖片-文字對并進行基于規則的清理后,組成ArXivCap;ArXivQA則由GPT-4V生成,但使用了精心設計過的prompt模板。

圖片

ArXivCap中的一個單圖標注對:

圖片

2019年論文「Semigroup models for biochemical reaction networks」

ArXivCap數據集中的一個多圖標注對:

圖片

2018年論文「Low-Power Wide-Area Networks for Sustainable IoT」

ArXivQA數據集示例:

圖片

2020年論文「Skyrmion ratchet propagation: Utilizing the skyrmion Hall effect in AC racetrack storage devices」

評估

根據在MathVista數據集上的結果,ArXivCap和ArXivQA共同提升了Qwen-VL-Chat的整體性能,超越了Bard的表現。

圖片

最佳結果以粗體顯示,次佳結果以下劃線標記

在為單張圖片生成圖注的任務中,提升效果更加顯著,經過ArXivCap訓練的Qwen 7B模型可以匹配甚至超過GPT-4V。

圖片

灰色結果由數據集中500個樣本的測試得到

論文提出了三個新定義任務:多圖的圖注生成、上下文中的圖注生成以及標題生成。經過ArXivCap訓練的Qwen 8B的所有分數都超過了GPT-4V,且多數情況下是最佳結果。

圖片

最佳結果以粗體顯示

按照研究領域劃分,ArXivQA數據集上的訓練在天體物理、凝聚態物理、數學、計算機科學這些領域都能帶來相當顯著的提升,超過60%,準確率變化比例超過60%。

圖片

人工評估

前面所述的文本生成質量和準確率都是基于算法的自動評估,研究團隊還對單圖的圖注生成任務進行了人工評估,但只專注于計算機科學領域的論文。

圖片

與前面的基準測試結果相比,人工評估的結果并不理想,100個案例中只有16%被認為是「可接受的」,「上下文誤讀」的問題相對嚴重,也有一定比例的「過度簡化」和「識別錯誤」。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-03-15 15:09:28

2025-05-30 08:40:00

英偉達芯片AI

2009-05-31 09:29:30

Facebook應用開發商盈利

2023-09-11 12:23:50

2012-04-05 15:58:21

蘋果

2024-01-17 16:10:02

OpenAIAI

2012-06-25 17:36:06

云計算案例

2023-05-12 09:59:51

人工智能谷歌

2024-05-09 11:24:20

AI論文

2011-09-26 14:47:07

Web

2017-01-12 16:54:04

信息泄露網絡安全房產商

2016-07-27 10:28:43

編程Python框架

2021-03-25 23:22:22

Nature論文科學

2024-02-28 12:17:15

生成式 AI

2009-06-15 10:09:25

網絡賭博賭博網黑客

2023-02-01 10:01:23

ChatGPT論文

2024-07-26 13:42:01

OpenAIAISearchGPT

2023-07-24 16:29:17

2024-11-11 09:35:00

2024-09-02 09:15:00

英特爾半導體
點贊
收藏

51CTO技術棧公眾號

丝袜国产在线| 中文字幕一二三四| 8x国产一区二区三区精品推荐| 亚洲视频精选在线| 国产精品二区三区四区| 91av在线免费视频| 日本不卡电影| 7777精品伊人久久久大香线蕉经典版下载 | 久久影院理伦片| 亚洲欧美在线视频免费| jiujiure精品视频播放| 欧美成人一区二区| 无码精品a∨在线观看中文| jizz在线免费观看| 国产成人综合在线观看| 国产91久久婷婷一区二区| 永久免费看mv网站入口| 免费av一区| 欧美v国产在线一区二区三区| 国产精品第12页| 色屁屁www国产馆在线观看| 久久久夜色精品亚洲| 亚洲已满18点击进入在线看片| 日日夜夜狠狠操| 午夜精品久久| 中文字幕综合在线| 成人免费黄色av| 中文字幕系列一区| 亚洲成人一区在线| 精品久久免费观看| 成人午夜电影在线观看| 91在线码无精品| 成人有码在线播放| 中文在线最新版天堂| 亚洲国产精品一区制服丝袜| 日韩天堂在线视频| 国产jjizz一区二区三区视频| 大伊香蕉精品在线品播放| 91.com在线观看| 牛夜精品久久久久久久| 最新欧美色图| 欧美日韩国产精品一区二区三区四区| 美女在线免费视频| 91av资源在线| 国产女人aaa级久久久级| 精品国产一二| 日本国产在线观看| 成人自拍视频在线观看| 91精品国产综合久久久久久丝袜| 亚洲一级在线播放| 免费看欧美女人艹b| 国产999精品久久久| 中文字幕亚洲精品一区| 91久久黄色| 亚洲91av视频| 久草资源在线视频| 欧美欧美全黄| 欧美国产日韩在线| 国产一二三四在线| 尤物精品在线| 97国产在线视频| 日韩av在线播| 亚洲深夜影院| 国产a级全部精品| 无码人妻av一区二区三区波多野| 国产精品毛片一区二区三区| 91高清视频免费观看| 免费黄色网址在线| 噜噜噜在线观看免费视频日韩 | 亚洲美女久久久| 人妻精品久久久久中文字幕| 国产成人久久| 中文字幕亚洲综合久久| 日韩一级片av| 亚洲乱码视频| 国产精品成人av在线| 国产亚洲久一区二区| 九色|91porny| 国产精品免费区二区三区观看| 亚洲精品视频91| 99riav久久精品riav| 日本在线播放一区| 视频三区在线| 亚洲一区在线视频| 看av免费毛片手机播放| 123成人网| 欧美一区在线视频| 亚洲一级av无码毛片精品| 美女网站一区| 欧美xxxx综合视频| 欧美成人精品欧美一级乱黄| 久久精品五月| 成人精品视频久久久久 | 亚洲乱码av中文一区二区| 丰满少妇在线观看资源站| 成人羞羞视频播放网站| 深夜福利一区二区| 久久无码精品丰满人妻| 免费在线播放第一区高清av| 成人a级免费视频| 六月丁香综合网| 国产欧美精品一区二区色综合朱莉| 久久久一二三四| 日本蜜桃在线观看视频| 欧美美女喷水视频| 亚洲精品乱码久久久久久久| 99久久综合| 91sao在线观看国产| 91丨九色丨丰满| 99久久免费精品| 91手机视频在线| 在线观看欧美日韩电影| 日韩亚洲国产中文字幕欧美| 91激情视频在线观看| 国产精品99免费看| 国产一区二区色| 日韩有码电影| 亚洲伊人色欲综合网| 免费看污污网站| 青青一区二区| 欧美日本精品在线| 91在线公开视频| 国产无一区二区| 日本www在线视频| 久久丁香四色| 精品国产一区二区三区久久狼黑人| 日韩精品手机在线| 丰满亚洲少妇av| 日本成人性视频| 国产一区一一区高清不卡| 亚洲国产精品大全| 欧美精品一区二区成人| 看电视剧不卡顿的网站| 日本一区二区三区www| a在线视频v视频| 日韩久久免费av| 欧美精品99久久久| 国产老肥熟一区二区三区| 亚洲高清在线播放| 日韩av首页| 亚洲男人天堂2019| 国产成人一级片| av欧美精品.com| 热99这里只有精品| 国产欧美三级电影| 欧美劲爆第一页| 国产v在线观看| 亚洲欧美另类久久久精品| 国产黄色特级片| 九九综合在线| 日本久久中文字幕| 亚洲 欧美 自拍偷拍| 亚洲成av人片www| 在线视频 日韩| 亚洲成人直播| 国产一区喷水| 秋霞伦理一区| 亚洲欧洲中文天堂| 五月天婷婷久久| 久久久综合九色合综国产精品| aa在线免费观看| 色吊丝一区二区| 欧美有码在线观看视频| 你懂的在线免费观看| 欧美日韩一区二区三区| 受虐m奴xxx在线观看| 日韩成人午夜精品| 亚洲国产一区二区精品视频| 美女视频一区| 久久av.com| 亚洲国产成人在线观看| 亚洲成人免费电影| av直播在线观看| 久久深夜福利| 亚洲一区二区三区精品在线观看| 2020国产精品小视频| 久久综合免费视频影院| 亚洲第一精品网站| 午夜精品久久久久久久| av网在线播放| 激情综合网av| 欧美人成在线观看| 思热99re视热频这里只精品| 国产精品久久精品| 欧美日韩视频在线播放| 欧美xfplay| 亚洲视频 欧美视频| 亚洲国产精品国自产拍av| 国产传媒免费观看| 亚洲巨乳在线| 亚洲精品一区二区三区av| 日韩免费高清视频网站| 国产91av在线| 黄色在线视频网站| 精品国产1区2区3区| 9i看片成人免费看片| 国产精品久久久久久亚洲伦| 第一页在线视频| 狂野欧美一区| 免费看日b视频| 亚洲最大在线| 亚洲伊人久久大香线蕉av| 中文字幕人成乱码在线观看| 日韩性xxxx爱| 水莓100国产免费av在线播放| 欧美亚州韩日在线看免费版国语版| 天天天天天天天天操| 92精品国产成人观看免费| 香港日本韩国三级网站| 99热这里只有精品8| 午夜午夜精品一区二区三区文| 高清一区二区三区| 国产精品视频一区国模私拍| 97人人在线视频| 色偷偷888欧美精品久久久| 天天操天天操天天操| 在线观看91av| 国产乡下妇女三片| 亚洲成人av免费| 日韩国产第一页| 久久久午夜精品| 中文字幕第3页| 狠狠色综合色综合网络| 北条麻妃视频在线| 亚洲美女少妇无套啪啪呻吟| 国产麻豆电影在线观看| 国产成人一区| 久久久婷婷一区二区三区不卡| 精品一区二区三区四区五区 | 日本特级黄色大片| 特黄特色欧美大片| 国产伦一区二区三区色一情| 日韩国产一二三区| 日本午夜在线亚洲.国产| 超碰在线中文字幕| 欧美猛交免费看| 麻豆tv免费在线观看| 在线观看视频99| 美国成人毛片| 精品一区二区亚洲| 少妇一级淫片免费看| 欧美成人vps| 国产av无码专区亚洲a∨毛片| 欧美日本在线观看| 中文字幕一区二区三区四区视频 | 成人免费小视频| 日本综合在线观看| 国产清纯美女被跳蛋高潮一区二区久久w| 国产性生活毛片| 99视频国产精品| 国产精品无码在线| 99精品在线观看视频| 视频免费在线观看| caoporen国产精品视频| 欧美日韩人妻精品一区在线| 粉嫩av一区二区三区粉嫩| www.四虎精品| 成人av在线电影| 中文文字幕文字幕高清| 波多野结衣亚洲一区| 亚洲 欧美 日韩在线| 97精品国产97久久久久久久久久久久| 人妖粗暴刺激videos呻吟| 成人av在线电影| 私密视频在线观看| 久久―日本道色综合久久| 成人免费毛片糖心| 国产精品乱子久久久久| 欧美一区二区三区观看| 亚洲欧美日韩电影| 久久99久久久| 精品女厕一区二区三区| 无码人妻精品一区二区三区不卡 | 国模gogo一区二区大胆私拍| 在线heyzo| 69av视频在线播放| 欧美电影h版| 国产在线精品成人一区二区三区| 色综合.com| 高清视频在线观看一区| 性人久久久久| 神马影院我不卡午夜| 亚洲欧美综合久久久| 国产真人做爰毛片视频直播| 狂野欧美一区| 91丨porny丨九色| av中文字幕不卡| www.日本高清视频| 亚洲乱码一区二区三区在线观看| 91精品国产乱码在线观看| 欧洲精品中文字幕| 国产精品日韩无码| 亚洲国产97在线精品一区| 成人精品一区二区三区校园激情| 久久成人精品视频| 日本不卡免费高清视频在线| 国产精品青青在线观看爽香蕉| 欧美日韩中出| 日本不卡久久| 精品成人在线| 午夜两性免费视频| 成人av网站免费观看| 日本午夜精品视频| 婷婷成人综合网| 99精品在线视频观看| 亚洲美女性视频| 污污的网站在线看| 国产成人综合亚洲| xxxx日韩| 制服丝袜综合日韩欧美| 国产精品日本| 中文字幕第10页| 国产欧美精品国产国产专区| 制服.丝袜.亚洲.中文.综合懂色| 欧美精品在线一区二区| 日本亚洲欧美| 欧美黑人一级爽快片淫片高清| 日本精品裸体写真集在线观看| 国产伦精品一区二区三区四区免费| 日本精品三区| 两根大肉大捧一进一出好爽视频| 国产精品一区在线观看乱码| 9.1片黄在线观看| 疯狂做受xxxx高潮欧美日本| 99热这里只有精品9| 一区二区三区天堂av| 男人天堂视频在线观看| 成人羞羞视频免费| 国产精品99久久精品| 欧洲熟妇精品视频| 91蜜桃网址入口| 亚洲国产精品午夜在线观看| 欧美一级一级性生活免费录像| 在线观看美女网站大全免费| 国产不卡av在线免费观看| 国产极品模特精品一二| 在线观看成人免费| 精品午夜一区二区三区在线观看| 亚洲精品色午夜无码专区日韩| 狠狠躁天天躁日日躁欧美| 欧洲精品久久一区二区| 欧美激情精品久久久久久蜜臀 | 日韩福利视频导航| 久久人人爽人人爽人人片 | 国产性生活视频| 精品亚洲aⅴ在线观看| av女在线播放| 精品久久久久久综合日本| 在线精品一区二区| 岛国精品一区二区三区| 一区二区成人在线视频| 亚洲精品一区二区三区四区| 欧美成人一二三| 日韩一二三区| 日韩成人手机在线| 成人午夜av电影| 日本少妇bbwbbw精品| 精品国产3级a| 亚洲美女久久精品| 欧美一级爽aaaaa大片| 日韩精品一级中文字幕精品视频免费观看 | 免费拍拍拍网站| 9人人澡人人爽人人精品| 一区二区三区福利视频| 亚洲人成人99网站| 亚洲高清黄色| 亚洲bbw性色大片| 极品美女销魂一区二区三区| 精品午夜福利在线观看| 亚洲国产成人精品女人久久久| 日韩av一卡| 日本在线观看一区| 精品在线你懂的| 欧美成人精品欧美一| 亚洲成人av资源网| 午夜影院在线观看国产主播| 色涩成人影视在线播放| 激情文学综合丁香| 久久久久亚洲av片无码下载蜜桃| 亚洲韩国日本中文字幕| 亚洲精品一级二级| 一级日韩一区在线观看| 国产精品一二三区| 在线免费观看毛片| 中文字幕亚洲欧美一区二区三区| 99精品国产九九国产精品| 99久久久精品视频| 91色在线porny| 亚洲综合免费视频| 欧美精品18videos性欧| 欧美一站二站| 在线播放av网址| 欧美亚洲高清一区| 日本中文字幕中出在线| 美女被啪啪一区二区| 激情五月婷婷综合| 亚洲自拍一区在线观看| 美女性感视频久久久 | 杨幂一区欧美专区| 国产成人免费在线观看|