精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ICML 2024 | 大語言模型預訓練新前沿:「最佳適配打包」重塑文檔處理標準

發布于 2024-5-16 14:01
瀏覽
0收藏

在大型語言模型的訓練過程中,數據的處理方式至關重要。


傳統的方法通常通過將大量文檔拼接并切分成等同于模型的上下文長度的訓練序列。這雖然提高了訓練效率,但也常導致文檔的不必要截斷,損害數據完整性,導致關鍵的上下文信息丟失,進而影響模型學習到的內容的邏輯連貫性和事實一致性,并使模型更容易產生幻覺。


AWS AI Labs 的研究人員針對這一常見的拼接-分塊文本處理方式進行了深入研究, 發現其嚴重影響了模型理解上下文連貫性和事實一致性的能力。這不僅影響了模型在下游任務的表現,還增加了產生幻覺的風險。


針對這一問題,他們提出了一種創新的文檔處理策略——最佳適配打包 (Best-fit Packing),通過優化文檔組合來消除不必要的文本截斷,并顯著地提升了模型的性能且減少模型幻覺。這一研究已被ICML 2024接收。


ICML 2024 | 大語言模型預訓練新前沿:「最佳適配打包」重塑文檔處理標準-AI.x社區


文章標題:Fewer Truncations Improve Language Modeling

論文鏈接:https://arxiv.org/pdf/2404.10830


研究背景


在傳統的大型語言模型訓練方法中,為了提高效率,研究人員通常會將多個輸入文檔拼接在一起,然后將這些拼接的文檔分割成固定長度的序列。


這種方法雖然簡單高效,但它會造成一個重大問題——文檔截斷(document truncation),損害了數據完整性(data integrity)。文檔截斷會導致文檔包含的信息丟失 (loss of information)。


此外,文檔截斷減少了每個序列中的上下文量,可能導致下一個詞的預測與上文不相關,從而使模型更容易產生幻覺 (hallucination)。


以下的例子展示了文檔截斷帶來的問題:


  • 圖2(a):在Python編程中,原始代碼雖然正確,但將變量定義與使用分割到不同的訓練序列中會引入語法錯誤,導致某些變量在后續訓練序列中未定義,從而使得模型學習到錯誤的模式,并可能在下游任務中產生幻覺。例如,在程序合成任務中,模型可能會在沒有定義的情況下直接使用變量。
  • 圖2(b):截斷同樣損害了信息的完整性。例如,摘要中的“Monday morning”無法與訓練序列中的任何上下文匹配,導致內容失實。這種信息不完整性會顯著降低模型對上下文信息的敏感度,導致生成的內容與實際情況不符,即所謂的不忠實生成 (unfaithful generation)。
  • 圖2(c):截斷還會阻礙訓練期間的知識獲取,因為知識在文本中的表現形式通常依賴完整的句子或段落。例如,模型無法學習到ICML會議的地點,因為會議名稱和地點分布在不同的訓練序列中。

 

ICML 2024 | 大語言模型預訓練新前沿:「最佳適配打包」重塑文檔處理標準-AI.x社區

圖2. 文檔截斷導致幻覺或知識喪失的例子。(a) 變量定義(藍色部分)被截斷,隨后的使用調用導致未定義名稱(紅色部分)。(b) 關鍵上下文信息被截斷(藍色部分),使得摘要不忠實于原文(紅色部分),(c) 由于截斷,模型不知道ICML 2024的舉辦地點。


最佳適配打包


針對這一問題,研究者提出了最佳適配打包 (Best-fit Packing)。


該方法使用長度感知的組合優化技術,有效地將文檔打包到訓練序列中,從而完全消除不必要的截斷。這不僅保持了傳統方法的訓練效率,而且通過減少數據的片段化,實質性地提高了模型訓練的質量。


作者首先先將每個文本分割成一或多個至多長為模型上下文長度L的序列。這一步限制來自于模型,所以是必須進行的。


現在,基于大量的至多長為L的文件塊,研究者希望將它們合理地組合,并獲得盡量少的訓練序列。這個問題可以被看作一個集裝優化(Bin Packing)問題。集裝優化問題是NP-hard的。如下圖算法所示,這里他們采用了最佳適配遞減算法(Best-Fit-Decreasing, BFD) 的啟發式策略。


接下來從時間復雜度 (Time Complexity) 和緊湊性 (Compactness) 的角度來討論BFD的可行性。


ICML 2024 | 大語言模型預訓練新前沿:「最佳適配打包」重塑文檔處理標準-AI.x社區


時間復雜度:


BFD的排序和打包的時間復雜度均為O(N log N),其中N是文檔塊的數量。在預訓練數據處理中,由于文檔塊的長度是整數并且是有限的 ([1, L]),可以使用計數排序 (count sort) 來實現將排序的時間復雜度降低到O(N)。


在打包階段,通過使用段樹(Segment Tree)的數據結構,使得每次尋找最佳適配容器的操作只需對數時間,即O(log L)。又因為L<<N, 使得總時長約為 O(N),進而整體算法與數據大小呈線性關系,確保對大規模數據集的適用性:處理大型預訓練語料庫如Falcon RefinedWeb (約十億文檔) 只需要3小時。


ICML 2024 | 大語言模型預訓練新前沿:「最佳適配打包」重塑文檔處理標準-AI.x社區


緊湊性 :


緊湊性是衡量打包算法效果的另一個重要指標,在不破壞原文檔完整性的同時需要盡可能減少訓練序列的數量以提高模型訓練的效率。


在實際應用中,通過精確控制序列的填充和排布,最佳適配打包能夠生成幾乎與傳統方法相當數量的訓練序列,同時顯著減少了因截斷而造成的數據損失。


ICML 2024 | 大語言模型預訓練新前沿:「最佳適配打包」重塑文檔處理標準-AI.x社區


基于在自然語言(RefinedWeb) 和編程語言(The Stack) 數據集上的實驗,我們發現最佳適配打包顯著降低了文本截斷。


值得注意的是,大多數文檔包含的token數少于2048個;由于傳統拼接-分塊時造成的截斷主要發生在這一范圍內,而最佳適配打包不會截斷任何長度低于L的文檔,由此有效地保持了絕大多數文檔的完整性。


ICML 2024 | 大語言模型預訓練新前沿:「最佳適配打包」重塑文檔處理標準-AI.x社區

圖4:當最大序列長度設置為2k或8k時,在不同文檔長度下,每個文檔長度對應的文檔數量和截斷數量。使用“最佳適應打包”(Best-fit Packing)技術后,截斷數量明顯減少。上方:自然語言。下方:編程語言。


實驗與結果


研究人員詳細報告了使用最佳適配打包與傳統方法(即拼接方法)訓練的語言模型在不同任務上的表現對比,包括:自然語言處理和編程語言任務,如閱讀理解 (Reading Comprehension)、自然語言推理 (Natural Language Inference)、上下文跟隨 (Context Following)、文本摘要 (Summarization)、世界知識 (Commonsense and Closed-book QA) 和程序合成 (Program Synthesis),總計22個子任務。


實驗涉及的模型大小從70億到130億參數不等,序列長度從2千到8千令牌,數據集涵蓋自然語言和編程語言。這些模型被訓練在大規模的數據集上,如Falcon RefinedWeb和The Stack,并使用LLaMA架構進行實驗。


ICML 2024 | 大語言模型預訓練新前沿:「最佳適配打包」重塑文檔處理標準-AI.x社區


實驗結果表明,使用最佳適配打包在在一系列任務中提升了模型性能,尤其是在閱讀理解 (+4.7%)、自然語言推理 (+9.3%)、上下文跟隨 (+16.8%) 和程序合成 (+15.0%) 等任務中表現顯著(由于不同任務的度量標準的規模各異,作者默認使用相對改進來描述結果。) 


經過統計檢驗,研究者發現所有結果要么統計顯著地優于基線(標記為s),要么與基線持平(標記為n),且在所有評測的任務中,使用最佳適配打包均未觀察到性能顯著下降。


這一一致性和單調性的提升突顯了最佳適配打包不僅能提升模型的整體表現,還能保證在不同任務和條件下的穩定性。詳細的結果和討論請參考正文。


ICML 2024 | 大語言模型預訓練新前沿:「最佳適配打包」重塑文檔處理標準-AI.x社區


ICML 2024 | 大語言模型預訓練新前沿:「最佳適配打包」重塑文檔處理標準-AI.x社區


ICML 2024 | 大語言模型預訓練新前沿:「最佳適配打包」重塑文檔處理標準-AI.x社區


ICML 2024 | 大語言模型預訓練新前沿:「最佳適配打包」重塑文檔處理標準-AI.x社區


ICML 2024 | 大語言模型預訓練新前沿:「最佳適配打包」重塑文檔處理標準-AI.x社區


作者們重點研究了最佳適配打包對幻覺的影響。


在摘要生成中,使用QAFactEval度量發現采用最佳適配打包的模型在生成幻覺方面有顯著降低


更為顯著的是,在程序合成任務中,使用最佳適配打包訓練的模型生成代碼時,“未定義名稱”(Undefined Name)的錯誤減少了高達58.3%,這表明模型對程序結構和邏輯的理解更為完整,從而有效減少了幻覺現象。


作者們還揭示了模型在處理不同類型知識時的表現差異。


如前所述,訓練過程中的截斷可能影響信息的完整性,從而妨礙知識的獲取。但大多數標準評估集中的問題側重于常見知識 (common knowledge),這類知識在人類語言中頻繁出現。因此即使部分知識因截斷而丟失,模型仍有很好的機會從文檔片段中學習到這些信息。


相比之下,不常見的尾部知識(tail knowledge)更容易受到截斷的影響,因為這類信息在訓練數據中出現的頻率本身就低,模型難以從其他來源補充丟失的知識。


通過對ARC-C和ARC-E兩個測試集的結果分析,研究者發現,相較于含有更多常見知識的ARC-E,使用最佳適配打包會使模型在含有更多尾部知識的ARC-C中有更顯著的性能提升。


通過計算每對問題-答案組合在 Kandpal et al. (2023) 預處理的Wikipedia實體映射中的共現次數,這一發現得到了進一步驗證。統計結果顯示,挑戰集(ARC-C)包含了更多罕見共現的對,這驗證最佳適配打包能有效支持尾部知識學習的假設,也為為何傳統的大型語言模型在學習長尾知識時會遇到困難提供了一種解釋。


ICML 2024 | 大語言模型預訓練新前沿:「最佳適配打包」重塑文檔處理標準-AI.x社區


總結


本文提出了大型語言模型訓練中普遍存在的文檔截斷問題。


這種截斷效應影響了模型學習到邏輯連貫性和事實一致性,并增加了生成過程中的幻覺現象。作者們提出了最佳適配打包(Best-fit Packing),通過優化數據整理過程,最大限度地保留了每個文檔的完整性。這一方法不僅適用于處理數十億文檔的大規模數據集,而且在數據緊湊性方面與傳統方法持平。 


實驗結果顯示,該方法在減少不必要的截斷方面極為有效,能夠顯著提升模型在各種文本和代碼任務中的表現,同時有效減少封閉域的語言生成幻覺。盡管本文的實驗主要集中在預訓練階段,最佳適配打包也可廣泛應用于其他如微調階段。這項工作為開發更高效、更可靠的語言模型做出了貢獻,推動了語言模型訓練技術的發展。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/9iXb_sk0J5kPVUeS3CGhhw??

收藏
回復
舉報
回復
相關推薦
99reav在线| 久久伊人成人网| 欧美黑人疯狂性受xxxxx野外| 99精品1区2区| 国产99视频在线观看| 亚洲区免费视频| 自拍网站在线观看| 国产人成一区二区三区影院| 国产有码在线一区二区视频| 男女性高潮免费网站| 99这里只有精品视频| 午夜成人免费视频| 日日夜夜精品网站| 精品人妻无码一区二区色欲产成人 | 2020国产精品极品色在线观看| 亚洲国产一区二区a毛片| 精品久久久久久一区| 亚洲高清在线看| 欧美激情麻豆| 亚洲色图在线观看| 久久久久亚洲av无码麻豆| 亚洲综合电影| 亚洲精选一二三| 免费在线观看一区二区| 91theporn国产在线观看| 欧美天天视频| 中文字幕亚洲无线码a| 四虎永久免费观看| 成人高清一区| 欧美日韩国产精品一区二区三区四区 | 国产精品一级片| 国产精品第一第二| 国产av 一区二区三区| av成人综合| 欧美日韩一区二区三区高清| 日日摸日日碰夜夜爽无码| 9191在线| 国产亚洲欧美一区在线观看| 成人激情视频网| 国语对白永久免费| 亚洲国产综合在线看不卡| 久久亚洲国产成人| 精品无码国产污污污免费网站| 日韩第二十一页| 色婷婷久久久综合中文字幕| 无码熟妇人妻av在线电影| www.亚洲.com| 国产欧美一区二区精品性色| 3d动漫精品啪啪一区二区三区免费| 天天干天天色综合| 欧美午夜精品久久久久免费视| 欧美一激情一区二区三区| 久久精品视频亚洲| 中文字幕乱码一区| 99er精品视频| 欧美视频精品在线| 精品视频无码一区二区三区| 国产夫妻在线| 亚洲小说欧美激情另类| 宅男在线精品国产免费观看| 成人av毛片| 久久精品一级爱片| 欧美日韩免费高清| 日本不卡免费播放| 91婷婷韩国欧美一区二区| 好吊妞www.84com只有这里才有精品| 国产浮力第一页| 国产一区二区三区免费播放| 国产欧美日韩免费| 国产情侣小视频| 久久婷婷激情| 国产成人精品国内自产拍免费看| 青青国产在线观看| 国产一区二区三区久久久久久久久| 欧美激情精品久久久久| 久久久久亚洲av无码专区体验| 在线成人直播| 欧美疯狂性受xxxxx另类| 岛国毛片在线观看| 波多野结衣在线观看一区二区| 亚洲性生活视频| 毛片视频免费播放| 91精品二区| 欧美日本在线视频中文字字幕| 91嫩草丨国产丨精品| 亚洲最新av| 久久久久国产精品一区| 欧美成人一二三区| 伊人久久大香线蕉精品组织观看| 欧美另类交人妖| 国产亚洲精品成人| 国产麻豆综合| 国产精品香蕉av| 国产夫绿帽单男3p精品视频| 99久久精品免费看| 日韩久久精品一区二区三区| 午夜在线播放| 亚洲精品视频在线观看网站| 妞干网在线观看视频| 蜜桃视频在线网站| 在线影院国内精品| 亚洲精品乱码久久久久久动漫| 51社区在线成人免费视频| 亚洲成色999久久网站| 国产精品扒开腿做爽爽| 99久久夜色精品国产亚洲1000部| 欧美激情国内偷拍| 香蕉影院在线观看| 久久97超碰色| 国产精品区免费视频| 欧美18xxxxx| 亚洲天堂网中文字| 男女啪啪免费观看| 电影亚洲精品噜噜在线观看| 在线综合视频播放| 北岛玲一区二区| 亚洲香蕉av| 国产成人精品久久亚洲高清不卡| 国产日本精品视频| 久久久噜噜噜久久中文字幕色伊伊 | 国产综合av一区二区三区| 亚洲国产精品suv| 国产欧美视频一区二区三区| 日本大片免费看| av在线日韩| 精品处破学生在线二十三| 久久免费手机视频| 亚洲综合欧美| 99久久99久久| 亚洲s色大片| 日韩欧美成人免费视频| 免费不卡av网站| 成人3d精品动漫精品一二三| 91tv亚洲精品香蕉国产一区7ujn| 成人黄色免费网| 99精品国产91久久久久久| 日本丰满大乳奶| www.成人在线视频| 日韩精品视频免费专区在线播放| 国产免费无码一区二区视频| 六月丁香婷婷色狠狠久久| 久久99精品久久久久久秒播放器 | 99re视频这里只有精品| 国产 国语对白 露脸| 免费污视频在线一区| 亚洲国产精品成人精品| 久久久久久福利| 麻豆精品久久久| 日本不卡一区| 亚洲天堂资源| 国产网站欧美日韩免费精品在线观看| 精品无码人妻一区二区三区| 国产精品99久久久| 中文字幕免费在线不卡| 欧美91在线|欧美| 在线丨暗呦小u女国产精品| 无码人妻精品一区二| 91丨九色丨尤物| 欧美极品欧美精品欧美| 牛牛影视一区二区三区免费看| 欧美激情伊人电影 | 国产高清中文字幕在线| 亚洲成人激情视频| 日本亚洲欧美在线| 99久久精品99国产精品| 国产精品沙发午睡系列| 在线精品视频一区| 欧美激情第99页| 亚洲精品福利网站| 亚洲午夜激情网页| 亚洲色偷偷色噜噜狠狠99网| 亚洲色诱最新| 欧美精品七区| 超碰aⅴ人人做人人爽欧美| 日韩黄色在线免费观看| 黄色片网站在线免费观看| 成人av电影在线| 欧美精品一区免费| 久久综合亚洲| 国产成人综合久久| 91官网在线| 欧美久久久久久蜜桃| www.毛片com| 成人午夜激情片| 国产精品333| 国产videos久久| 国产精品夜色7777狼人| 国产剧情在线| 精品对白一区国产伦| 欧美亚洲精品天堂| 国产精品无圣光一区二区| 黄色a级三级三级三级| 亚洲手机视频| 日本10禁啪啪无遮挡免费一区二区| 国产精成人品2018| 毛片精品免费在线观看| 蜜桃在线一区二区| 色综合欧美在线| 国精品人伦一区二区三区蜜桃| 国产乱人伦偷精品视频不卡| 黄色一级片在线看| 精品国产一区二区三区久久久樱花 | 韩国女主播一区二区三区| 日本亚洲精品在线观看| 黄色网址在线免费观看| 亚洲精品v欧美精品v日韩精品| 中文字幕一区二区人妻视频| 日韩毛片一二三区| 性活交片大全免费看| 视频一区欧美精品| 久久天天东北熟女毛茸茸| 欧美偷窥清纯综合图区| 国产精品自在线| 国产蜜臀一区二区打屁股调教| 亚洲女同精品视频| a天堂在线视频| 91黄色免费网站| 久久精品视频8| 国产精品每日更新在线播放网址| 国产极品一区二区| 麻豆精品视频在线观看视频| 日本久久久网站| 日本不卡免费一区| 精品一区二区三区日本| 精品国产不卡一区二区| 国产高清在线不卡| 国产精品186在线观看在线播放| 少妇av一区二区三区| 男人的天堂在线视频| 日韩成人av网址| 刘亦菲久久免费一区二区| 日韩欧美一级在线播放| 国产三区在线播放| 51精品国自产在线| 91麻豆一区二区| 欧美日韩国产综合视频在线观看| 无码人妻精品一区二区三区9厂| 福利微拍一区二区| 99精品视频99| 欧美日韩国产精品一区二区三区四区 | 色香色香欲天天天影视综合网| 日韩免费黄色片| 亚洲午夜久久久久久久久电影网| 久久久久久久久久91| 一区二区三区精品视频| 精品99在线观看| 亚洲成人免费电影| 日韩av在线电影| 精品福利在线观看| 天堂中文字幕在线观看| 日韩欧美中文字幕在线播放| 久久久久在线视频| 91国产免费看| 亚洲中文一区二区三区| 666欧美在线视频| www.97av| 亚洲国产中文字幕久久网| 五月婷婷综合久久| 亚洲久久久久久久久久久| 国产对白叫床清晰在线播放| 中文字幕久久精品| 成人免费观看视频大全| 久久久久久久影院| 亚洲精品88| 国产成人精品视频| 欧美黄色网络| 国产精品初高中精品久久| 日韩精品社区| 五月天色一区| 欧美成人日本| 黑人糟蹋人妻hd中文字幕| 日韩激情在线观看| 手机av在线网站| 99精品偷自拍| 成年人视频软件| 亚洲一区二区在线免费观看视频| 日日骚av一区二区| 337p亚洲精品色噜噜狠狠| 亚洲精品国产av| 在线观看成人黄色| 四虎影院观看视频在线观看| 欧美性在线视频| 日韩一级视频| 激情视频在线观看一区二区三区| 欧美综合另类| 国产婷婷一区二区三区| 日韩电影在线一区| 国产一精品一aⅴ一免费| 久久精品水蜜桃av综合天堂| 日本aⅴ在线观看| 91福利精品视频| 亚洲av无码国产精品久久不卡 | 日韩人妻一区二区三区| 亚洲免费观看高清| 国产suv精品一区二区33| 日韩精品一区二区三区在线观看 | 宅男在线一区| 国内自拍中文字幕| 日韩电影一区二区三区四区| 国产乱国产乱老熟300部视频| 国产亚洲女人久久久久毛片| 久久久久久久久久久97| 欧美日韩一区二区在线观看视频| 天堂在线观看免费视频| 久久久国产91| 人人鲁人人莫人人爱精品| 国产成人精品自拍| 欧美a级成人淫片免费看| 亚洲国产精品久久久久婷蜜芽| 久久精品72免费观看| xxxx日本免费| 午夜激情一区二区三区| 精品人妻无码一区二区色欲产成人| 在线播放日韩专区| 自拍在线观看| 精品综合在线| 欧美激情综合色综合啪啪| 欧美成人乱码一二三四区免费| 久久青草欧美一区二区三区| 18精品爽视频在线观看| 欧美一级夜夜爽| 麻豆传媒免费在线观看| 国产精品国语对白| 制服丝袜日韩| 少妇性饥渴无码a区免费| 成人免费视频caoporn| 男人与禽猛交狂配| 欧美另类久久久品| 91在线视频| 国产精品视频专区| 精品日韩在线| 日本xxxx黄色| 中文字幕中文在线不卡住| 久操视频在线免费观看| 亚洲视频在线观看| 性感美女一区二区在线观看| 欧美国产一区二区在线| 一本久久综合| 成人免费毛片日本片视频| 午夜欧美大尺度福利影院在线看| 东京干手机福利视频| 欧美激情久久久久| 国产精品久av福利在线观看| 黄色三级中文字幕| 成人午夜在线播放| 国产性生活网站| 亚洲国产精品高清久久久| 99色在线观看| 久久国产精品免费一区| 午夜综合激情| 美女洗澡无遮挡| 欧美三级电影一区| 免费在线午夜视频| 亚洲xxxxx性| 国产精品啊v在线| 日韩少妇一区二区| 欧美性生交xxxxx久久久| 福利视频在线播放| 国产美女久久精品香蕉69| 亚洲综合色站| 亚洲激情 欧美| 一本大道av一区二区在线播放| 国产在线91| 国产综合色香蕉精品| 欧美日本不卡高清| 艳妇乳肉亭妇荡乳av| 色www精品视频在线观看| 中文日本在线观看| 97超级碰碰| 香蕉亚洲视频| 欧美特黄一级片| 精品99一区二区| 视频在线日韩| 国产成人免费高清视频| av亚洲产国偷v产偷v自拍| 无码一区二区三区| 不卡毛片在线看| 香蕉久久99| 精品亚洲视频在线| 亚洲成人中文在线| a天堂中文在线88| 翡翠波斯猫1977年美国| 久久看片网站| 欧美国产在线看| 亚洲欧美激情视频| 在线免费观看亚洲| 欧美大片在线播放| 综合在线观看色| 深夜视频在线免费| 91精品视频在线看| 香蕉久久a毛片| 在线免费观看亚洲视频| 亚洲欧美一区二区三区四区| 动漫一区二区三区| 久久婷婷国产精品| 有码一区二区三区| www日韩tube| 久久国产精品99久久久久久丝袜| 狠狠色丁香久久婷婷综合_中 | 日韩不卡一二三区|