精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

六大維度,LLM「問題生成」首次正面PK人類!伯克利等發布最新研究

人工智能 新聞
研究人員首次探討了大型語言模型(LLMs)在問題生成任務中的表現,與人類生成的問題進行了多維度對比,結果發現LLMs傾向于生成需要較長描述性答案的問題,且在問題生成中對上下文的關注更均衡。

長期以來,問題生成(Question Generation)任務都是根據「給定事實」來編寫各種相關問題,已經發展出了很多自動化的方法。

大型語言模型(LLM)的興起,極大提升了各種自然語言處理(NLP)任務的性能,其中也包括問題生成,雖然應用廣泛,但還沒有研究討論過「用LLMs生成問題的特點」。

圖片

沒有額外提示約束時,LLMs是更傾向于生成較長還是較短的問題?傾向于問什么類型的問題?LLMs生成的問題與人類編寫的問題又有哪些不同?

最近,加州大學伯克利分校、阿卜杜勒阿齊茲國王科技城、華盛頓大學的研究人員提出了一種基于LLMs的自動化評估方法,重點關注問題的長度、類型、上下文覆蓋范圍和可回答性等維度,結果發現LLMs傾向于生成需要描述性、較長答案的問題;

常見的問答任務中,人類更傾向于選擇文章的開始結束位置生成問題,LLMs對整個上下文的關注更加均衡。

圖片

論文鏈接:https://arxiv.org/pdf/2501.03491

雖然已經有研究通過實證來評估人類一致性,但還沒有將LLMs生成問題的質量標準與人類生成問題進行對比。

這篇文章首次揭示了LLMs在問題生成中的偏好,通過引入自動評估流程,擴展了現有的統計問題質量標準,研究發現為評估下游應用(如RAG系統和幻覺檢測)的提示工程優化提供了經驗,可以防止在不當情境下的濫用,更深入地了解LLMs在問題生成中的行為傾向。

生成流程與指標

從上下文中生成問題

問題的輸入包括:一個段落文本作為上下文C,一個問題生成指令提示P;大模型M的輸出為N個問題Q,其中每個問題都可以用上下文中的事實來回答。

不能直接使用LLM進行問題生成:問題假定讀者對上下文的某個特定范圍很熟悉;生成的問題可能沒有標準答案;有些問題直接引用了上下文,如果沒有上下文就無法回答。

所以研究人員設計了一段提示詞:

You are to generate [N] self-contained short answer questions based on the facts mentioned in the following content. Avoid questions that reference the content directly. Each question should include all relevant context and directly name any referenced items, avoiding pronouns like "it," "the game," or "the person." Do not include phrases that reference the source or context, such as "mentioned in the article" or "according to the text." Provide the questions in an ordered list.

你需要根據以下內容中提到的事實生成[N]個自成一體的簡短答案問題。避免直接引用內容的問題。每個問題都應包含所有相關的上下文,并直接提及任何被引用的項目,避免使用「它」「這款游戲」或「這個人」等代詞。不要包含引用來源或上下文的短語,如「文章中提到的」或「根據文本」。將問題以有序列表的形式提供。

為了構建上下文C,研究人員將WikiText數據集分割成86萬個段落,同時保留章節結構作為元數據;在過濾掉過短的段落并清理特殊字符后,通過整合段落文本并附加相關章節標題來組成上下文。

圖片

該流程類似于HotpotQA的先上下文后問題的方法,眾包人員根據維基百科的多個證據段落生成問題;作為對比,TriviaQA是一個由知識競賽愛好者編纂的問答數據集,標注人員根據問題在文章中尋找證據。

與答案無關的評估指標

問題類型

對于人類來說,選擇提出哪種問題是主觀的,研究人員探索了在沒有額外約束的情況下LLMs能夠生成的問題類型,分析了十個手動定義類別的問題類型(通過觀察HotpotQA、TriviaQA和論文數據集中的混合問題得到),并將其與人類的偏好進行比較。

問題長度

長度是生成問題的一個直觀統計指標,研究人員主要統計單詞數量;除了直接比較人類生成和LLMs生成數據集中的問題長度外,還考察了問題長度與問題類型之間的關系。

下文覆蓋范圍

一個問題可能需要跨多個句子進行推理,研究人員擴展了基于提示的句子級測量方法,還研究了單詞級上下文覆蓋范圍;分析了在生成過程中LLMs傾向于關注上下文的哪些具體部分。

結果可以看到,問題生成并不遵循之前研究中討論問答中的類似位置偏差。

與答案有關的評估指標

圖片

可回答性(Answerability)

問題的關鍵質量標準是,在給定特定知識的情況下,是否能夠被精確回答,即在提供上下文時,生成的問題應該是可回答的。

研究人員提示LLMs使用給定的上下文作為輸入來生成答案;由于答案的正確性也是基于相同的上下文來評估的,因此在大多數情況下,生成的問題都是可回答的。

非常見性(Uncommonness)

LLMs的預訓練數據基于互聯網上廣泛可用的常識,即使沒有明確提供上下文,LLMs仍然可能回答問題。

與可回答性評估相比,關鍵區別在于在答案生成過程中省略了上下文,而其他因素保持不變;結果也可以看到,去除上下文會顯著降低答案質量,也表明,生成的問題對于評估RAG系統或進行自動幻覺測試很有價值。

所需答案長度(Required answer length)

除了問題長度外,所需答案的長度也是衡量問題信息量的有效的指標。

由于生成模型的特性,生成的答案往往更長,包含更多細節;為了從帶有上下文生成的答案中篩選出不必要的信息,研究人員使用了兩種策略來測量答案的基本長度:1)要求模型生成的文字答案最短;2)設置生成字數限制。

結果顯示,該方法可以用更少的字數實現相同的質量評級,并顯著降低答案長度,第二種策略通常來說更好。

實驗結果

研究人員使用兩個具有代表性的大型語言模型(LLMs)進行評估:閉源的GPT-4o和開源的LLaMA-3.1-70b-Instruct,每個模型都使用相同的256個采樣的維基百科上下文(N=4)生成1024個問題;大約使用了5萬次聊天調用。

在答案評分方面,人工標注與GPT-4o評估之間的平均皮爾遜相關系數為0.77,表明存在很強的正線性相關性。

LLMs會提什么類型的問題?

根據預定義的問題類型,研究人員將其分為三組:LLaMA和GPT模型都強烈傾向于詢問具體的事實和數字,可能與訓練數據的分布有關;不太容易提出的問題是根據上下文中的多個事實進行推理,與HotpotQA更相似;大模型也更傾向于詢問描述類、需要詳細答案的問題,這種偏好也導致了答案更長。

圖片

生成的問題有多長?

盡管整體的問題長度大致相似,約為20個單詞,但不同的LLMs傾向于表現出對長度的不同偏好;人類生成的問題長度變化更大。

圖片

使用了多少上下文以及具體是哪部分?

人類生成的問題傾向于覆蓋更多的上下文,無論是句子級還是單詞級測量結果都是一致的。

圖片

人類生成的問題傾向于集中在上下文的開頭,但LLMs生成的問題呈現出更均衡的分布,表明基于LLMs的問題生成與問答相比顯示出幾乎相反的位置關注焦點。

圖片

生成的問題是否可以在有/無上下文的情況下回答?

通過結合答案生成和評分,可以觀察到,在有上下文的情況下,LLMs通常能生成令人滿意的答案,符合預期。

圖片

當不提供上下文時,性能會下降,大約四分之一的生成問題無法得到合適的回答,GPT-4o生成的問題與人類構建的HotpotQA數據集相比,顯示出更高比例的非常見問題。

回答問題需要多少信息?

LLMs生成的答案通常比人類標注的正確答案要長得多,可能是因為生成模型的特性。

圖片

為了更準確地衡量所需信息量,將LLMs生成的答案壓縮,在保持評分的情況下生成最短版本。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-12-18 07:20:00

2025-04-30 09:09:00

2022-03-28 13:25:42

AI扶貧機器之心

2023-04-03 10:28:53

人工智能機器人

2023-05-26 17:20:29

模型工具

2023-12-16 09:49:18

2025-07-03 09:49:43

2025-06-20 08:54:00

模型AILLM

2024-11-26 13:40:00

2025-11-10 08:51:00

LLMOpenAI模型

2023-05-04 14:55:02

模型AI

2025-01-22 15:21:00

2023-11-14 07:47:42

IGN擴散模型

2024-09-23 14:46:27

2025-06-25 16:09:40

機器人AI訓練

2025-10-11 15:55:08

AI模型數據

2023-05-19 13:34:02

2023-04-04 13:17:00

GPUCMU開源

2023-04-07 09:28:31

模型訓練

2024-02-05 13:28:14

AI音頻虛擬人像
點贊
收藏

51CTO技術棧公眾號

久久精品无码av| 无码人妻丰满熟妇区毛片| 国产精品久久久国产盗摄| 99久久亚洲精品蜜臀| 91精品在线观看入口| 日韩免费在线观看av| 丰满熟妇人妻中文字幕| 香蕉久久久久久久av网站| 亚洲亚裔videos黑人hd| 91看片破解版| av有码在线观看| 久久久久久久综合| 国产日产欧美a一级在线| 极品盗摄国产盗摄合集| 日本欧美韩国国产| 欧美日韩视频在线第一区| 欧洲金发美女大战黑人| 天堂8在线视频| 青青草国产精品97视觉盛宴| 欧美成人激情在线| 中文字幕丰满乱子伦无码专区| 成人四虎影院| 亚洲成人av资源| 亚洲精品一区二| 韩国av永久免费| 日韩国产欧美在线观看| 欧美日韩国产va另类| 一本色道久久综合亚洲精品图片| 日日狠狠久久| 精品久久久久久久久中文字幕 | 国产三级伦理在线| 欧美激情一区二区三区四区| 懂色一区二区三区av片| 中文字幕乱码中文字幕| av不卡免费看| 久热精品视频在线免费观看| www.中文字幕av| 欧美国产亚洲精品| 欧美日韩中文一区| 99999精品视频| 国内在线视频| 亚洲人成精品久久久久久| 日本一区精品| 手机看片1024国产| 国产精品一级在线| 成人黄色av网| 中文字幕 亚洲视频| 亚洲永久免费精品| 久久久久久久久久久免费精品| 国产传媒视频在线| 精品国产乱码| 亚洲视频在线视频| 天天躁日日躁aaaa视频| 亚洲精品亚洲人成在线| 亚洲国产欧美在线成人app| 日本亚洲一区二区三区| 热久久久久久| 欧美亚洲动漫制服丝袜| 女性隐私黄www网站视频| 九色porny丨入口在线| 亚洲一二三级电影| 国产肉体ⅹxxx137大胆| 在线xxxx| 亚洲精品视频一区| 奇米777四色影视在线看| 二区三区在线观看| 一区二区三区免费在线观看| 亚洲一区 在线播放| 成人三级网址| 亚洲精品水蜜桃| 成人在线免费高清视频| fc2ppv国产精品久久| 亚洲精品视频一区| 中国丰满熟妇xxxx性| 国产深夜视频在线观看| 性做久久久久久久免费看| 成人性生活视频免费看| 老司机深夜福利在线观看| 粉嫩av一区二区三区免费野| 欧美日韩在线一| 综合日韩av| 色哟哟一区二区| 日本www.色| 成人国产激情在线| 欧美视频日韩视频在线观看| 色戒在线免费观看| 秋霞影院一区| 亚洲精品乱码久久久久久金桔影视 | 91精品国产日韩91久久久久久| 黄色在线视频网| 四虎地址8848精品| 日韩一区二区不卡| 西西大胆午夜视频| 国产精品欧美三级在线观看| 色七七影院综合| 劲爆欧美第一页| 亚洲毛片视频| 国产精品久久久久久久久久| 国产精品亚洲欧美在线播放| 顶级嫩模精品视频在线看| 久久久久久久久久码影片| 韩国三级在线观看久| 亚洲图片激情小说| 国产精品沙发午睡系列| 欧美成人三级| 精品免费国产一区二区三区四区| 爱爱的免费视频| 992kp快乐看片永久免费网址| 91丝袜在线| 日韩欧亚中文在线| youjizzxxxx18| 精品中文视频| 国产丝袜视频一区| 天天色天天综合| 亚洲网站在线| 国产97色在线|日韩| 国产男女无套免费网站| 91亚洲国产成人精品一区二区三 | 麻豆一区二区三区在线观看| 亚洲天堂电影| 91精品国产综合久久精品| 亚洲黄色免费在线观看| 欧美国产一级| 欧美一区二区.| 国产aⅴ一区二区三区| 久久久久久电影| 成人小视频在线观看免费| 性欧美freehd18| 欧美理伦片在线播放| 亚洲无线码在线一区观看| 久久免费小视频| 奇米888四色在线精品| 国产亚洲情侣一区二区无| 久久bbxx| 欧洲国内综合视频| 国产肉体xxxx裸体784大胆| 亚洲精品一区二区妖精| 国产脚交av在线一区二区| 天堂成人在线观看| 亚洲综合一区在线| 在线免费黄色小视频| 成人综合一区| 青青草国产精品一区二区| 国精产品一品二品国精品69xx| 中文字幕一区二区三区四区不卡| 不卡影院一区二区| 亚洲自拍都市欧美小说| 国内精品一区二区三区四区| 99视频国产精品免费观看a| 国产精品网站一区| 亚洲五月天综合| 免费成人av| 78色国产精品| 午夜精品久久久久久久96蜜桃| 国产精品初高中害羞小美女文| 在线免费视频a| 国产伦精品一区二区三区千人斩| 69av成年福利视频| 亚洲av成人无码网天堂| 精品福利视频导航| 日本黄色片在线播放| 99热这里只有成人精品国产| 国产精品乱子乱xxxx| 欧美videos另类精品| 精品久久久网站| 久久精品国产亚洲av无码娇色 | 伊人精品一区二区三区| 国产精品系列在线| 爱爱爱爱免费视频| 亚洲国产精品综合久久久| 亚洲综合av影视| 91在线中字| 精品久久久久久最新网址| 动漫精品一区一码二码三码四码| 岛国av在线一区| 国产欧美日韩网站| 日韩精品福利一区二区三区| 91高清视频免费| 免费毛片在线| 欧美丝袜丝交足nylons图片| 极品色av影院| 成人国产免费视频| 精品国产成人av在线免| 久久中文字幕av一区二区不卡| 成人xxxxx| 男女羞羞视频在线观看| 日韩经典第一页| 中文字幕 自拍偷拍| 自拍偷在线精品自拍偷无码专区 | 欧美日本精品一区二区三区| 国产午夜手机精彩视频| 波多野结衣中文字幕一区二区三区| 一女被多男玩喷潮视频| 色777狠狠狠综合伊人| 亚洲一区制服诱惑| 男人天堂视频在线观看| 亚洲人成自拍网站| av中文字幕免费在线观看| 亚洲成人av在线电影| 国产伦理片在线观看| 国产精品一级二级三级| 日韩毛片在线免费看| 在线免费观看日本欧美爱情大片| 国产精品手机视频| 国产精品诱惑| 午夜精品久久久久久久久久久久| 大片免费播放在线视频| 日韩色在线观看| www毛片com| 亚洲免费av观看| 加勒比一区二区| 国产在线一区二区| 日韩av在线综合| 综合精品久久| 日本三级中国三级99人妇网站| 国产一区二区久久久久| 国产成人91久久精品| 性网站在线观看| 亚洲午夜色婷婷在线| 亚洲第一天堂网| 色素色在线综合| 国产午夜久久久| 国产精品成人在线观看| 91中文字幕永久在线| 国产成人精品一区二区三区网站观看| 18岁视频在线观看| 久久影视中文字幕| 国产亚洲人成网站| 免费观看一区二区三区| 日韩中文字幕1| 奇米影视亚洲色图| 久久精品欧美一区| 亚洲激情啪啪| 亚洲黄页网站| 国产亚洲福利社区| 视频精品一区二区三区| 国产精品视频一区二区三区四 | 亚洲国产高清在线观看| 国产精品影片在线观看| 午夜欧美激情| 午夜精品久久久久久久久久久久 | 人人九九精品视频| 91久久国产精品| julia一区二区三区中文字幕| 2019亚洲男人天堂| 超碰在线视屏| 久久久久久有精品国产| 牛牛电影国产一区二区| 欧美另类极品videosbest最新版本 | 成人在线免费观看网站| 奇米精品在线| 亚洲免费毛片| 鲁鲁狠狠狠7777一区二区| 老司机精品视频在线播放| 亚洲女厕所小便bbb| 国产人成视频在线观看| 成人听书哪个软件好| 无码人妻久久一区二区三区蜜桃| 精品写真视频在线观看| 久久久久久久久久久久久久久国产| 日本欧美一区二区三区| 簧片在线免费看| 日本免费新一区视频| 国产免费人做人爱午夜视频| 久久综合亚州| 欧美精品一区二区三区免费播放| 久久久777| 黄色国产小视频| 日韩av中文字幕一区二区 | 久久男女视频| 国产精品wwwww| 日本网站在线观看一区二区三区 | www三级免费| 欧美一级片免费看| 亚洲乱色熟女一区二区三区| 日韩欧美二区三区| 欧美少妇bbw| 亚洲成人在线网| 国产又爽又黄网站亚洲视频123| 亚洲国产毛片完整版| 三级视频网站在线| 伊人成人开心激情综合网| 亚洲成人三级| 欧美久久精品一级黑人c片| 欧美草逼视频| 浅井舞香一区二区| 97久久中文字幕| 成人永久免费| 久久99国产精品视频| 色综合电影网| 欧美日韩福利| 欧洲av无码放荡人妇网站| 久久一日本道色综合久久| 国产aⅴ爽av久久久久| 丁香网亚洲国际| 全黄一级裸体片| 亚洲天堂2016| 国产 欧美 日韩 在线| 欧洲国产伦久久久久久久| 国产女人18毛片水18精| 亚洲国产一区二区三区在线观看| 国产永久免费高清在线观看视频| 欧美成aaa人片免费看| 英国三级经典在线观看| 成人激情电影一区二区| 亚洲a级精品| 不卡中文字幕在线| 先锋亚洲精品| 国产精品探花在线播放| 91一区二区三区在线观看| 九九这里只有精品视频| 欧美日韩精品二区| 国产v片在线观看| 亚洲欧美国产精品久久久久久久| 成人在线app| 日韩av片免费在线观看| 日韩在线观看一区二区三区| 日本高清不卡三区| 国内在线观看一区二区三区| 在线免费视频a| 99久久综合狠狠综合久久| 午夜激情福利网| 欧美综合天天夜夜久久| 天天摸夜夜添狠狠添婷婷| 日韩三级影视基地| 欧美电影网址| 国产一区二区黄色| 香蕉综合视频| 91香蕉视频导航| 97se狠狠狠综合亚洲狠狠| 波多野结衣亚洲色图| 欧美图片一区二区三区| 日韩一区二区三区中文字幕| 欧美激情精品久久久久久蜜臀| 久久亚洲人体| 免费看成人午夜电影| 亚洲激情影院| 色哟哟免费视频| 亚洲天堂网中文字| 中文字幕在线观看国产| 国产性猛交xxxx免费看久久| 日本在线影院| 国产欧美日韩在线播放| 欧美黄在线观看| 爽爽爽在线观看| 国产精品少妇自拍| 中文av免费观看| 国产一区二区三区在线视频| 小视频免费在线观看| 狠狠色综合色区| 亚洲另类黄色| 最新在线黄色网址| 激情久久av一区av二区av三区| 人人妻人人澡人人爽人人欧美一区| 欧美肥臀大乳一区二区免费视频| 成人污污视频| 米仓穗香在线观看| 国产剧情一区在线| 欧美国产在线看| 欧美电影精品一区二区| 欧美黑人xx片| 国产专区一区二区| 在线观看的日韩av| 性色av蜜臀av浪潮av老女人| 亚洲国产中文字幕| 黄色福利在线观看| 午夜精品一区二区三区在线视频| 国产96在线亚洲| 每日在线观看av| 91蜜桃网址入口| 国产精品国产精品国产| www亚洲精品| 日韩中文一区二区| 国产美女在线一区| 91蜜桃免费观看视频| 国产性生活视频| 中文字幕综合在线| 欧一区二区三区| 青草青青在线视频| 久久青草欧美一区二区三区| 波多野结衣一区二区三区四区| 色哟哟入口国产精品| 国产aa精品| 欧美日韩福利在线| 国产亚洲欧美色| 91成人国产综合久久精品| 九九久久久久99精品| 窝窝社区一区二区| 国产一二三四在线视频| 亚洲人成网站影音先锋播放| 少妇一级淫片免费看| 国产成+人+综合+亚洲欧洲| 国产精品久久久久蜜臀 | 成人国产激情| 欧美黄色免费网址| 91日韩精品一区| ,亚洲人成毛片在线播放| 久久久久久av| 成久久久网站| 国产精九九网站漫画|