知識增強LLM與搜索引擎用戶的感知信息價值差異比較研究
一、研究背景與目的
以 ChatGPT、文心一言為代表的知識增強大語言模型的出現,使得人工智能生成內容(AIGC)迅速躋身于互聯網信息生成領域,彌補了專業生成內容(PGC)和用戶生成內容(UGC)的不足。當前學界多關注 AIGC情境下的用戶信息行為、信息質量等議題,但缺乏從用戶感知信息價值角度對AIGC進行測度與評價,也缺少與傳統搜索引擎的對比研究。 本研究選取文心一言(知識增強大語言模型)與百度搜索引擎(傳統搜索引擎)為研究對象,通過實驗探究不同任務復雜性、不同信息獲取場景下,用戶使用兩種工具后的感知信息價值差異,為兩類工具的優化設計提供參考。
二、文獻綜述
(一)信息價值與信息質量
信息價值是衡量信息重要性和有用性的標準,具有多維性、主觀性等特征,信息質量是其核心構成。準確性、客觀性、相關性、完整性等評估指標被頻繁的提及與應用。,且可從用戶感知視角進行測度。現有研究多聚焦傳統搜索工具的信息價值評估,尚未涉及 AIGC 與傳統搜索引擎的對比研究。
(二)信息檢索任務復雜性
任務復雜性對用戶信息搜索行為、結果應用行為及情緒有顯著影響。隨著任務復雜性提升,用戶信息需求增加,搜尋成功率可能下降。然而,現有研究多關注傳統搜索情境,尚未涉及大語言模型場景下的任務復雜性問題。
(三)信息獲取場景
信息獲取場景是影響用戶信息行為的關鍵因素,健康型、旅行型、研究型是常見的場景類型。已有研究聚焦于傳統搜索工具用戶在不同場景下的信息行為差異,但大語言模型與傳統搜索引擎用戶在不同場景下的感知信息價值對比尚屬空白。
三、研究設計
(一)研究假設
H1:用戶使用文心一言和百度獲取信息后,在感知信息價值上存在差異。 H2:面對復雜性不同的任務,用戶使用兩種工具獲取信息后在感知信息價值存在差異。 H3:在不同信息獲取場景下,用戶使用兩種工具獲取信息后在感知信息價值存在差異。
(二)研究變量
感知信息價值:選取準確性、客觀性、相關性等 13 項指標,采用 Likert 7 分量表測量。 任務復雜性:分為簡單任務(答案唯一、明確)、復雜任務(答案需整合驗證)、開放式任務(結果多元開放)三類。 信息獲取場景:設置旅行型、健康型、科學型三類場景,對應 9 項具體任務。
(三)實驗對象與步驟
實驗對象:52 名被試,均有百度搜索和文心一言使用經驗,專業背景分布廣泛。 實驗步驟:被試隨機分為兩組,分別使用兩種工具完成 9 項任務;實驗前填寫基本情況問卷,實驗中錄屏記錄過程,實驗后填寫感知信息價值測度問卷,共回收 468 份有效問卷。
四、實驗結果
(一)信息獲取工具對感知信息價值的影響
用戶在準確性、客觀性、相關性等 7 項指標上存在顯著差異(p<0.05):文心一言在準確性、客觀性等 6 項指標上得分更高,百度搜索在 “參考來源或鏈接” 指標上得分更高(4.085 vs 2.201)。 在可行性、語氣措辭等 6 項指標上,兩種工具無顯著差異(p>0.05)。
(二)信息獲取工具與任務復雜性的交互影響
簡單任務:百度在準確性、客觀性等 8 項指標上感知價值更高,兩者在新穎性、啟發性上無顯著差異。 復雜任務:兩種工具在 10 項指標上感知差異不明顯。 開放式任務:文心一言在準確性、客觀性等 10 項指標上表現更優。 共性:所有任務類型中,百度在 “參考來源或鏈接” 指標上均優于文心一言。


任務復雜性x信息獲取工具變量均值圖

“參考來源或鏈接”下信息獲取工具x任務復雜性均值圖
(三)信息獲取工具與信息獲取場景的交互影響
在旅行型、健康型、科學型場景下,兩種工具在 13 項感知信息價值指標上均無顯著差異(p>0.05),即兩者在以上場景中均能滿足用戶基本信息需求。
五、研究結論與優化建議
(一)研究結論
用戶使用文心一言或百度獲取信息后,在準確性、客觀性等7 項感知信息價值指標上存在顯著差異,其余指標無差異。 不同任務復雜性下,除語氣措辭、原創性外,用戶使用文心一言或百度獲取信息后,在其余 11 項指標存在顯著差異。 不同信息獲取場景下,用戶使用文心一言或百度獲取信息后,在所有 13 項指標均無顯著差異。
(二)優化建議
知識增強大語言模型:優化語氣措辭的擬人化表達;強化場景化細節呈現與個性化推薦;建立參考來源機制,引入人工審核保障權威性。 傳統搜索引擎:優化檢索交互體驗,支持口語化提問;強化知識圖譜構建,精煉呈現核心信息;完善信息來源可信度評估與可視化標注。
(三)研究局限
信息獲取場景與實驗平臺有限,未涉及細分垂直場景。 感知信息價值指標體系可進一步擴充,如加入結果組織性等指標。 未考慮工具、任務復雜性、場景的三重交互作用。
本文轉載自??PaperAgent??

















