STORYWRITER:長篇故事生成的多智能體框架

大家好,我是肆〇柒。長篇小說生成一直是大型語言模型(LLM)頗具挑戰性的任務。話語連貫性(discourse coherence)與敘事復雜性(narrative complexity)是長篇小說生成,具有挑戰性的難點。我扒拉論文的時候發現由清華提出的一篇論文《WRITER: A Multi-Agent Framework for Long Story Generation》,以其創新性的架構設計,為 LLM 在長篇小說生成領域提出了自己的見解。
長篇小說生成要求模型在數千詞乃至數萬詞的篇幅中,始終保持情節的一致性、邏輯的連貫性以及內容的完整性,這對于 LLM 來說無疑是一個巨大的挑戰。現有 LLM 在生成超過 1000 字的長故事時,往往會出現情節前后矛盾、邏輯斷裂、關鍵信息丟失等問題,導致故事失去了連貫性和可信度。而且,長篇故事的魅力在于其復雜多變的情節和豐富立體的人物關系。但大多數 LLM 生成的故事卻常常顯得單一、平淡,缺乏深度和吸引力。情節發展缺乏波瀾,人物形象模糊不清,故事內容同質化嚴重,難以滿足讀者對于高質量長篇故事的期待。這些問題嚴重制約了 LLM 在長篇故事生成領域的應用和發展,使得長篇故事生成成為了自然語言處理領域需要解決的難題之一。
STORYWRITER 框架
Outline Agents(大綱智能體):故事的“設計師”
EventSeed 智能體 :在長篇故事生成的起始階段,EventSeed 智能體負責創意的構思。它基于給定的故事前提,逐步生成一系列包含關鍵要素的事件序列。這些關鍵要素涵蓋時間、地點、人物等重要信息,它們宛如故事大廈的基石,構成了故事大綱的基礎框架。例如,對于一個關于冒險的長篇故事,EventSeed 智能體可能會首先生成主角踏上冒險旅程的時間和地點,以及他將要面對的主要人物和事件。在生成過程中,EventSeed 智能體采用了基于事件圖譜的算法,通過引入事件之間的因果關系和人物角色的關聯性,確保每個新生成的事件都與前文保持邏輯連貫性和合理性。同時,為了確保事件的多樣性,EventSeed 智能體會參考大量的故事素材和情節模式,結合隨機性和創新性策略,生成獨特且富有吸引力的事件序列。
EventValidator 智能體 :在故事大綱構建過程中,EventValidator 智能體負責內容質檢員的角色。它持續監控和評估 EventSeed 智能體生成的大綱,提供及時的反饋信息。其核心使命是確保每個事件都具有合理性,并且整個故事的敘事邏輯連貫順暢。EventValidator 智能體采用了多維度的評估標準來判斷事件的合理性,包括事件的因果邏輯、人物行為動機的合理性、時間空間的一致性等。例如,如果一個事件中人物的行為與之前的性格設定或情節發展不符,EventValidator 智能體會識別這一問題,并指導 EventSeed 智能體進行修正,從而保證故事大綱的質量和可信度,為后續的故事生成奠定堅實基礎。
Planning Agents(規劃智能體):故事的“編排者”
SubTasker 模塊 :在接到完整的故事大綱后,SubTasker 模塊就行動起來,對高層級的事件進行細致入微的分解。它將每個事件拆分為多個更加具體、細致的子事件,這一過程猶如將一幅宏大的故事畫卷逐漸細化為一個個栩栩如生的場景。通過這種分解,故事的細節得以豐富和充實,為后續的故事展開提供了更為詳盡的內容素材。例如,在一個戰爭場景的事件中,SubTasker 模塊可能會將其分解為士兵的集結、戰斗的爆發、戰術的運用等多個子事件,使故事的敘述更加生動具體。
Weaver 模塊 :Weaver 模塊則依據熱奈特的敘事順序理論,運用倒敘、預敘等非線性敘事策略,巧妙地將這些子事件分配到不同的章節之中。它如同一位嫻熟的作者,將一個個散落的事件片段編織成一個結構緊密、邏輯連貫且富有變化的故事整體。這種非線性敘事方式一方面能夠增強故事的吸引力和懸念感,還能在保持敘事結構連貫性的基礎上,賦予故事更大的靈活性和多樣性,使讀者在閱讀過程中始終保持著濃厚的興趣。例如,在一個故事中,Weaver 模塊可能會將一個關鍵的事件提前放在故事的開頭作為懸念,然后在后續的章節中逐步揭示事件的來龍去脈,通過這種方式吸引讀者的注意力并保持故事的吸引力。在實際操作中,Weaver 模塊通過構建事件之間的邏輯關系圖,分析每個子事件在故事中的重要性和作用,從而確定其在不同章節中的最佳位置。同時,為了平衡敘事結構的連貫性和多樣性,Weaver 模塊還會考慮章節之間的過渡和銜接,確保故事在整體上具有流暢的敘事節奏和合理的敘事順序。
Writing Agent(寫作智能體):故事的“撰寫者”
Coordinator 智能體與 FinalWriter 智能體的協同作業 :在故事的最終撰寫階段,Coordinator 智能體和 FinalWriter 智能體緊密配合,共同完成故事的創作。Coordinator 智能體作為全局敘事架構的統籌者,貫穿于故事生成的全過程,從大綱的制定到子事件的規劃,再到最終文本的生成,它都在背后發揮著關鍵的把控作用。而 FinalWriter 智能體則專注于故事文本的具體撰寫,致力于確保故事在風格上的統一性和文本質量的高標準。兩者相輔相成,缺一不可,共同確保了故事在宏觀結構上的連貫性和微觀敘事上的流暢性。
Re-write Input and Output(ReIO)機制 :針對 LLM 在長文本生成過程中出現的上下文碎片化和注意力衰退問題,所以提出了 ReIO 機制。在輸入處理環節,Coordinator 智能體憑借其強大的總結能力,動態地對歷史敘事上下文進行總結和壓縮,精準地保留與當前子事件相關的關鍵信息。這一操作有效降低了輸入信息的冗余度,減輕了模型的認知負擔,使模型能夠更加專注于當前的敘述任務。具體來說,Coordinator 智能體采用了基于注意力機制的文本摘要算法,通過分析歷史上下文中每個部分與當前子事件的相關性,自動提取關鍵信息并生成簡潔的摘要。例如,在生成一個關于主角回憶童年經歷的章節時,Coordinator 智能體會根據之前的情節發展,提取出與童年經歷相關的關鍵事件和情感線索,將其作為輸入提供給 FinalWriter 智能體。而在輸出處理環節,Coordinator 智能體會對生成的文本進行嚴格審查,如有必要,會對文本進行重寫,使其更加符合既定的敘事結構和風格要求。這一迭代式的重寫過程持續進行,直至生成的文本在敘事連貫性和風格一致性上達到理想狀態,從而有力地保障了長篇故事的質量和可讀性。例如,當模型生成的文本出現與大綱不符的情節發展時,Coordinator 智能體會識別這一問題,并對文本進行重寫,使其回歸到原有的敘事軌跡上。

三階段故事生成框架概覽
上圖展示了 Outline Agent、Planning Agent 和 Writing Agent 如何協同工作,從事件大綱生成到章節構建,再到最終故事合成的全過程。
實驗設計與結果評估:用數據說話
評估
MoPS 數據集的選取 :為了驗證 STORYWRITER 的性能,研究者們選用了 MoPS 數據集作為實驗的基礎。相較于傳統方法生成的故事前提以及從文學論壇收集的故事,MoPS 數據集在質量和信息密度方面展現出顯著優勢。它為長篇故事生成提供了一系列高質量的故事前提,這些前提涵蓋了豐富的主題和情節,為模型的訓練和評估提供了堅實的素材基礎,確保了實驗結果的可靠性和有效性。MoPS 數據集的故事前提經過精心設計,不僅在情節上具有較高的復雜性和吸引力,而且在信息表達上更加豐富和詳細,能夠為模型提供更多的創作空間和靈感。與其他數據集相比,MoPS 數據集的一個顯著特點是其故事前提的多樣性和創新性,涵蓋了從科幻冒險到懸疑推理等多種類型的主題,這使得基于該數據集訓練的模型能夠更好地適應不同類型長篇故事的生成需求。
評估框架的構建 :在評估過程中,研究者們采用了六個人工評估維度,分別是相關性(Relevance)、連貫性(Coherence)、共情(Empathy)、驚喜(Surprise)、創造力(Creativity)和復雜性(Complexity)。這些維度從多個角度全面衡量了生成故事的質量,涵蓋了故事與主題的相關程度、情節的連貫性、情感的共鳴、情節的意外性、內容的創新性以及故事的復雜程度等多個關鍵方面。同時,為了提升評估的效率和客觀性,研究者們還引入了基于 GPT-4o 的自動化評估方法,使其與人工評估相互補充,共同構成了一套全面且嚴謹的評估體系。在人工評估中,參與評估的人員均為具有豐富文學背景和專業知識的英語專業研究生,他們的 TOEFL 成績均在 108 分以上,具備較高的語言水平和文學鑒賞能力。為了確保評估結果的客觀性和一致性,評估過程采用了盲評的方式,并且對每個維度的評分標準進行了詳細的定義和培訓。在自動化評估中,GPT-4o 模型通過對大量人類標注數據的學習,能夠準確地對故事的各個維度進行評分,并且研究人員還對其評分結果進行了多次驗證,以確保其可靠性和有效性。
基線模型的對比 :為了直觀地展現 STORYWRITER 的優勢,研究者們將其與多種基線模型進行了對比實驗。這些基線模型包括 DOC 方法、Agents’ Room 框架以及直接使用 GPT-4o-mini 生成故事的方法。在實驗中,研究者們詳細地實現了每種方法,并對其適用性進行了深入分析,從而確保了對比實驗的公平性和合理性,為準確評估 STORYWRITER 的性能提供了有力保障。例如,在實現 DOC 方法時,研究人員嚴格按照其最新版本的算法流程進行操作,并且在使用 GPT-4o-mini 生成故事時,對輸入參數和生成條件進行了精細調整,以確保其性能能夠得到充分發揮。
主要實驗結果:STORYWRITER 的表現
在人工評估和自動化評估中,STORYWRITER 憑借其出色的表現,在各項指標上均取得了顯著領先的成績。

三階段故事生成框架概覽
以表格形式直觀呈現的實驗結果顯示,STORYWRITER 在長篇故事生成質量上大幅超越了其他基線模型。在相關性和連貫性方面,它成功地超越了 DOC 和 GPT-4o-mini,這表明其生成的故事在情節的合理性和邏輯的順暢性上具有明顯優勢。盡管在內容多樣性創造性上略遜于 Agents’ Room,但綜合考慮所有評估維度,STORYWRITER 依然展現出了卓越的整體質量,并且在生成故事的長度上遠遠超過了其他模型,充分驗證了其在生成較長篇幅故事時的有效性和可靠性,有力地證明了其在長篇故事生成領域的強大實力。

人類和自動評分的實驗結果
上表展示了 STORYWRITER 在不同評估維度上的具體得分,凸顯其在長篇故事生成中的卓越表現。
消融實驗:關鍵組件的重要性驗證
消融實驗作為評估模型性能的重要手段,通過移除 STORYWRITER 的關鍵組件,深入探究每個組件在框架中的重要性和作用。實驗結果清晰地表明,當去除事件大綱時,所有評估指標均出現了大幅下降,這凸顯了事件大綱作為故事基礎框架的關鍵作用。而移除非線性敘事策略后,復雜性得分顯著降低,充分證明了非線性敘事策略對于提升故事的多樣性和吸引力具有不可或缺的價值。同樣,分別移除 ReIO 輸入機制和 ReIO 輸出機制后,模型的性能也均受到了不同程度的影響,進一步驗證了 ReIO 機制在應對長文本生成挑戰中的關鍵作用。這些實驗結果有力地證明了 STORYWRITER 中各個組件的緊密協作對于生成高質量長篇故事的不可或缺性。例如,在生成一個復雜的科幻故事時,事件大綱為故事提供了清晰的結構和方向,非線性敘事策略使得故事中的時間線交錯重疊,增加了故事的懸念和復雜性。而 ReIO 機制則確保了在長篇幅的敘述中,故事的連貫性和一致性得以保持,使得整個故事更加引人入勝。

消融實驗結果
上表展示了移除不同組件后模型性能的變化,強調了每個組件對整體性能的關鍵貢獻。
關于總結上下文的分析:優化長文本生成的關鍵環節
在長文本生成過程中,LLM 常常會遭遇重復、幻覺、主題漂移等棘手問題,而這些問題與前文上下文的長度存在著密切的關聯。為了有效解決這一問題,研究者們引入了總結智能體,并創新性地采用了滑動窗口機制來簡化輸入上下文,同時保留關鍵信息。通過一系列受控實驗,研究者們對不同滑動窗口配置下的敘事質量進行了細致評估,最終得出在 15000 個詞以下的文本中,[2, k-1] 滑動窗口配置能夠取得最佳的敘事效果。這一重要發現為優化長文本生成過程中的上下文處理提供了關鍵依據,有助于進一步提升長篇故事生成的質量和連貫性。例如,在一個長篇歷史小說的生成過程中,滑動窗口機制能夠動態地總結之前的情節發展和人物關系,使得模型在生成后續章節時能夠準確地把握故事的方向,避免出現情節混亂或人物行為不一致的問題。

不同窗口長度的結果
上圖展示了不同滑動窗口配置下敘事質量的評估結果,直觀地說明了最佳滑動窗口配置的選擇依據。
構建 LONGSTORY 數據集:高質量數據的“寶藏庫”
研究者們利用 STORYWRITER 生成了一個名為 LONGSTORY 的高質量長篇故事數據集。在構建過程中,首先從 MoPS 訓練集中收集了 6000 個故事前提,然后充分發揮 STORYWRITER 的強大生成能力,為每個前提創作出完整的故事。在完成初步生成后,研究者們對故事進行了嚴謹的數據清洗工作,剔除了篇幅過短、格式不符合要求以及質量較低的故事。同時,為了降低監督微調(SFT)訓練過程中過擬合特定文本結構的風險,對多章節的故事進行了合并處理。經過這一系列精細的加工和篩選流程,最終成功構建出包含 5500 個平均約 8000 字故事的高質量數據集 LONGSTORY。
LONGSTORY 數據集的構建,為模型的監督微調(SFT)提供了豐富且優質的訓練素材,而且相較于其他方法,其優勢尤為顯著。其豐富多樣的故事情節和長文本特性能夠更加精準地滿足模型在長篇故事生成能力培養方面的需求,為提升模型的長篇故事生成水平提供了有力支持,推動了整個長篇故事生成領域的研究和發展。
數據集構建
數據清洗的具體標準和方法
? 篇幅過短的判斷標準 :如果故事的長度低于預設的閾值(例如 5000 字),則認為篇幅過短。這可能導致故事內容不夠完整,無法充分展現情節的發展和人物的成長,因此需要剔除。在判斷篇幅時,研究人員考慮了字數,同時綜合評估故事是否具備完整的起承轉合結構,以及是否能夠充分展開主題和人物關系等因素。
? 格式不符合要求的情況 :檢查故事的格式是否符合統一的標準,例如章節劃分是否清晰、標點符號使用是否規范、文本編碼是否正確等。不符合格式要求的故事可能會在后續的處理和訓練過程中引發問題,需要進行修正或剔除。在檢查章節劃分時,研究人員依據以下標準進行判斷:章節之間是否具有明確的主題劃分,每個章節是否具有相對獨立的情節發展,以及章節之間的過渡是否自然流暢等。對于不符合要求的故事,會根據具體情況對其進行結構調整或直接剔除。
? 質量較低的評估方法 :通過人工評估和自動化評估相結合的方式,對故事的質量進行綜合判斷。評估指標包括情節的合理性、人物的立體性、語言的流暢性等。如果故事在多個評估指標上得分較低,則被視為質量較低的故事,需要進行優化或剔除。在人工評估中,評估人員會從讀者的角度對故事進行細致的閱讀和分析,對每個評估指標進行量化評分。在自動化評估中,則利用 GPT-4o 模型對故事進行多維度的分析和評分,綜合兩者的評估結果來最終確定故事的質量等級。
多章節故事合并的策略
? 合并的必要性 :多章節故事合并有助于減少數據集中的冗余信息,提高數據的利用率,同時避免模型在訓練過程中過度適應特定的章節結構,增強模型的泛化能力。
? 合并方法 :按照章節的敘事邏輯和內容連貫性進行合并。例如,將同一情節線索下的相鄰章節合并為一個完整的段落,同時保留章節之間的重要過渡信息,確保故事的連貫性和完整性。合并后的章節長度控制在合理的范圍內,以適應模型的輸入要求。在合并過程中,研究人員會仔細分析每個章節的內容和結構,確保合并后的故事在情節發展和人物關系上保持連貫性和一致性。
LONGSTORY 數據集的樣例和統計信息展示
? 故事樣例 :選取了幾個具有代表性的故事樣例,展示了它們的主題、事件序列、章節劃分等關鍵信息。例如,一個關于科幻冒險主題的故事,其事件序列包括主角發現神秘信號、組建探險隊伍、探索未知星球、遭遇外星生物等關鍵事件,章節劃分則根據情節的起伏和轉折進行合理安排。這些樣例故事不僅情節豐富多樣,而且在敘事結構和人物塑造上各具特色,充分體現了 LONGSTORY 數據集的高質量和多樣化特點。
? 統計信息 :提供了數據集中故事的主題分布(如冒險、愛情、科幻、懸疑等)、事件類型分布(如沖突、轉折、高潮等)、平均故事長度等統計圖表。這些統計信息幫助讀者更直觀地了解數據集的特點和質量,為研究人員和開發者選擇合適的數據集提供了參考依據。例如,統計結果顯示,LONGSTORY 數據集中冒險類主題的故事占比最高,達到了 35%,其次是愛情類主題,占比為 28%。這些數據反映了數據集的豐富性,也為研究人員在特定主題的研究中提供了有針對性的素材。
基于 LONGSTORY 的模型微調與評估
實驗設置:明確的評估標準與方法
在基于 LONGSTORY 數據集的模型微調實驗中,研究者們繼續采用 MoPS 數據集作為評估的基礎。鑒于人工評估成本較高,此次實驗主要依賴自動化評估方法來對模型性能進行客觀衡量。除了對故事內容質量從六個關鍵維度進行評估外,研究者們還特別引入了 LongBench-Write 評估方法中的長度評分指標。這一指標能夠精準地衡量模型生成文本長度與指令要求的匹配程度,從而全面評估模型在生成長篇故事時的長度控制能力和內容質量,為模型的優化提供了更具針對性的指導。在自動化評估中,GPT-4o 模型通過對故事的六個質量維度進行逐項評分,并結合長度評分指標,最終生成綜合評分結果。研究人員對每個模型在不同長度要求下的表現進行了詳細的記錄和分析,以確保評估結果的全面性和準確性。
實驗結果:STORYWRITERLLAMA 與 STORYWRITERGLM 的驚艷表現
在不同長度要求下,STORYWRITERLLAMA 和 STORYWRITERGLM 均展現出了卓越的故事生成能力。實驗結果顯示,這兩款模型在故事質量評分(Sq)、長度評分(Sl)以及綜合評分(S)等多個指標上均大幅領先于其他基線模型,包括 Llama3.1-8B-Instruct、GLM4-9B、LongWriter-GLM4-9B、LongWriter-Llama3.1-8B、Deepseek-Llama-8B、Deepseek-Llama-70B 等。特別是在長篇故事生成方面,STORYWRITERLLAMA 和 STORYWRITERGLM 憑借其對長度約束的精準把控和高質量的內容輸出,明顯優于其他模型。這一出色表現充分證明了基于 LONGSTORY 數據集的模型微調方法的有效性,表明 LONGSTORY 數據集在提升模型長篇故事生成能力方面具有顯著優勢,為長篇故事生成任務帶來了新的突破和進展。例如,在生成一個 10000 字的長篇故事時,STORYWRITERLLAMA 能夠準確地把握故事的主題和發展方向,生成情節豐富、人物形象鮮明的故事,并且在長度控制上表現出了極高的精度,幾乎完全符合指令要求的長度范圍。

STORYWRITERLLAMA、STORYWRITERGLM 及基線模型的實驗結果
上表展示了各模型在不同指標上的具體表現,彰顯了 STORYWRITERLLAMA 和 STORYWRITERGLM 的卓越性能。
總結
STORYWRITER 算是我看到的長篇故事生成領域的第一篇論文。它提出了多智能體長篇故事生成框架,通過模擬人類創作過程中的不同角色和任務分工,巧妙地解決了長篇故事生成中的 discourse coherence 和 narrative complexity 等核心難題。同時,它構建了高質量的數據集 LONGSTORY,為模型的訓練和評估提供了豐富的資源。此外,STORYWRITER 還開發出先進的長篇故事生成 LLM STORYWRITERLLAMA 和 STORYWRITERGLM,這些模型在長篇故事生成任務中展現出了卓越的性能。
盡管 STORYWRITER 的試驗數據比較漂亮,但其實研究仍存在一些局限性。例如,由于成本的限制,目前團隊選擇使用 GPT-4o-mini 作為生成模型,并僅用于蒸餾輕量級 8b 模型。這一選擇在一定程度上限制了模型的性能表現,如果采用更強大的模型,應該可以進一步提升 STORYWRITER 的能力。此外,當前研究主要聚焦于英語數據,這在一定程度上限制了其在全球多語言環境中的應用范圍。還有在評估環節,雖然研究者提出了一些評估方式,但“文無第一”,類似的評估可以作為參考,但無法作為市場接納度的金標準(否則即是“AI八股”)。研究者還使用了SFT方式來提升生成模型的性能,但在實戰落地中,SFT本身的特性,決定了它在生成性能方面,能夠提升的空間會很有限。我倒是認為,可以嘗試通過RFT的方式,采用市場數據來進行特定市場領域的強化微調。(注意,我特意聲明是特定市場)
在數據知識產權方面,研究團隊嚴格遵守所使用數據集、模型和代碼庫的許可證規定,并承諾將代碼、LONGSTORY 數據集、STORYWRITERGLM 和 STORYWRITERLLAMA 在 MIT 許可證下進行開源,以促進知識共享和技術交流,這要點贊。在 AI 輔助方面,研究過程中雖然使用了 ChatGPT 對部分句子進行潤色,但嚴格遵循了相關倫理規范,確保了研究的原創性和真實性。
長篇故事生成的未來已然到來。文字是一切內容的起點,IP 是泛娛樂行業的寶藏。這個源頭可以涌現各種形態的內容表達形式,小說僅僅只是開端,出版、動漫、影視、游戲……是其可以延展的文學價值、商業價值。這篇論文所闡述的內容,讓我意猶未盡,因為里面的方法似曾相識,如有機會,真想與論文的作者面對面的交流一下,我有行業實踐,你有理論研究,兩相結合豈不快哉。





































