IEEE ICDCS’ 25 | 提速79%!上交大新方法優化企業級AI流程調度
復合LLM應用 (compound LLM applications) 是一種結合大語言模型(LLM)與外部工具、API、或其他LLM的高效多階段工作流應用。
?前,服務這些應?任務需要?對運?時?不確定、?作流結構不確定等問題,這對現有集群任務調度算法提出了極大挑戰,并嚴重影響任務運?效率。
為了解決上述問題,上海交通大學朱怡飛教授團隊聯合江行智能提出調度框架LLMSched,通過引入三類新節點來擴展傳統任務表征方法實現復合LLM應用任務的有效表征,借助貝葉斯網絡識別可降低不確定性的關鍵節點,并以信息熵衡量節點的熵減程度。
目前論文已被IEEE ICDCS’ 25接收。
實驗結果顯示,LLMSched結合探索-利用策略來平衡調度不確定性與當前調度收益,最終實現高效調度復合LLM應用,相較現有調度器平均任務完成時間降低14~79%。

LLMSched:DAG模型重構+熵減調度
團隊通過對現有復合LLM應用的設計分析與實驗,總結出復合LLM應用以下兩點不確定性:
時長不確定性:單任務耗時波動高達300秒(圖1a)。該不確定性主要來源于LLM的自回歸生成特性。
結構不確定性:任務步驟數與運行結構隨機波動(圖1b/c)。該不確定性主要來源于LLM在復合LLM應用中發揮的決策與規劃功能。

復合LLM應用這兩種不確定性極大限制了傳統調度的性能表現。如下圖實例所示,傳統最短任務優先(Shortest Job First)調度因誤判耗時導致效率低下(任務平均完成時間6.5s),而不確定性感知的調度器通過提前執行高熵減階段(TA-1)降低不確定性,從而達到更有效調度(任務平均完成時間5s)。

DAG模型重構:調度的基石
為了應對復合LLM應用中存在的結構不確定性,研究團隊提出全新有向無環圖(DAG)建??蚣?,如下圖所示。該框架引入了三種節點,常規節點(Regular Stage),LLM 節點(LLM Stage)與動態虛擬節點(Dynamic Stage)。其中,常規節點對應外部工具、api等的調用,LLM節點對應LLM推理任務,動態虛擬節點對應由LLM規劃生成的子DAG。

重構后的DAG模型能將現有的復合LLM應用表征為擁有固定拓撲結構的調度單元,為之后的調度設計建立了基礎。
貝葉斯分析器+熵減衡量機制:讓系統越算越“清醒”
團隊在研究過程中意識到復合LLM應用的部分節點存在顯著的關聯性。這種關聯性使得在執行完成某些前置節點后,后續節點的不確定性能夠有效降低,具體表現如下:
1、規劃式任務中LLM規劃節點后的工作流完全由該節點決定。完成該LLM規劃節點后,所規劃的子工作流的未知拓撲結構可被完全揭示。
2、相當一部分的節點在運行時長上存在較高的關聯性(下圖所示)。在完成前置節點后,后續節點的時長不確定性進一步降低。具體表現在后續節點的運行時長的條件分布更為緊湊、可預測。

為此,團隊為每個應用在對應數據集上收集了大量的運行時長數據,并在數據上基于重構的DAG模型訓練貝葉斯網絡(BN)來獲取節點的運行時長分布與節點之間的關聯性。當BN中的一個節點存在一條或多條出邊時,該節點便與其他的節點存在關聯,調度該節點便可以降低其他節點的不確定性。
考慮到實際情況中,不同的節點能夠降低的不確定性程度大不相同,團隊引入信息論中信息熵的概念,使用互信息衡量,如下圖所示。由于信息熵與互信息均通過變量的分布進行計算,因此之前通過BN獲得分布便可以直接用于計算調度每個節點的熵減,無需額外的測量。

為了將上述的熵減思想用于優化任務的平均完成時間,團隊使用ε-greedy算法結合最短剩余時間優先與最大熵減優先兩種策略,提出了一個高效的調度算法。該算法借鑒了探索-利用的思想,巧妙地在降低任務不確定性與降低任務完成時間兩個潛在的沖突目標中達到了平衡。在調度過程中,調度算法會收集任務完成的時長信息,利用貝葉斯網絡動態更新每個任務的運行時長,從而獲取更精確的任務時長估計。該算法的復雜度僅為
,能夠對動態的負載做出快速的調度決策。
實驗結果:平均任務完成時間最低降至79%
團隊選取了六種代表性的復合LLM應用,并基于此構建了4種不同應用組成的負載,如下圖所示。團隊在一臺搭載H800 GPU的ubuntu機器上使用vLLM框架與LLaMA-7B 模型進行了實驗。
實驗結果表明,LLMSched相較于現有的調度器最多可降低79%的平均任務完成時間。

為了進一步衡量LLMSched的可拓展性與適應性,團隊構建了一個簡易的LLM推理模擬器,并在上面進行了多組不同任務數量的實驗。如下圖所示,團隊展示了不同任務數量的仿真結果。
實驗結果表明,LLMSched在任意一組實驗設置上均取得領先的成績,同時隨著任務數量增加,LLMSched的優勢變得更為突出,比如,與 Decima 相比,在包含 100、200、300和400個任務的混合工作負載中,LLMSched 分別降低了 38%、65%、73%和 75%的平均 JCT,這展示了 LLMSched 的可擴展性。

此外,團隊在測試平臺實驗中,在下圖中展示了每種方法的平均調度開銷(總開銷除以每種方法的調用次數,包括BN推理和熵計算)。團隊方法的平均調度開銷略高于FCFS、SJF和Fair等簡單啟發式算法,但遠低于Decima和Carbyne這兩種復雜方法。此外,LLMSched的平均開銷對于所有類型的工作負載都低于3毫秒,這表明LLMSched可以在不影響平均JCT的情況下執行高效的實時調度。

消融研究
為了分析這兩個組件的有效性,團隊進行了消融研究,創建了兩種額外的方法——LLMSched w/o BN 和 LLMSched w/o uncertainty。第一種方法遵循算法1中提出的相同調度方案,但使用歷史任務平均持續時間進行估計。第二種方法使用貝葉斯網絡更新任務持續時間的后驗分布,但僅執行SRTF策略。

上圖展示了在四種類型工作負載上進行的消融研究結果。團隊將兩種方法的平均JCT歸一化到LLMSched的水平。
對于LLMSched w/o BN,在四種類型工作負載上,平均JCT分別比LLMSched高18%、17%、20%和 5%。這表明BN發揮了重要作用,因為它顯著提高了任務持續時間估計的準確性。借助BN,可以通過利用階段間相關性,更動態地更新和更準確地預測非計劃階段的任務持續時間。
對于LLMSched w/o uncertainty,在四種類型工作負載上,平均JCT分別比LLMSched高 21%、12%、15% 和 13%。這表明不確定性感知策略在有效引導探索過程中至關重要。當處理混合工作負載時,其重要性尤為突出,因為各階段的不確定性減少差異顯著。對于這種工作負載,LLMSched w/o BN的性能優于LLMSched w/o uncertainty。
LLMSched為LLM服務優化開辟了新方向,尤其對多模塊協作的Agent系統、LLM推理集群資源調度具有重要參考價值。其不確定性量化框架可擴展至其他動態任務場景,推動智能調度理論與實際系統的深度融合。
論文鏈接:https://arxiv.org/abs/2504.03444


























