系統改造：一次系統領域拆分的實戰復盤

2025-07-30 02:11:00

云計算云原生

技術的發展日新月異，但架構設計的核心原則卻是相對穩定的。無論是微服務、云原生，還是未來可能出現的新技術，都離不開對業務的深度理解和對系統邊界的準確劃分。

引言

在互聯網的浪潮中，每一個成功的產品背后都有著不為人知的技術挑戰。當業務量從千級躍升到百萬級，當用戶從幾百人暴增到幾十萬人，原本運行良好的系統突然變得不堪重負。這時候，架構師面臨的不僅僅是技術問題，更是對業務理解深度和技術前瞻性的終極考驗。

今天，我想跟大家分享一個真實的故事——一個關于系統拆分重構的故事！

當系統開始"呼救"

故事要從一個朋友的求助電話開始。那是一個周五的晚上，電話里傳來他焦急的聲音："系統快撐不住了，能幫忙看看嗎？"

他們公司是某行業知名電商的供貨商，業務模式比較特殊。不像傳統電商那樣簡單的買賣關系，他們的供應鏈很長，涉及多級供貨商、多個工廠，還要協調各種材料商的生產排期。為了提高協調效率，他們在原有的訂單系統基礎上增加了排期協商功能。

剛開始一切都很順利，但隨著業務量的激增，問題開始暴露。訂單數據在一年內增長到了一億多條，系統響應越來越慢，到后來連基本的查詢都要等幾十秒。更要命的是，由于合作周期長、包含售后環節，這些數據根本無法按時間歸檔。

當我深入了解后發現，這不是簡單的數據量問題，而是系統設計出現了根本性偏移。

深入業務流程，尋找問題根源

面對這樣的問題，朋友的反應是對系統進行分庫分表，但我覺得這是治標不治本。系統慢的根本原因在于設計的不合理，而不是數據量本身。

讓我先給大家看看他們的業務流程圖：

圖片

這個流程圖很清楚地展示了他們的業務復雜性。上游項目先發布生產計劃，供貨商根據計劃拆分采購列表，聯系不同工廠協調預排期，然后是質量審核、下單支付、確認排期，工廠制定采購材料計劃，分批生產制造，最后是驗收和退換。

通過深入分析這個業務流程，我發現了一個關鍵問題：系統的核心已經從原來的"訂單驅動"轉變為"排期驅動"，但技術架構卻沒有跟上這個變化。

原來的系統是圍繞訂單設計的，通過自動匹配實現上下游分單。但加入排期功能后，整個業務流程變了：現在是先有排期協商，再根據排期生成訂單。可架構還是以訂單為中心，這就導致了一個尷尬的局面——主訂單承擔了排期、生產、物流、財務等一大堆職責，變成了一個"超級胖子"。

解構現有系統架構

為了更好地理解問題，我繪制了當前系統的架構圖：

圖片

從這張圖可以清楚地看到，多個角色都在使用這個"訂單排期系統"，但訂單表承載的職能過多，導致多個流程依賴訂單表無法做數據維護。訂單存在多個和訂單業務無關的狀態，比如排期周期很長，導致訂單一直不能關閉。

這種設計帶來了三個嚴重問題：

性能問題：單表數據量過大，查詢效率急劇下降。一個訂單表要承擔排期、生產、物流、財務等多重職責，每次查詢都要處理大量不相關的數據。

維護性問題：一個實體承擔多重職責，任何一個環節的變更都可能影響全局。比如修改排期邏輯可能會影響到訂單處理，修改物流狀態可能會影響到財務對賬。

擴展性問題：新業務接入困難，開發效率低下。每次要增加新功能，都要考慮對現有復雜訂單模型的影響。

重新定義系統邊界

經過仔細分析，我按照用戶角色重新梳理了整個業務流程：

圖片

這張圖按角色及其所需動作畫出多個框，將他們需要做的動作和數據流穿插起來，讓我們更清楚地看到了各個角色的職責：

上游采購方主要關注計劃發布和收貨驗收，他們的核心動作是發布進貨計劃、收貨排期、下單、收貨/退換。

供貨商負責協調排期和訂單服務，主要做的是排期分單、協調工廠、提供訂單相關服務。

工廠則專注于生產排期和產品制造，負責生產排期、產品制造、售后服務。

通過這樣的梳理，我們發現整個流程可以明確分為三個階段：

第一階段是計劃排期協調階段，這個階段不涉及訂單，主要是上游和多個工廠的排期協商。

第二階段是生產供貨交付階段，基于確認排期生成訂單，執行生產和物流。

第三階段是售后服務調換階段，處理訂單完成后的服務和問題。

系統拆分方案設計

基于這個發現，我設計了新的系統架構：

圖片

我們決定將系統拆分為兩個子系統：排期調度系統和訂單交付系統。

排期調度系統專門處理第一階段的工作。上游在這里提交進貨計劃和收貨排期，供貨商與工廠協商分單和議價，多方達成一致后進行排期預占。這個系統的核心是"協商"和"調度"，不涉及具體的交易行為。

核心功能包括進貨計劃管理、排期協商調度、產能預約管理、排期狀態跟蹤。數據模型包括schedule_plan（排期計劃表）、capacity_booking（產能預約表）、supplier_coordination（供貨商協調表）、schedule_status（排期狀態表）。

訂單交付系統則處理后兩個階段的工作。當排期確認后，系統會自動在訂單系統中生成對應的訂單，工廠根據排期進行生產，分批次發貨，處理售后等等。這個系統的核心是"執行"和"交付"。

核心功能包括訂單生命周期管理、生產執行跟蹤、物流配送管理、財務對賬結算。數據模型包括delivery_order（交付訂單表）、production_batch（生產批次表）、logistics_tracking（物流跟蹤表）、financial_settlement（財務結算表）。

兩個系統通過排期ID和批次號進行關聯，使用異步消息機制處理跨系統交互，并且有統一的主數據管理服務。

代碼架構的重構過程

讓我展示一下拆分前后的代碼結構對比：

圖片

這是拆分前的代碼結構。可以看到，單一訂單服務承載過多職責，業務邏輯高度耦合，數據訪問層職責不清晰。

圖片

這是拆分后的代碼結構。各系統職責邊界清晰，減少了跨角色的實體調用，大大提高了系統的可維護性。

在具體實現上，我們采用了領域驅動設計的思想，為每個系統定義了清晰的聚合根和業務邊界。

排期調度系統的核心實體是SchedulePlan（排期計劃），負責管理整個排期的生命周期：

@Entity
publicclassSchedulePlan {
    private String scheduleId;
    private String demandId;
    private ScheduleStatus status;
    private LocalDateTime planStartTime;
    
    publicvoidconfirmSchedule(List<FactoryCapacity> capacities) {
        validateCapacities(capacities);
        this.status = ScheduleStatus.CONFIRMED;
        publishScheduleConfirmedEvent();
    }
}

當排期確認后，系統會發布一個領域事件，訂單交付系統監聽這個事件，自動創建對應的訂單：

@EventHandler
public void handleScheduleConfirmed(ScheduleConfirmedEvent event) {
    DeliveryOrder order = createDeliveryOrder(event);
    ProductionPlan plan = generateProductionPlan(event);
    order.startProduction(plan);
}

這種事件驅動的架構既保證了數據的一致性，又實現了系統間的解耦。即使其中一個系統出現問題，也不會影響到另一個系統的正常運行。

拆分決策的科學方法

在拆分過程中，我們遵循了明確的拆分原則：

圖片

單一職責原則：每個數據實體只負責一個核心業務領域。訂單實體只管理訂單的完整生命周期，排期實體只負責排期協商和調度，避免實體承擔多重、交叉的業務職責。

業務流程內聚原則：按業務流程的自然邊界進行拆分。協調排期流程歸到排期調度系統，生產執行流程和售后服務流程歸到訂單交付系統。

數據依賴解耦原則：最小化跨系統的數據依賴，減少頻繁的JOIN操作，避免緊耦合的數據調用，每個系統維護完整的業務數據。

服務抽象的三重境界

在系統拆分的過程中，我們還遇到了一個重要問題：如何對底層服務進行合理的抽象？經過多年的實踐，我總結出了服務抽象的三種境界。

第一種是被動抽象法，適合創業初期的團隊。當發現多個服務使用相同的業務邏輯時，就將其抽象成公共服務。這種方式簡單直接，但抽象程度不高，隨著業務的發展可能需要大規模重構。

圖片

第二種是動態輔助表方式，適合業務相對穩定的中型團隊。它的具體實現是這樣的：當訂單系統被幾個開發小組共同使用，而不同業務創建的主訂單有不同的type，不同的type會將業務特性數據存儲在不同的輔助表內，比如普通商品保存在表order和表order_product_extra中，定制類商品的定制流程狀態保存在order_customize_extra中。

動態輔助表可以讓實體保持穩定，不同業務的特性數據存儲在不同的輔助表中。這種方式在查詢便利性和業務靈活性之間取得了平衡，但各業務之間的隔離性較差。

圖片

第三種是強制標準接口方式，適合大型企業的核心系統。底層服務只提供標準功能，業務的個性化部分完全由上層實現。這種方式的抽象程度最高，底層服務極其穩定，但對上層業務的技術要求也更高。

圖片

在我們這個項目中，考慮到團隊規模和業務特點，我們選擇了第二種方式。既保證了核心訂單邏輯的穩定性，又為不同類型的業務保留了足夠的靈活性。

改造效果令人驚喜

經過三個月的努力，新系統終于上線了。效果超出了預期：

性能大幅提升：系統響應時間從原來的幾十秒降低到了秒級，數據庫查詢效率提升了90%，系統的整體吞吐量增加了5倍。

可維護性明顯改善：各個模塊職責清晰，開發團隊可以并行工作，互不干擾。新功能的開發時間從原來的幾周縮短到幾天。

擴展性得到保障：新的架構為后續的業務發展奠定了堅實的基礎，可以靈活應對各種業務變化。

但這個項目給我最大的啟發不是技術本身，而是對業務的深度理解。很多時候，我們遇到的所謂"技術問題"，實際上都是業務問題在技術層面的體現。如果不能深入理解業務的本質，僅僅從技術角度出發，往往只能治標不治本。

系統拆分的方法論總結

圖片

回頭來看，這次改造的成功在于我們遵循了正確的方法論，我將其總結為"三步拆分法"：

第一步：自上而下看流程。我們深入分析了業務流程，識別了關鍵的業務階段，確定了流程邊界和依賴關系。這為后續的系統拆分提供了清晰的指導。

第二步：自下而上看模塊。我們分析了數據實體的職責，識別了數據依賴關系，確定了模塊拆分的邊界。這確保了拆分后的模塊具有良好的內聚性和松耦合性。

第三步：綜合考慮做決策。我們平衡了流程完整性和模塊獨立性，考慮了團隊組織結構，評估了技術實現的復雜度。這保證了方案的可行性和可維護性。

寫在最后的思考

在這個快速變化的時代，我們既要保持對新技術的敏感度，也要堅持對基礎原則的堅守。記住一句話：沒有銀彈，只有最合適的解決方案。每一次架構調整都是對業務理解的深化，也是技術能力的提升。

另一個重要的感悟是，系統架構不是一成不變的。隨著業務的發展和市場的變化，原有的設計可能會逐漸偏離初衷。這就需要我們定期回顧和反思，及時調整架構，讓技術更好地服務于業務。

責任編輯：武曉燕來源： JAVA日知錄

系統技術云原生