在大型項目中,抖音集團如何“用活”數據?
一、理念升級:從數據中臺到數據飛輪
當前,數據作為數字經濟時代的關鍵生產要素,逐步融入生產生活各方面,去年國務院也發布了《關于構建數據基礎制度更好發揮數據要素作用的意見》,且國家數據局于今年成立,進一步說明數據是新的生產要素,是基礎性資源和戰略性資源,也是重要生產力。
對于企業來說,隨著互聯網、大數據、人工智能等技術的快速發展,數字化轉型也成為企業實現更快發展、降本增效的重要手段之一。數字化轉型能夠使企業更加高效、靈活和適應市場變化。通過利用先進的技術和數據分析,企業可以優化業務流程,提高生產效率,降低成本,并更好地滿足客戶需求,不僅有助于提升競爭力,還可以帶來更多的商業機會和收入來源。
數據驅動,也是字節跳動的企業文化基因。據介紹,80% 的字節員工每天在通過各種各樣的數據產品使用數據,進行數據消費。這其中既包括大家傳統認知中的數據工程師、數據分析師這些需要直接和數據打交道的人,也包含產品、運營、市場,甚至行政、HR、UED 這些傳統意義上離數據比較遠的人。
經過十多年數據經驗沉淀,從數據工坊、數據中臺,字節跳動也衍生出數據飛輪模式。我們認為,在企業數據建設發展過程中,經歷了從數據工坊、數據中臺到數據飛輪的三個階段。
- 第一階段:數據工坊,主要指在企業內各個子公司、子業務各自進行數據建設,形成數據孤島,并且將導致數據處理效率低下,無法處理大規模數據。
- 第二階段:數據中臺。這是一種集約化的數據管理方式,主要是通過構建統一的數據平臺,實現數據的采集、存儲、處理、分析和共享。數據中臺可以有效地提高數據處理效率,降低成本,并提供更準確、更及時的數據支持。同時,數據中臺的建設也需要大量的資金和技術支持,而且需要長時間得規劃和實施。
- 第三階段:數據飛輪。數據飛輪是火山引擎提出的企業數智化升級新模式,強調“以數據消費促數據生產,以數據消費助業務發展”,通過“數據消費”這一出發點,轉動企業業務應用層和數據資產層的兩個飛輪

企業大數據建設的三個階段
數據飛輪與數據中臺并不是完全替代的關系,而是繼承和升級的關系。數據中臺提供了企業所需的底層數據支持和數據處理能力,而數據飛輪則是在此基礎上,指出數據消費的重要,并提供配套的便捷、易用的數據消費工具,幫助企業形成數據應用和業務價值提升的良性循環。
二、案例解讀:大型賽事項目
無論是春節、雙十一等節日事件,還是世界杯、冬奧會等大型賽事,抖音集團需要承接大量大型項目的需求。數據在其中的重要性不言自明,從決策層到一線員工,都需要依據數據來進行決策。
以賽事項目為例,業務團隊以及運營人員在賽事運營、熱點運營、直播間分析、資源投放等有大量數據消費的需求,基于數據BP的組織模式,數據流和業務流充分地融合,讓處于業務流各個環節的不同角色,有充分機會使用到數據。同時由于數據研發治理、A/B 測試、CDP 等數據工具進一步降低使用門檻,推動業務層產生更多數據消費,進而產生飛輪效應,更好實現賽事項目的業務目標。特別是對于一些國民級的大型賽事來說,累計觀看人次往往達到百億級、累計活動參與人數千萬級,涉及多端、多場景、多業務聯動,對技術實力、組織效率、產品能力都是一次“嚴考”。
面對龐大的數據量級,在大型賽事項目上如何用好數據上,面臨這兩個問題:
- 橫跨大量需求方,如何實現組織協同?
大型活動的成功不僅僅依賴于技術團隊的努力,還需要市場、運營、內容創作等多個部門的緊密合作,有的甚至需要協同公司內數 10 多個數據團隊、協同百余位需求方。
- 如何讓組織協作方都能又快、又準、又全地使用數據?
例如,對于直播賽事,需要實時分析觀眾興趣偏好等數據,以便為觀眾提供更好的觀看體驗和個性化推薦。這需要對大量實時數據進行快速、準確地分析和處理。
1、數據 BP 的組織協作模式
為了給用戶提供更豐富觀賽體驗,大型賽事項目往往會針對比賽做大量創新,不僅僅有賽事運營中常見的積分榜、有獎預測等,更有實時的運營項目,比如賽事熱點榜單、熱門球星等等。除此之外,大型比賽也會涉及到多端同步直播。
豐富的賽事內容、運營活動以及多端聯播,意味著賽事項目需要多業務線、多團隊、多角色介入與合作,更意味著他們將產生復雜的看數、用數需求。比如,每個團隊監測的數據指標不一致,對數據實效性需求不同,統計口徑或埋點不一致,該如何滿足?
字節跳動的數據 BP 機制則可以解決這一問題。數據 BP 來源于 HRBP(Human Resources Business Partner,人力資源業務合作伙伴),其職責是向上支撐不同類型的業務線,向下兼容數據平臺底層的各項能力,具備對數據工具和引擎的高效使用能力。數據BP 作為數據平臺與業務的橋梁,對業務直接輸出平臺已沉淀的能力,把業務場景方向反饋給中臺建設,實現能力的動態互哺。
除此之外,為了能統一服務標準,數據BP還總結了一套服務評估體系,稱之為“0987”:
- 0 代表穩定性,即產生數據是否穩定。通常,SLA 破線的故障數要清零。
- 9 代表需求滿足程度。即要滿足 90% 的業務數據需求。
- 8 代表數倉構建情況,即數倉完善度。是否可以滿足分析師查詢覆蓋率達到 80%,也就是說分析師查詢日常數據都可以找到數據。
- 7 代表用戶滿意度。通過 NPS 評估服務滿意度不低于 70%。
另外,大型賽事更需要橫向團隊支持來保障數據質量。比如比賽產生的數據量特別大,上線前可能出現數據大面積延遲,數據 BP 則能根據情況靈活申請資源,上線前做整體監控及全面優化。除此之外,大型賽事也面臨核心直播數據質量風險高的問題,通過上線前演練,數據 BP 團隊最大程度模擬真實數據和場景,全面保障數據的可用性、準確性。
2、場景一:大型賽事中的實時數據分析
在大型賽事項目中,業務有非常多關于實時數據的需求反饋,例如直播間分析、專項看板、核心大屏等,實時數據能夠幫助運營人員更快、更準確地制定或調整賽事運營策略,而“賽事運營資源投放“就是重要的實時需求之一。
為了最大化大賽覆蓋面和影響力,項目組一般會根據賽事進程為每場比賽匹配廣告投放資源。那么,在有限資源下,如何才能最大化廣告投放效果,成為賽事運營團隊考核的核心指標?運營團隊需要找到投放時間、投放人群、投放量級等變量的最佳組合,這也需要通過實時數據看板輔助決策。
從用戶的實時點擊到最終呈現給賽事運營的一個個數字看板,背后涉及復雜的數據采集、加工等流轉過程,其中技術難點在于對數據實效性要求高、更新頻率高、準確性要求高。這主要依賴火山引擎大數據研發治理工具 DataLeap 來實現。DataLeap 具備實時全棧能力,涵蓋數據采集、數據處理、運維管理、監控告警等全鏈路。

數倉研發人員會基于 DataLeap 對不同任務進行分級,并匹配任務監控能力。如果該任務有延時,即被判斷為高危任務,并把風險推送給相關人員,由此保障數據實時性。除此之外,火山引擎 DataLeap 還對 Flink 引擎進行深度優化,大幅度提升計算能力和計算性能,能讓數據采集、加工等流程縮短到秒級,帶來更快的數據響應,幫助賽事運營團隊更好實現實時決策。通過 DataLeap 采集、加工的數據最終會通過數據中心展現給賽事運營團隊,數據中心能提供一套標準化的看板能力,幫助賽事運營團隊根據實時數據曲線來制定投放策略。
項目組會通過歷史比賽數據來做賽前預判,當到計劃投放的時間點或場景時,監控數據中心提供的 PCU、進房人數等實時數據趨勢,來判斷是否投入更多資源。如果數據趨勢達不到預判趨勢,就會投入資源。最終賽事運營團隊也總結出一套投放策略——聚焦于開播、上下半場結束前 15min 的 pcu 高點這幾個關鍵節點進行資源投放。
3、場景二:基于 A/B 測試的產品能力優化
如果有朋友細心,便會發現很多產品 app 首頁對不同人的tab展現情況、時間、位置是不同的。這是基于大數據的能力,洞察用戶偏好,根據數據分析進行精準推送。
為了獲得更好的曝光,大型賽事往往也會在產品 APP 首頁等關鍵位置上線推廣資源。優質推廣資源有限,如何才能最最大化推廣資源價值,需要用科學、嚴謹的方法來評估,項目組主要通過 A/B 測試來解決這一問題。

以賽事團隊在 APP 首頁的 tab 展現為例,項目組通過兩個階段的 A/B 測試,最終制定了最優的賽事展示方案。
階段一:預賽期。由于這一階段比賽還處于熱度不斷攀升的階段,數據 BP 團隊將 APP 用戶分為“展現頂部 tab”和“不展現頂部 tab”兩群人,根據經驗初步判斷,將賽事 tab 展現給興趣度最高的一部分人群,能實現收益最大化。為了這部分展現人群,數據分析和數倉團隊根據歷史數據做人群分析,定位基本人群畫像,通過客戶數據平臺 VeCDP 圈選人群,再導入 A/B 實驗平臺 DataTester,由數據分析師設計實驗規則,命中實驗規則的人群即可看到賽事 tab。
階段二:比賽期。這一階段,隨著決賽名單出爐,賽事熱度被推至頂峰,頂部 tab 也將被全量展現給 APP 用戶。為了進一步平衡頂部 tab 帶來的收益和影響,數據 BP 團隊上線了“動態調整”能力。“動態調整”能力意味著,結合比賽進程、用戶興趣變化等因素,不同人在不同時間,看到頂部 tab 位置是不同的。而之所以能實現靈活調整,也離不開對 VeCDP 和 DataTester 的組合使用。
通過 VeCDP 圈選不同人群,再到 DataTester 建立不同對照組進行測試,并實時復盤,不斷修正結果,具體而言,第一是做數據分析,比如通過 VeCDP 圈定的人群點擊率到底有多少。第二是看活躍情況,例如,一個用戶頂 tab 展現在第四個位置,即該 tab 是被隱藏起來的,因為前期判斷該用戶興趣度不高。但比賽期間,賽事團隊通過 DataTester 實驗數據發現,他主動搜索賽事相關內容、或者手動把頂 tab 展現出來,我們則會認為他高活躍,把頂 tab 挪到第三個位置。
三、核心結論:數據飛輪,讓數據活起來
反觀大型賽事項目中的數據建設方式,我們主要可以總結如下幾點:
第一:數據消費是數據飛輪的核心驅動力,也是企業數字化轉型的核心。消費繁榮可以促進數據資產的建設,消費繁榮能促進業務的發展。這樣企業的數據流就逐漸地跟業務能夠進一步地融合,數據資產、業務應用,最終形成雙飛輪的效應。
- 提升決策效率:數據消費能夠讓業務在進行決策與運營的時候,更快、更有效。例如,大型賽事項目的運營同學會根據實時數據看板,來制定廣告資源投放策略。基于這種實時的數據消費,能讓決策更高效、更有效。
- 驅動業務價值提升:一旦業務參與方發現借助頻繁的數據消費能做出高效決策,并帶來更好的業務價值后,會促生出更多、更頻繁甚至延伸到更寬領域的消費。當數據消費盛行時,企業會加大在數據建設、數據治理和數據查詢能力的投入,那么飛輪的轉動便會推動數據在各個應用場景的快速滲透,并促進數據消費。
除此之外,我們也在推動數據飛輪與 AI 能力結合,進一步降低用戶的使用門檻。例如,DataWind 找數助手,可以使用自然語言問答的方式來檢索多種數據源,包括數據集、數據指標維度、業務知識庫等,并做出擬人化的總結響應。在這種交互過程中,大語言模型可以更好地理解用戶的真實意圖,讓“找數”本身的成本變得非常的低。另外,DataLeap 開發助手能夠降低編程語言帶來的障礙和門檻,一方面讓不精通 SQL 語法的人也可以做簡單的數據開發工作;另一個方面,讓特別專業的數據研發人員從大量繁雜的需求中解放出來,更聚焦在復雜場景中。
第三:資產運營,即實現數據資產的可治理、可落地和可運營。通過制定明確的數據治理策略、規劃實施計劃、加強元數據管理和優化數據湖資源管理,我們實現了對數據的全面管理和有效利用,為企業的發展提供了有力的支持。
例如,在大型賽事項目中,為了確保數據的質量、一致性和可用性,通過數據BP的組織模式,對各個團隊的指標口徑進行統一,并通過數據研發治理平臺等產品,制定明確的數據治理策略,不僅保證在后續的數據分析和決策中得到準確的結果,還可以確保數據的合規性和安全性,避免數據泄露和濫用。
數據驅動已經成為數字化轉型中企業的基本認知,但是如何“用活”數據,進一步提升企業活力,還需要持續、長期探索。



























