畫像標(biāo)簽體系構(gòu)建與應(yīng)用實(shí)踐
一、畫像標(biāo)簽體系
去哪兒在每個業(yè)務(wù)發(fā)展過程中構(gòu)建了獨(dú)立的畫像標(biāo)簽體系。隨著公司的不斷壯大,需將各個業(yè)務(wù)的畫像標(biāo)簽體系進(jìn)行整合。從技術(shù)角度看,整合的過程相對簡單,但業(yè)務(wù)層面的整合則較為復(fù)雜。因?yàn)楦鱾€標(biāo)簽在不同業(yè)務(wù)中的定義存在差異,這增加了整合的難度。為了確保整合后的標(biāo)簽體系能夠更好地服務(wù)于公司的整體戰(zhàn)略,需要進(jìn)行深入的關(guān)鍵詞提取和優(yōu)化,確保各個標(biāo)簽的邏輯性和一致性。

1. 什么是畫像標(biāo)簽
用戶行為為用戶在 APP 上操作所產(chǎn)生的行為,業(yè)務(wù)日志則為用戶自己點(diǎn)擊、下單、搜索等行為在服務(wù)器端產(chǎn)生的數(shù)據(jù)。畫像標(biāo)簽是通過規(guī)則統(tǒng)計(jì)和挖掘算法對用戶行為和業(yè)務(wù)數(shù)據(jù)進(jìn)行計(jì)算后得出的用戶等維度的數(shù)據(jù)。

2. 畫像標(biāo)簽的需求來源
每個業(yè)務(wù)部門在搭建自己的畫像標(biāo)簽平臺時,由于目標(biāo)不同,需求也有所差異,比如機(jī)票業(yè)務(wù)通常以營銷為目標(biāo),酒店業(yè)務(wù)通常以服務(wù)為目標(biāo)。我們應(yīng)從實(shí)際業(yè)務(wù)需求出發(fā),與各個部門溝通,包括公司管理層、實(shí)習(xí)生等不同層級的人員,進(jìn)行深入的需求調(diào)研,以確保整合后的標(biāo)簽體系能夠更好地滿足業(yè)務(wù)需求。在整合過程中,用戶畫像標(biāo)簽需求主要分為三類:營銷風(fēng)控、內(nèi)部業(yè)務(wù)分析應(yīng)用和描述用戶。
- 營銷風(fēng)控:用戶營銷、個性化推薦、精準(zhǔn)廣告投放、用戶風(fēng)控。
- 業(yè)務(wù)分析:業(yè)務(wù)優(yōu)化分析、多維度業(yè)務(wù)指標(biāo)監(jiān)控、指導(dǎo)新業(yè)務(wù)產(chǎn)品設(shè)計(jì)。
- 描述用戶:單一用戶的定義、平臺用戶的定位、行業(yè)報(bào)告。

3. 畫像標(biāo)簽的分類
在畫像標(biāo)簽構(gòu)建的過程中分為業(yè)務(wù)分類和技術(shù)分類。
從需求中提煉出業(yè)務(wù)需要的用戶畫像分類,其中一級類目和二級類目偏以業(yè)務(wù)流程進(jìn)行分類向的定義,并以此不斷擴(kuò)充。

另外,根據(jù)不同的技術(shù)需求,我們需要選擇合適的技術(shù)棧來實(shí)現(xiàn)畫像標(biāo)簽的生成、存儲和調(diào)用。
首先,需要明確畫像標(biāo)簽的定義和目標(biāo),以便確定需要使用哪種技術(shù)。其次,需要考慮標(biāo)簽的更新周期和訪問方式,這決定了是否需要在線或離線處理標(biāo)簽,以及選擇哪種存儲資源。最后,根據(jù)這些因素,我們可以選擇合適的技術(shù)棧來實(shí)現(xiàn)畫像標(biāo)簽體系,確保系統(tǒng)的性能和穩(wěn)定性。通過這樣的技術(shù)分類,可以更好地管理和維護(hù)畫像標(biāo)簽體系,提高其可擴(kuò)展性和可用性

(1)構(gòu)建方法
- 統(tǒng)計(jì)類:依靠 SQL 即可完成。
- 規(guī)則類:面向數(shù)據(jù)分析師、商業(yè)分析師以及產(chǎn)品運(yùn)營等具有一定業(yè)務(wù)背景的人通過對業(yè)務(wù)的理解,去構(gòu)建一些規(guī)則類的標(biāo)簽,這類標(biāo)簽會基于業(yè)務(wù)的理解變化產(chǎn)生變動。
- 模型類:這類標(biāo)簽需要算法團(tuán)隊(duì)進(jìn)行復(fù)雜的計(jì)算或需要樣本數(shù)據(jù)。與一些基礎(chǔ)標(biāo)簽不同,模型類標(biāo)簽在精度上可能存在挑戰(zhàn),無法達(dá)到百分之百的準(zhǔn)確。因?yàn)橛袝r我們獲得的樣本數(shù)量非常有限,使得標(biāo)簽的準(zhǔn)確率難以維持在較高的水準(zhǔn)。因此,對于模型類標(biāo)簽,我們可能需要尋找其他的方法和技術(shù)來提高其精度和可用性。
(2)更新周期
除了已列出的按小時、周、月的更新周期外,我們目前還實(shí)現(xiàn)了實(shí)時的標(biāo)簽更新,這更接近于流式更新。
(3)訪問方式
由于畫像標(biāo)簽平臺需要處理大量數(shù)據(jù)和用戶請求,需要根據(jù)后臺技術(shù)棧來選擇合適的訪問方式,對于一些大型公司,用戶量和數(shù)據(jù)量都非常龐大,因此我們需要考慮如何有效地存儲和調(diào)用標(biāo)簽。有些標(biāo)簽可能只需要離線構(gòu)建,而有些標(biāo)簽則可能需要在線調(diào)用。對于離線標(biāo)簽,我們可以選擇不占用高存儲成本的資源,例如將數(shù)據(jù)存儲在 Redis 或 HBase 中。而對于在線標(biāo)簽,需要確保系統(tǒng)能夠快速響應(yīng)用戶請求,并提供穩(wěn)定的服務(wù)。因此,在選擇訪問方式時,我們需要根據(jù)實(shí)際情況進(jìn)行權(quán)衡和選擇,以確保系統(tǒng)的性能和穩(wěn)定性。
4. 畫像標(biāo)簽體系構(gòu)建過程

在畫像標(biāo)簽體系的生產(chǎn)過程中,我們需要對各類數(shù)據(jù)源進(jìn)行一系列的處理,最終生成標(biāo)簽。其中,ID Mapping 是一個關(guān)鍵環(huán)節(jié)。ID Mapping 的目標(biāo)是解決不同ID 指向同一人的問題,特別針對早期成立的公司,由于注冊方式多樣,可能會出現(xiàn)多個 ID 對應(yīng)同一用戶的情況。例如,用戶通過郵箱注冊后可以綁定或更改手機(jī)號,或者曾經(jīng)允許未登錄狀態(tài)下使用,這些情況都可能導(dǎo)致多個 ID 對應(yīng)同一用戶。
為了解決這個問題,ID Mapping 承擔(dān)著實(shí)現(xiàn)多設(shè)備關(guān)聯(lián)的任務(wù)。另外,ID Mapping 對于風(fēng)控來說也是至關(guān)重要的基礎(chǔ)步驟。通過 ID Mapping,可以更好地識別和關(guān)聯(lián)不同設(shè)備的使用者,從而更好地進(jìn)行風(fēng)險(xiǎn)控制和安全管理。通過合理的 ID Mapping 設(shè)計(jì)和管理,我們可以更好地保護(hù)用戶隱私和數(shù)據(jù)安全,同時提高畫像標(biāo)簽體系的準(zhǔn)確性和可靠性。
二、畫像標(biāo)簽平臺
畫像標(biāo)簽平臺也稱之為 CDP 平臺,包含了畫像標(biāo)簽的生產(chǎn)、數(shù)據(jù)分析、業(yè)務(wù)應(yīng)用、效果分析等服務(wù)。下圖為去哪兒 CDP 平臺的功能架構(gòu)。

在去哪兒網(wǎng),疫情發(fā)生后加強(qiáng)了內(nèi)部能力的建設(shè),將畫像標(biāo)簽與主流策略平臺進(jìn)行了整合。目前該平臺涵蓋了畫像標(biāo)簽的整個生命周期,可實(shí)現(xiàn)畫像構(gòu)建、人群圈選以及最終的營銷動作等功能。通過這樣的整合,能夠更好地實(shí)現(xiàn)數(shù)據(jù)驅(qū)動的營銷策略,將用戶畫像與營銷活動無縫連接起來。這有助于提高營銷效果和用戶滿意度,同時也有利于企業(yè)內(nèi)部的數(shù)據(jù)整合和協(xié)同工作。

三、常見算法類畫像標(biāo)簽
1. 常見模型類標(biāo)簽常用算法類型
在實(shí)踐過程中,基于樣本和技術(shù)棧,可以將模型類標(biāo)簽常用算法分為如下幾大類:

(1)分類算法:在業(yè)務(wù)流程中利用預(yù)測類標(biāo)簽來進(jìn)行圈選和業(yè)務(wù)過濾,需要擁有足夠的樣本數(shù)據(jù)來進(jìn)行訓(xùn)練和優(yōu)化模型,從而提高預(yù)測準(zhǔn)確率。預(yù)測類標(biāo)簽不僅僅局限于訂單支付預(yù)測,還可以包括搜索支付預(yù)測、搜索預(yù)測、詳情頁預(yù)測等。
(2)推薦算法:與排序和優(yōu)先級相關(guān),需要更廣泛的前沿知識和技術(shù)棧。推薦算法的目標(biāo)是從召回集中為用戶推薦合適的酒店房型。例如,對于親子出游的場景,推薦算法可以為用戶推薦雙床房或套間等合適的酒店房型。
(3)知識圖譜:利用圖數(shù)據(jù)庫技術(shù)更好地揭示用戶及其周邊關(guān)系。風(fēng)控場景中應(yīng)用較多,例如識別異常用戶和判斷是否為惡意用戶。
(4)因果推斷:通過一個例子解釋了給用戶發(fā)短信和 push 消息對營銷效果的影響,并涉及到成本問題。
(5)圖形圖像:結(jié)合圖形圖像處理技術(shù),對圖形圖像進(jìn)行打標(biāo)。涉及到對圖像的分割、識別等技術(shù),但更多的是通過用戶標(biāo)簽反向應(yīng)用到圖像打標(biāo)上。例如,對于發(fā)表不正當(dāng)評論的用戶,將其標(biāo)簽提取出來,并應(yīng)用到圖形圖像打標(biāo)算法中,以提高打標(biāo)的效率和準(zhǔn)確性。
(6)NLP 機(jī)器人
(7)lookalike 營銷算法:即通過種子用戶進(jìn)行擴(kuò)展?fàn)I銷的算法。

基于需求的類型會有不同的分類方法:
- 單一實(shí)體:通過關(guān)系網(wǎng)絡(luò)或知識圖譜來尋找其他相關(guān)實(shí)體。例如,利用知識圖譜可以發(fā)現(xiàn)實(shí)體之間的關(guān)系,從而擴(kuò)展單一實(shí)體的關(guān)聯(lián)實(shí)體。
- 業(yè)務(wù)實(shí)體集:與特定業(yè)務(wù)相關(guān)的標(biāo)簽,由業(yè)務(wù)本身產(chǎn)生,而非人為控制。例如,酒店搜索用戶或機(jī)票搜索用戶,如果想要針對這些用戶進(jìn)行營銷并擴(kuò)展業(yè)務(wù),就要通過對業(yè)務(wù)實(shí)體標(biāo)簽的深入分析和挖掘,更好地理解用戶需求和行為,從而優(yōu)化業(yè)務(wù)策略,提高轉(zhuǎn)化率和用戶體驗(yàn)。業(yè)務(wù)實(shí)體集可以通過品牌模式、關(guān)聯(lián)規(guī)則、方案標(biāo)簽平臺等方式進(jìn)行擴(kuò)充,以獲取更豐富的畫像標(biāo)簽或畫像用戶。
- 規(guī)則實(shí)體集:指基于特定規(guī)則或條件生成的標(biāo)簽。這些標(biāo)簽通常是由產(chǎn)品團(tuán)隊(duì)根據(jù)對業(yè)務(wù)的理解,利用標(biāo)簽工具圈選出符合特定規(guī)則的用戶群體。例如,在推薦行程或房型的過程中,有些用戶可能已經(jīng)購買了北京的機(jī)票和酒店,那么我們可以將這些具有特定行為鏈條的用戶作為目標(biāo)群體,進(jìn)行營銷推廣。可以使用關(guān)系實(shí)體和聚類算法來處理。在進(jìn)行聚類算法時,需要注意不能僅使用規(guī)則標(biāo)簽進(jìn)行聚類,而應(yīng)該使用其他標(biāo)簽。同時,需要避免將與規(guī)則標(biāo)簽強(qiáng)相關(guān)的標(biāo)簽與規(guī)則標(biāo)簽混為一組。為了避免這種情況,方案標(biāo)簽平臺會提供標(biāo)簽與其他標(biāo)簽的相關(guān)性分析,幫助用戶過濾掉相似的標(biāo)簽。
- 行為實(shí)體集:基于用戶行為生成的標(biāo)簽。這些標(biāo)簽通過分析用戶的行為特征和需求類型,來制定相應(yīng)的營銷策略。例如,對于購買過北京機(jī)票和酒店的用戶,我們可以進(jìn)一步分析他們的行為特征,如購買時間、頻次、偏好等,以制定更具針對性的營銷策略。
2. 基于知識圖譜和頻繁模式的 looklike 算法
僅依賴畫像標(biāo)簽進(jìn)行篩選可能產(chǎn)生大量不符合需求的目標(biāo)用戶,如何對這些用戶進(jìn)行排序成為了一個難題。傳統(tǒng)的方法如根據(jù)價值、活躍度等進(jìn)行排序,很難確保選出的用戶與目標(biāo)用戶群最為相似。而通過知識圖譜或頻繁模式,我們可以衡量用戶之間的相似度,并且這種相似度是可量化和擴(kuò)展的。通過關(guān)系層面,該算法能夠更準(zhǔn)確地找到與目標(biāo)用戶相似的用戶群體。

3. 基于因果推斷的 lookalike 算法
與傳統(tǒng)的關(guān)聯(lián)規(guī)則和畫像標(biāo)簽相比,因果推斷能夠解決更深層次的問題。關(guān)聯(lián)規(guī)則和畫像標(biāo)簽主要解決的是相關(guān)性問題,例如“購買啤酒的用戶也可能會購買尿布”,但無法解釋為什么存在這種相關(guān)性。在不同的文化和市場中,這種相關(guān)性可能并不成立。因此通過歷史數(shù)據(jù)和模型進(jìn)行因果推斷,可以找到影響用戶行為和轉(zhuǎn)化的關(guān)鍵因素。這些關(guān)鍵因素可以通過關(guān)系發(fā)現(xiàn)被找到,進(jìn)而幫助我們更好地理解用戶行為和業(yè)務(wù)過程。
例如右上角紅色部分通過對業(yè)務(wù)的理解篩選出的更能體現(xiàn)業(yè)務(wù)的過程的部分,從而去擴(kuò)充更多的用戶出來。

4. 物的畫像

在物的畫像構(gòu)建過程中,我們主要關(guān)注的是物的屬性和特征,例如酒店畫像中的城市、商圈、航線、航班等。這些屬性有助于我們更準(zhǔn)確地描述和了解物,并為其畫像提供豐富的內(nèi)容。

與用戶畫像相比,物的畫像更強(qiáng)調(diào)物與物之間的相似性。在實(shí)踐中,我們通常利用物的相似性進(jìn)行推薦和排序等操作。為了衡量物與物之間的相似性,可以采用多種方法,如屬性向量和 embedding。這些方法可以將物表示為向量,并利用這些向量進(jìn)行相似性計(jì)算。需要注意的是,物的畫像構(gòu)建過程與用戶畫像構(gòu)建過程雖然相似,但在實(shí)際應(yīng)用中,我們需要根據(jù)業(yè)務(wù)需求和場景進(jìn)行適當(dāng)?shù)恼{(diào)整和優(yōu)化。同時,還需要深入分析物與物之間的關(guān)系和層次結(jié)構(gòu),以確保物的畫像準(zhǔn)確反映業(yè)務(wù)需求。

此外,在物的畫像構(gòu)建過程中,我們還需要關(guān)注一些關(guān)鍵問題。
(1)相近并不意味著相似。例如,在使用 embedding 方法時,如果高價值的用戶群體搜索的都是五星級酒店,那么這些五星級酒店之間的相關(guān)性可能會很強(qiáng)。但在某些業(yè)務(wù)場景中,這種相關(guān)性可能并不適用。因此,我們需要根據(jù)具體業(yè)務(wù)場景仔細(xì)考慮物的相似性。
(2)冷啟動問題。例如在酒店畫像中,當(dāng)一個新的酒店上線時,它可能缺乏用戶行為數(shù)據(jù)。為了解決這個問題,我們可以利用屬性距離抽取大維度的標(biāo)簽屬性,構(gòu)建一個偏用戶態(tài)的畫像標(biāo)簽,并利用這個標(biāo)簽進(jìn)行相似度計(jì)算。
(3)可解釋性

四、畫像標(biāo)簽應(yīng)用場景
應(yīng)用一:營銷人群精選與擴(kuò)散

畫像標(biāo)簽在營銷的精選和擴(kuò)散過程中起到了至關(guān)重要的作用。通過合理運(yùn)用畫像標(biāo)簽,運(yùn)營人員可以對已選定的用戶群體進(jìn)行更細(xì)致的分析和篩選,當(dāng)運(yùn)營人員覺得初始精選的用戶群體過大或過小,或者營銷效果需要進(jìn)一步擴(kuò)大或優(yōu)化時,可以通過畫像標(biāo)簽進(jìn)行擴(kuò)散或重新精選以達(dá)到更好的營銷效果。
然而,在進(jìn)行畫像標(biāo)簽的精選和擴(kuò)散時,最常見的是用戶轉(zhuǎn)化和運(yùn)營干預(yù)的四象限問題。這四個象限分別代表不同的用戶轉(zhuǎn)化狀態(tài)和運(yùn)營干預(yù)策略,需要針對不同情況進(jìn)行不同的應(yīng)對措施。例如,對于高轉(zhuǎn)化低干預(yù)的用戶,可以采取保持現(xiàn)狀的策略;對于低轉(zhuǎn)化低干預(yù)的用戶,可以采取促進(jìn)轉(zhuǎn)化的策略等。
以下是畫像標(biāo)簽在應(yīng)用過程中營銷精選擴(kuò)散的四個階段:
科學(xué)分析:深入挖掘用戶數(shù)據(jù),精準(zhǔn)定位目標(biāo)群體,以提升轉(zhuǎn)化效果。
輔助圈選:利用標(biāo)簽高效篩選目標(biāo)用戶,提高營銷活動的針對性和效率。
智能擴(kuò)量:基于算法和模型,對用戶群體進(jìn)行智能分類和擴(kuò)量,以擴(kuò)大營銷覆蓋面。
模型落地:結(jié)合實(shí)際營銷活動,優(yōu)化畫像標(biāo)簽和策略,實(shí)現(xiàn)最佳的營銷效果。

應(yīng)用二:業(yè)務(wù)指標(biāo)歸因分析

通過畫像標(biāo)簽體系來分析業(yè)務(wù)指標(biāo)的好壞,并進(jìn)一步優(yōu)化策略。在業(yè)務(wù)迭代過程中,我們通常使用歸因分析算法和商業(yè)分析等方法來產(chǎn)生策略。然后進(jìn)行實(shí)驗(yàn)測量,如果實(shí)驗(yàn)策略表現(xiàn)良好,就會全量上線。


然而,在這個過程中會遇到兩個問題:如何分析指標(biāo)的好壞以及實(shí)驗(yàn)結(jié)果的好壞。為了解決這些問題,我們需要進(jìn)行業(yè)務(wù)指標(biāo)的歸因分析。首先,通過報(bào)表、報(bào)警等途徑發(fā)現(xiàn)業(yè)務(wù)問題,找出問題的原因,明確具體的場景和實(shí)際的轉(zhuǎn)化關(guān)系。接著,定位問題的原因,并判斷這個原因是可控的還是不可控的。如果是不可控的,可能就是一個自然抖動,不需要過多關(guān)注;如果是可控的,就需要進(jìn)一步探究是否存在未知的場景導(dǎo)致這個問題。
在定性分析模塊中,我們會明確可控因素和不可控因素,并挖掘一些未知的場景出現(xiàn)問題的原因。最后,給出建議,指導(dǎo)業(yè)務(wù)人員在什么場景下去做。這個場景其實(shí)就是某個業(yè)務(wù)的轉(zhuǎn)化率下降了,通過整個業(yè)務(wù)的分析過程,我們可以得出非市場因素和可控因素分別占比多少。如果市場因素占比較大,那我們就可以先滯后解決這個問題,不必立即動用大量人力物力。
應(yīng)用三:AB 實(shí)驗(yàn)效能分析

在負(fù)責(zé)去哪兒的 AB 實(shí)驗(yàn)系統(tǒng)的過程中,我們經(jīng)常面臨一些挑戰(zhàn)。當(dāng)產(chǎn)品團(tuán)隊(duì)投入大量時間和資源完成實(shí)驗(yàn)后,如果實(shí)驗(yàn)結(jié)果不顯著,很容易產(chǎn)生諸如“為什么實(shí)驗(yàn)無效”和“下一步迭代的方向是什么”等疑問。
為了解決這些問題,我們進(jìn)行了 AB 實(shí)驗(yàn)效能分析,主要分為三個部分。首先,我們通過業(yè)務(wù)流程漏斗模型、核心用戶畫像標(biāo)簽識別以及業(yè)務(wù)域誤導(dǎo)標(biāo)簽識別,嘗試判斷實(shí)驗(yàn)效果不佳是否因?yàn)榱刻嵘粔颉F浯危\(yùn)用決策樹等分析方法,探究質(zhì)的提升是否存在問題,例如其他實(shí)驗(yàn)的沖突或提升量未達(dá)到顯著性比例的情況。最后,量化動作效能,明確每個動作對目標(biāo)的影響程度。
通過這些分析過程,我們可以為產(chǎn)品團(tuán)隊(duì)提供具體的指導(dǎo),幫助他們選擇效能更高的方向進(jìn)行優(yōu)化,從而實(shí)現(xiàn)質(zhì)的提升。這些分析不僅有助于優(yōu)化產(chǎn)品迭代方向,還能為公司節(jié)省資源和時間,提高整體業(yè)務(wù)效果。
五、問答環(huán)節(jié)
Q1:用戶行為跟業(yè)務(wù)日志有什么區(qū)別?
A1:用戶行為數(shù)據(jù)主要記錄了用戶在 APP 端的交互行為,如點(diǎn)擊等,這些數(shù)據(jù)主要反映用戶的交互過程。而業(yè)務(wù)數(shù)據(jù)則涉及后臺處理的各種信息,例如代理連接過程、物流信息等,這些數(shù)據(jù)雖然對用戶來說是不可見的,但對于理解整個業(yè)務(wù)流程和提升用戶體驗(yàn)同樣至關(guān)重要。在實(shí)際操作中,我們需要將這些數(shù)據(jù)納入到我們的畫像標(biāo)簽體系中,以便更好地分析和理解用戶行為和業(yè)務(wù)過程。例如對于電商平臺來說,有些數(shù)據(jù)可能對用戶無關(guān)緊要,但有些則涉及到用戶體驗(yàn)和業(yè)務(wù)流程,因此需要進(jìn)行適當(dāng)?shù)暮Y選和處理。
Q2:目前流式標(biāo)簽是怎么做的?能支持比較復(fù)雜的標(biāo)簽規(guī)則嘛?是數(shù)據(jù)開發(fā)出來還是可視化配置的?
A2:流式標(biāo)簽可以通過流式計(jì)算來實(shí)現(xiàn),如使用 Flink 等工具。用戶可以拖拽定義好的數(shù)據(jù),通過流式計(jì)算進(jìn)行標(biāo)簽的計(jì)算。同時,也可以上傳 Python 代碼或 SQL 代碼進(jìn)行自定義的計(jì)算。此外,還可以通過 Spark 等方式來支持。在流式標(biāo)簽中,需要限制計(jì)算的量和時間窗口,以滿足不同需求。
流式標(biāo)簽可以支持復(fù)雜的標(biāo)簽規(guī)則。用戶可以通過上傳 Python 代碼或 SQL 代碼來實(shí)現(xiàn)更復(fù)雜的標(biāo)簽計(jì)算。
流式標(biāo)簽可以通過數(shù)據(jù)開發(fā)和可視化配置兩種方式來實(shí)現(xiàn)。在去哪旅行平臺上,用戶可以拖拽定義好的數(shù)據(jù),通過流式計(jì)算進(jìn)行標(biāo)簽的計(jì)算,也可以上傳 Python 代碼或 SQL 代碼進(jìn)行自定義的計(jì)算。
Q3:什么是實(shí)時標(biāo)簽?
A3:實(shí)時標(biāo)簽是指在用戶行為或業(yè)務(wù)事件發(fā)生時,實(shí)時計(jì)算并應(yīng)用的標(biāo)簽。例如,當(dāng)用戶在前端界面提交投訴時,系統(tǒng)會實(shí)時地分析用戶的訴求和訂單問題,并為用戶打上相應(yīng)的實(shí)時標(biāo)簽。這種實(shí)時標(biāo)簽?zāi)軌蚩焖俚胤从秤脩舻男枨蠛蛦栴},以便及時地進(jìn)行處理和優(yōu)化。不同公司對實(shí)時標(biāo)簽的定義有所不同,去哪兒 3 秒以內(nèi)的算實(shí)時,而小時級都稱之為是非實(shí)時的一個場景。
Q4:ID Mapping 是將多個手機(jī)號/設(shè)備號識別成一個唯一的 ID?還是使每個用戶都有一個唯一的 ID?比如一個手機(jī)號在兩個設(shè)備登錄過,其中一個設(shè)備又登錄過另外一手機(jī)號,是唯一的一個還是三個?
A4:隨著移動互聯(lián)網(wǎng)的普及,越來越多的公司開始采用手機(jī)號作為用戶唯一的標(biāo)識符。一鍵登錄已成為行業(yè)通用的做法,使得用戶能夠更加方便地登錄和使用應(yīng)用。對于去哪兒這樣的平臺,我們也采用了手機(jī)號作為用戶唯一的 ID。在大多數(shù)情況下,我們會將手機(jī)號視為用戶的唯一標(biāo)識符。但在某些特殊情況下,我們也會考慮用戶更換手機(jī)號的場景,并對其進(jìn)行相應(yīng)的處理。此外,為了更好地管理和識別用戶,當(dāng)一個手機(jī)號在兩個設(shè)備上登錄時,我們會通過一系列的判斷來確定用戶對設(shè)備的持有狀態(tài)。如果用戶是臨時登錄設(shè)備,我們將其視為訪問人;如果用戶長期持有該設(shè)備,則將其視為持有人。
Q5:貨品標(biāo)簽有哪些應(yīng)用場景?
A5:其中最常見的是貨品定價。為了實(shí)現(xiàn)貨品定價的個性化,我們需要使用貨品標(biāo)簽。這些標(biāo)簽是基于內(nèi)部因素和外部因素的具體數(shù)值計(jì)算得出的。如果內(nèi)部因素沒有得到適當(dāng)?shù)氖崂恚獠恳蛩氐挠绊懣赡軙豢浯?strong>。可以理解為類似于暴力求解的方式,我們把每一個因素都放進(jìn)去試,然后去看每個因素對它的影響是多少,并且在每個因素里判斷它是相關(guān)性還是因果性。
Q6:業(yè)務(wù)的實(shí)時標(biāo)簽是不是要定制化開發(fā)?
A6:實(shí)時標(biāo)簽在建成之后,我們已經(jīng)通過開發(fā)層面去盡可能地窮舉了一些通過基礎(chǔ)的統(tǒng)計(jì)就能出來的一些實(shí)時標(biāo)簽。至于說像規(guī)則類和模型類的實(shí)時標(biāo)簽,肯定是要定制化開發(fā)的。
Q7:標(biāo)簽的生命周期怎么管理?
A7:在建立之初會有一些一次性的標(biāo)簽,用完就不使用了。
Q8:是否可以用一些統(tǒng)計(jì)方法來確定 AB 實(shí)驗(yàn)的時候的最小樣本量?AB 實(shí)驗(yàn)有標(biāo)準(zhǔn)的計(jì)算過程,這樣是不是可以知道大概需要多少樣本量可以達(dá)到統(tǒng)計(jì)顯著的一個效果了?
A8:更小的業(yè)務(wù)公司,可能流量先天性就不夠,你想要達(dá)到一個最小樣本量,操作層面也不太能實(shí)現(xiàn),所以我們需要有一些在沒有達(dá)到最小樣本量的時候,能快速去大致地推斷這個實(shí)驗(yàn)效果。
Q9:用戶口徑畫像的口徑類型是怎么存儲和展示的?用戶畫像的標(biāo)簽除了單一的,還有多標(biāo)簽,形成一個用戶偏好角度。這兩類標(biāo)簽怎么存儲比較好?
A9:展示每一個公司都不一樣。從存儲角度來說去哪兒是有多個存儲方式的,我們可以容忍一部分?jǐn)?shù)據(jù)的冗余存儲,主要還是為了以實(shí)時響應(yīng)快為準(zhǔn),就是它在訪問化標(biāo)簽的時候,我們盡可能地以一個低耗時去訪問它。
Q10:模型在方案標(biāo)簽建設(shè)中有哪些應(yīng)用?
A10:其實(shí)這個我現(xiàn)在通過去哪兒這邊的實(shí)踐來說,大模型在算法標(biāo)簽應(yīng)用是非常的廣的。首先最簡單的一個例子,我們在構(gòu)建戶的畫像的時候,經(jīng)常會遇到 POI 地標(biāo)數(shù)據(jù),地標(biāo)的數(shù)據(jù)是從一些文檔里面抽取的,可能這個就大模型在用,這個地方的準(zhǔn)確率說實(shí)話比我們以往自己構(gòu)建的一些模型效果好很多。以及我們在構(gòu)建知識圖譜的時候,會遇到一些實(shí)體消歧、實(shí)體合并等等。
Q11:涉及到排序推薦也需要畫像算法工程師實(shí)現(xiàn)嗎?
A11:其實(shí)不是的,這個推薦是推薦工程師,但是推薦算法要用到畫像工程師的結(jié)果,畫像工程師需要把畫像標(biāo)簽的質(zhì)量和這個應(yīng)用的場景作出清晰的描述以便于推薦排序工程師能夠更好地使用。































