精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

推薦系統(tǒng)的數(shù)據(jù)源與數(shù)據(jù)預處理

開發(fā) 前端
推薦系統(tǒng)是機器學習的子領域,跟一般的機器學習算法一樣,推薦算法依賴數(shù)據(jù)來構(gòu)建推薦模型,有了模型后需要進行模型訓練,最終為用戶提供個性化的推薦服務(模型推斷)。

[[429443]]

本文轉(zhuǎn)載自微信公眾號「數(shù)據(jù)與智能」,作者gongyouliu。轉(zhuǎn)載本文請聯(lián)系數(shù)據(jù)與智能公眾號。

大家好,我是強哥。一個熱愛暴走、讀書、寫作的人!

一、推薦系統(tǒng)的數(shù)據(jù)源

1. 根據(jù)產(chǎn)品功能要素來劃分

(1)用戶行為數(shù)據(jù)

(2)用戶畫像數(shù)據(jù)

(3)物品畫像數(shù)據(jù)

(4)場景化數(shù)據(jù)

2. 根據(jù)數(shù)據(jù)載體來劃分

(1)數(shù)據(jù)價值

(2)類別數(shù)據(jù)

(3)文本數(shù)據(jù)

(4)圖片數(shù)據(jù)

(5)音視頻數(shù)據(jù)

3. 根據(jù)數(shù)據(jù)組織形式來劃分

(1)結(jié)構(gòu)化數(shù)據(jù)

(2)半結(jié)構(gòu)數(shù)據(jù)

(3)非結(jié)構(gòu)化數(shù)據(jù)

二、數(shù)據(jù)預處理

1. 抽提(Extract)

2. 轉(zhuǎn)換(Transform)

3. 加載(Load)

總結(jié)

推薦系統(tǒng)是機器學習的子領域,跟一般的機器學習算法一樣,推薦算法依賴數(shù)據(jù)來構(gòu)建推薦模型,有了模型后需要進行模型訓練,最終為用戶提供個性化的推薦服務(模型推斷)。推薦系統(tǒng)由于其解決的問題的特性(推薦系統(tǒng)解決的是信息過濾與資源匹配的問題)以及自身的強業(yè)務相關性,構(gòu)建推薦系統(tǒng)的數(shù)據(jù)來源及數(shù)據(jù)處理方式有自身的特點,本章我們就對推薦系統(tǒng)涉及到的數(shù)據(jù)源及數(shù)據(jù)預處理相關的知識進行介紹,方便我們在后續(xù)章節(jié)中構(gòu)建推薦算法模型。

一、推薦系統(tǒng)的數(shù)據(jù)源

推薦系統(tǒng)根據(jù)用戶在產(chǎn)品(APP、網(wǎng)站等)上的操作行為,挖掘用戶的興趣點,預測用戶的興趣偏好,最終為用戶做個性化推薦。在整個推薦過程中,涉及到的要素有用戶、物品、用戶的操作行為、用戶當前所處的場景等4類。這每類要素都是具備對應數(shù)據(jù)的。按照這種要素劃分,推薦算法可以利用4類數(shù)據(jù)。另外,根據(jù)數(shù)據(jù)自身的特性,數(shù)據(jù)也可以分為數(shù)值數(shù)據(jù)、類別數(shù)據(jù)、文本數(shù)據(jù)、圖片數(shù)據(jù)、音視頻數(shù)據(jù)等5類。最后,根據(jù)推薦系統(tǒng)依賴的數(shù)據(jù)的組織形式(數(shù)據(jù)范式),又可以將數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)3大類。下面我們分別按照這3種分類方式來詳細描述推薦系統(tǒng)所依賴的數(shù)據(jù)及這些數(shù)據(jù)的特點。

1. 根據(jù)產(chǎn)品功能要素來劃分

根據(jù)數(shù)據(jù)來源的產(chǎn)品功能要素來分,推薦系統(tǒng)依賴的數(shù)據(jù)分為用戶行為數(shù)據(jù)、用戶畫像數(shù)據(jù)、物品畫像數(shù)據(jù)、場景化數(shù)據(jù)4大類,見下面圖1,下面我們分別介紹各類數(shù)據(jù)及其特點。

圖1:推薦系統(tǒng)依賴的4類數(shù)據(jù)源

(1) 用戶行為數(shù)據(jù)

行為數(shù)據(jù)是用戶在產(chǎn)品上的各種操作行為,比如瀏覽、點擊、播放、購買、搜索、收藏、點贊、評論、轉(zhuǎn)發(fā)、加購物車、甚至滑動、暫定、快進快退等等一切操作行為。用戶在產(chǎn)品上的操作行為為我們了解用戶提供了線索,用戶的操作行為也是用戶真實意圖的反饋。通過挖掘用戶行為,我們可以獲得對用戶興趣偏好的深刻洞察。

根據(jù)用戶的行為是否直接表明用戶對物品的興趣偏好,用戶行為一般分為顯式行為和隱式行為。顯式行為是直接表明用戶興趣的行為,比如點贊、評分等。隱式行為雖不是直接表示用戶的興趣,但是該行為可以間接反饋用戶的興趣變化,只要不是用戶直接評分、點贊的操作行為都算隱式反饋,包括瀏覽、點擊、播放、收藏等等。

用戶行為數(shù)據(jù)是最容易收集、數(shù)據(jù)量最多的一類數(shù)據(jù)(因為用戶的任何操作行為,我們都可以進行埋點收集)。這類數(shù)據(jù)需要我們進行收集、預處理才能最終被推薦算法使用。這類數(shù)據(jù)獲取也相對容易,只要我們按照規(guī)范進行埋點就能夠保證數(shù)據(jù)范式正確,當然埋點也是需要經(jīng)驗的,目前有很多第三方服務商提供埋點實施方案,在這方面沒有經(jīng)驗的企業(yè)是可以進行采購的。

有些產(chǎn)品由于自身特性,往往是很難收集到除了用戶行為外的其他數(shù)據(jù)的(或者即使可以收集到,但是成本太大,比如UGC產(chǎn)生的數(shù)據(jù)可能就非常臟亂),因此,充分利用用戶行為數(shù)據(jù)對構(gòu)建高質(zhì)量的推薦系統(tǒng)是非常關鍵的。

目前個人信息保護法正式實施了(2021年9月1日正式實施),另外國家也會開始管控算法業(yè)務,未來用戶是可以關閉日志收集等相關服務的,這對未來的推薦算法落地是有比較大的挑戰(zhàn)的。

(2)用戶畫像數(shù)據(jù)

用戶畫像數(shù)據(jù)是對用戶相關信息的客觀描述。包含用戶自身所帶的屬性,比如年齡、身高、體重、性別、學歷、家庭組成、職業(yè)等等。這些數(shù)據(jù)一般是穩(wěn)定不變(如性別)或者緩慢變化(如年齡)的。而有些用戶畫像數(shù)據(jù)是通過用戶的行為來刻畫的,通過用戶行為給用戶打上相關標簽,這些標簽也成為用戶畫像的一部分,比如動漫迷、果粉、健身達人等等。

人類是一個社會化物種,用戶的不同屬性決定了用戶所處的階層或生活圈層。不同的階層或生活圈又有不同的行為特征、生活方式、偏好特點,在同一圈層的用戶具備一定的相似性,這種相似性為我們做個性化推薦提供了特有的方法和思路(比如基于社交關系的推薦就可以很好利用用戶畫像相關的信息)。

另外,通過用戶對物品的操作行為,我們可以將物品所具備的特征按照某種權(quán)重賦予用戶,這些特征就構(gòu)建了用戶的興趣畫像,相當于給用戶打上了相關的標簽(比如喜歡看“恐怖片”的人)。從這些興趣偏好出發(fā),我們可以給用戶做個性化推薦。

有些產(chǎn)品由于業(yè)務特性是可以很好地收集到用戶畫像信息的,比如支付寶、微信等需要用戶用身份證或者綁定銀行卡,這就可以獲得比較完整、隱私的用戶個人信息了。而有些產(chǎn)品(比如今日頭條、快手等),用戶不需要注冊就可以使用,比較難獲得用戶自身相關的信息。不管怎樣,用戶在產(chǎn)品上都會留下行為軌跡,基于這些行為軌跡,我們都可以挖掘出用戶行為刻畫出的畫像特征。

(3)物品畫像數(shù)據(jù)

推薦系統(tǒng)中最重要的一個“參與方”是待推薦的物品,物品自身是包含很多特征和屬性的。對于商品來說,品類、價格、產(chǎn)地、顏色、質(zhì)地、外觀、品牌、保質(zhì)期等等都是商品的元數(shù)據(jù)。如果有關于物品的描述信息(如電影的劇情介紹),我們還可以利用NLP技術(shù)從描述信息中提取關鍵詞來作為畫像特征。另外,圖片、音頻、視頻中,我們通過深度學習等技術(shù)也是可以提取關鍵詞來作為畫像特征的。

物品畫像也可以通過用戶行為來刻畫。比如某個物品是比較熱門的物品,我們可以給該物品打上“熱門”的標簽。某個物品很受某類人喜歡,也可以給該商品打上相關標簽,比如“白領專用”。

(4) 場景化數(shù)據(jù)

場景化數(shù)據(jù)是用戶在對物品進行操作時所處的環(huán)境特征及狀態(tài)的總稱,比如用戶所在地理位置、當時的時間、是否是工作日、是否是重大節(jié)日、是否有重大事件(比如雙十一)、當時的天氣、用戶當時的心情、用戶所在產(chǎn)品的路徑等等。這些場景化信息對用戶的決策是非常重要的、甚至是起決定作用的。比如,美團餓了么這類基于地理位置服務的產(chǎn)品,給用戶推薦餐廳是一定是在用戶所在位置或者用戶指定收貨地點附近的。

恰當?shù)厥褂脠鼍盎瘮?shù)據(jù),將該類數(shù)據(jù)整合到推薦算法中,可以更加精準地為用戶進行個性化推薦,產(chǎn)生更好的使用體驗和商業(yè)化價值。

按照產(chǎn)品功能要素來劃分是一種比較偏業(yè)務的劃分方式,可以讓我們更清晰地看到問題。我們在第三篇中講解召回算法時,就是按照這4類產(chǎn)品功能要素(即用戶行為召回、用戶畫像召回、物品畫像召回、場景信息召回)來展開的。

2. 根據(jù)數(shù)據(jù)載體來劃分

隨著互聯(lián)網(wǎng)與科技的發(fā)展,網(wǎng)絡上傳輸、交換、展示的數(shù)據(jù)種類越來越多樣化,從最初的數(shù)字、類別、文本到圖片,再到現(xiàn)在主流的音視頻,基于這些數(shù)據(jù)載體的不同,推薦系統(tǒng)建模依賴的數(shù)據(jù)可以分為5類,見下面圖2。

圖2:推薦系統(tǒng)依賴的5種數(shù)據(jù)載體

(1)數(shù)值數(shù)據(jù)

推薦系統(tǒng)算法用到的可以用數(shù)值來表示的數(shù)據(jù)都屬于這一類,比如用戶年齡、收入、商品價格、配送距離等等。數(shù)值數(shù)據(jù)也是計算機最容易處理的一類數(shù)據(jù),基本上是直接可以用于算法中的。其他類型的數(shù)據(jù)要想很好地被推薦算法利用,一般會先利用各種方法轉(zhuǎn)化為數(shù)值數(shù)據(jù)(我們會在特征工程那一章講解具體的方法和策略)。

(2)類別數(shù)據(jù)

類別數(shù)據(jù)是這類具備有限個值的數(shù)據(jù),類似計算機編程語言中的枚舉值,比如用戶性別、學歷、物地域、商品品牌、商品尺碼等等。類別數(shù)據(jù)也比較容易處理,一般用one-hot編碼或者編號就可以轉(zhuǎn)化為數(shù)值型數(shù)據(jù)。當然如果類別數(shù)量巨大,用one-hot編碼會導致維度很高、數(shù)據(jù)過于稀疏等問題,這時可以采用hash編碼或者嵌入的方法了。

(3)文本數(shù)據(jù)

文本數(shù)據(jù)是互聯(lián)網(wǎng)中數(shù)量最多的、最普遍的一類數(shù)據(jù),物品的描述信息、新聞文本、歌詞、劇情簡介等都是文本數(shù)據(jù)。處理文本類數(shù)據(jù)需要借助自然語言處理相關技術(shù)。比如TF-IDF、LDA等都是比較傳統(tǒng)的處理文本數(shù)據(jù)的方法,當前比較流行的Embedding方法可以獲得比較好的效果。

(4)圖片數(shù)據(jù)

隨著智能手機攝像頭技術(shù)的成熟,圖像處理軟件的發(fā)展,以及各類APP的流行,拍照和分享照片更加容易了。另外圖片比文本更容易傳達信息,因此當前互聯(lián)網(wǎng)上到處充斥著各種圖片,圖片數(shù)據(jù)是互聯(lián)網(wǎng)上的主流數(shù)據(jù)類型,商品的展示圖、電影的縮略圖、用戶朋友圈的照片等等都以圖片的形式存在。

對于圖片類數(shù)據(jù)的處理,目前的深度學習技術(shù)相對成熟,包括圖片的分類、對象識別、OCR、圖片的特征提取等等,精度已經(jīng)足夠用于產(chǎn)品了,在某些方面(如圖片分類)甚至超越了人類專家的水平。

(5)音視頻數(shù)據(jù)

音視頻數(shù)據(jù)我們并不陌生,甚至在移動互聯(lián)網(wǎng)爆發(fā)之前都已經(jīng)存在了很多年了(錄音機和攝像機可以記錄聲音和視頻)。但只有當移動網(wǎng)絡及軟硬件成熟后,以這兩類數(shù)據(jù)為載體的產(chǎn)品才發(fā)展壯大。音頻類的產(chǎn)品有喜馬拉雅、荔枝FM等,視頻類除了愛奇藝、騰訊視頻、優(yōu)酷等長視頻APP外,目前大火的抖音、快手等短視頻應用非常受歡迎。游戲直播、電商導購直播等應用也是視頻類數(shù)據(jù)的輸出媒介。音樂的數(shù)字化,各類音頻學習軟件(如樊登讀書、得到APP等)也促進了音頻數(shù)據(jù)的增長。

音視頻數(shù)據(jù)的價值密度小,占用空間多,處理相對復雜,在深度學習時代,這些復雜數(shù)據(jù)的處理也變得可行了。音頻數(shù)據(jù)可以通過語音識別轉(zhuǎn)換為文字,最終歸結(jié)為文本數(shù)據(jù)的處理問題,視頻數(shù)據(jù)可以通過抽幀轉(zhuǎn)換為圖片數(shù)據(jù)來處理。目前比較火的多模態(tài)技術(shù)也可以直接處理原始的音視頻數(shù)據(jù)。

圖片、音視頻數(shù)據(jù)屬于富媒體數(shù)據(jù),隨著傳感器種類的豐富(手機、無人機、激光雷達等)、精度的增強(比如拍照能力越來越強)、相關互聯(lián)網(wǎng)應用的繁榮(如抖音、快手等都是基于富媒體數(shù)據(jù)的應用),網(wǎng)絡上出現(xiàn)了越來越多的富媒體數(shù)據(jù),并且占據(jù)了互聯(lián)網(wǎng)數(shù)據(jù)的絕大多數(shù),因此是非常重要的一類數(shù)據(jù),也是未來的推薦系統(tǒng)需要重點關注的數(shù)據(jù)。

按照數(shù)據(jù)載體來劃分數(shù)據(jù)的好處是方便對數(shù)據(jù)進行處理,從中提取構(gòu)建推薦算法需要的特征。我們在第15章講解特征工程時,就是按照數(shù)據(jù)的這種劃分方式來講解的。

3. 根據(jù)數(shù)據(jù)組織形式來劃分

按照數(shù)據(jù)組織形式不同,不同類型的數(shù)據(jù)處理起來難易程度是不一樣的。人類是比較善于理解和處理二維表格類數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù))的,這就是為什么關系型數(shù)據(jù)庫(主要是處理表格類數(shù)據(jù))在計算機發(fā)展史上具有舉足輕重地位的原因。隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)形式越發(fā)豐富,不是所有數(shù)據(jù)都是結(jié)構(gòu)化的,有些數(shù)據(jù)是半結(jié)構(gòu)化甚至是無結(jié)構(gòu)化的(具體見下面圖3),下面分別對這3類數(shù)據(jù)加以說明。

圖3:三種數(shù)據(jù)組織形式

(1)結(jié)構(gòu)化數(shù)據(jù)

所謂結(jié)構(gòu)化數(shù)據(jù)就是可以用關系型數(shù)據(jù)庫中的一張表來存儲的數(shù)據(jù),每一列代表一個屬性/特征,每一行就是一個數(shù)據(jù)樣本。一般用戶畫像數(shù)據(jù)和物品畫像數(shù)據(jù)都可以用一張表來存儲,用戶和物品的每一個屬性都是表的一個字段,因此是結(jié)構(gòu)化數(shù)據(jù)。下表就是商品的結(jié)構(gòu)化表示。

 

商品

品牌

價格

品類

顏色

iPhone13 Pro

蘋果

9888元

手機

遠峰藍、石墨色、銀色、金色

尼康 D7500

尼康

7299元

數(shù)碼

黑色

浪琴(Longines)瑞士手表 康卡斯?jié)撍盗?機械鋼帶男表 L37824066

浪琴

 

13000元

鐘表

L37824766、L37824566等


表1:商品畫像數(shù)據(jù)的結(jié)構(gòu)化表示

結(jié)構(gòu)化數(shù)據(jù)是一類具備Schema的數(shù)據(jù),也就是每一列數(shù)據(jù)的類型、值的長度或者范圍是確定的,一般可以用關系型數(shù)據(jù),如MySQL、ProgreSQL、Hive等來存儲,這類數(shù)據(jù)可以用非常成熟的SQL語言來進行查詢、處理。

(2)半結(jié)構(gòu)數(shù)據(jù)

半結(jié)構(gòu)化數(shù)據(jù)雖不具備關系型數(shù)據(jù)庫這么嚴格的Schema,但數(shù)據(jù)組織是有一定規(guī)律或者規(guī)范的,利用特殊的標記或者規(guī)則來分隔語義元素或?qū)τ涗浐妥侄芜M行區(qū)隔。因此,也被稱為自描述的數(shù)據(jù)結(jié)構(gòu)。常見的XML、Json、HTML等數(shù)據(jù)就屬于這一類。

對于用戶在產(chǎn)品上的操作行為,我們一般按照一定的規(guī)則來對相關字段進行記錄(比如可以用Json格式來記錄日志,或者按照規(guī)定的分割字符來分割不同字段,再拼接起來記錄日志),這類數(shù)據(jù)也屬于半結(jié)構(gòu)化數(shù)據(jù),一些半結(jié)構(gòu)化數(shù)據(jù)是可以通過一定的預處理轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的。

半結(jié)構(gòu)化數(shù)據(jù)對推薦系統(tǒng)是非常關鍵的。推薦系統(tǒng)最終的推薦結(jié)果可以采用Json的格式進行存儲或者以Json的形式在互聯(lián)網(wǎng)上傳輸最終展示給終端用戶。很多推薦模型也是采用固定的數(shù)據(jù)格式存儲的,比如ONNX(Open Neural Network EXchange,開放神經(jīng)網(wǎng)絡交換)格式,是一種用于表示深度學習模型的標準,可使模型在不同框架之間進行遷移。

半結(jié)構(gòu)化的數(shù)據(jù)一般有比較松散的范式,這類數(shù)據(jù)也有適合的數(shù)據(jù)存儲工具,一般會用key-value形式的NoSQL數(shù)據(jù)庫存儲,比如HBase、Redis、MongoDB、Elastic Search等等。

(3)非結(jié)構(gòu)化數(shù)據(jù)

非結(jié)構(gòu)化數(shù)據(jù),是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來存儲的數(shù)據(jù),也沒有半結(jié)構(gòu)化數(shù)據(jù)這種有一定的規(guī)律或者規(guī)范。非結(jié)構(gòu)化數(shù)據(jù)包括文本、圖片、各類數(shù)據(jù)報表、圖像和音視頻數(shù)據(jù)等等。非結(jié)構(gòu)化數(shù)據(jù)由于沒有固定的數(shù)據(jù)范式,也是最難處理的一類數(shù)據(jù)。

文本、短視頻、音頻、商品等都包含大量的非結(jié)構(gòu)化數(shù)據(jù)。即使物品本身是非結(jié)構(gòu)化的(比如抖音上的短視頻),我們也可以從幾個已知的維度來定義物品,從而形成對物品結(jié)構(gòu)化的描述,如上面表1中就是針對商品從多個維度來構(gòu)建結(jié)構(gòu)化數(shù)據(jù)。

隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的發(fā)展,各類傳感器日益豐富,功能多樣,人際交往也更加密切,人們更愿意表達自我,人類的社交和生產(chǎn)活動產(chǎn)生了非常多的非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)量成幾何級數(shù)增長。

怎么很好地處理非結(jié)構(gòu)化數(shù)據(jù),將非結(jié)構(gòu)化數(shù)據(jù)中包含的豐富信息挖掘出來,并應于算法模型中,是具備極大挑戰(zhàn)的,但是如果利用的好,是可以大大提升推薦算法的精準度、轉(zhuǎn)化率等用戶體驗、商業(yè)化指標的。隨著NLP、圖像處理、深度學習等AI技術(shù)的發(fā)展與成熟,我們現(xiàn)在有更多的工具和方法來處理非結(jié)構(gòu)化數(shù)據(jù)了。推薦系統(tǒng)也享受到了這一波技術(shù)紅利,在這些新技術(shù)的加持下,推薦效果越來越好。

非結(jié)構(gòu)化的數(shù)據(jù)由于沒有固定的范式,一般可以采用對象存儲工具進行存儲,如Apache Ozone(https://ozone.apache.org/)等。目前基本所有的云服務廠商都會提供對象存儲工具,方便客戶存儲非結(jié)構(gòu)化的對象文件。

上面從3個不同的分類角度來介紹了推薦系統(tǒng)的數(shù)據(jù)源,我們知道了哪些數(shù)據(jù)是對推薦系統(tǒng)有用的,當我們獲取了這些數(shù)據(jù)之后我們就需要對它們進行適當?shù)念A處理并存儲下來,方面后續(xù)的推薦系統(tǒng)建模使用。下面一節(jié)我們來簡介介紹一下數(shù)據(jù)預處理相關的知識點。

二、數(shù)據(jù)預處理

數(shù)據(jù)預處理一般稱為ETL(Extract-Transform-Load),用來描述數(shù)據(jù)從來源到最終存儲之間的一系列處理過程,一般經(jīng)過抽提、轉(zhuǎn)換、加載3個階段。數(shù)據(jù)預處理的目的是將企業(yè)中的分散、零亂、標準不統(tǒng)一的數(shù)據(jù)整合到一起,將非結(jié)構(gòu)化或者半結(jié)構(gòu)化的數(shù)據(jù)處理為后續(xù)業(yè)務可以方便處理使用的(結(jié)構(gòu)化)數(shù)據(jù),為企業(yè)的數(shù)據(jù)驅(qū)動、數(shù)據(jù)決策、智能服務提供數(shù)據(jù)支撐。

數(shù)據(jù)基礎設施完善的企業(yè)一般會構(gòu)建層次化的數(shù)據(jù)倉庫系統(tǒng),數(shù)據(jù)預處理的最終目的也是將雜亂的數(shù)據(jù)結(jié)構(gòu)化、層次化、有序化,最終存入數(shù)據(jù)倉庫。對于推薦系統(tǒng)來說,通過ETL將數(shù)據(jù)處理成具備特殊結(jié)構(gòu)(可能是結(jié)構(gòu)化的)的數(shù)據(jù),方便進行特征工程,最終供推薦算法學習和模型訓練使用。下面分別對ETL3個階段的作用進行簡單介紹。

1. 抽提(Extract)

這一階段的主要目的是將企業(yè)中分散的數(shù)據(jù)聚合起來,方便后續(xù)進行統(tǒng)一處理,對于推薦系統(tǒng)來說,依賴的數(shù)據(jù)源多種多樣,因此是非常有必要將所有這些算法依賴的數(shù)據(jù)聚合起來的。推薦系統(tǒng)的數(shù)據(jù)源比較多樣,不同的數(shù)據(jù)抽取的方式不一樣,下面分別簡單介紹。

用戶行為數(shù)據(jù)一般通過在客戶端埋點,通過HTTP協(xié)議上傳到日志收集web服務(如Nginx服務器),中間可能會通過域名分流或者LB負載均衡服務來增加日志收集的容錯性、可拓展性。日志一般通過離線和實時兩條數(shù)據(jù)流進行處理。離線數(shù)據(jù)通過預處理(比如安全性校驗等)進入數(shù)倉,實時流經(jīng)Kafka等消息隊列,然后被實時處理程序(如Spark Streaming、Flink等)處理或者進入HBase、ElasticSearch等實時存儲系統(tǒng)供后續(xù)的業(yè)務使用。用戶行為日志的收集流程見下面圖4。

圖4:用戶行為日志收集流程(右上角進入DW的屬于離線數(shù)據(jù),右下角經(jīng)過Kafka的屬于實時流)

對于用戶畫像數(shù)據(jù)、物品畫像數(shù)據(jù)一般是存放在關系型數(shù)據(jù)庫中的,實時性要求不高的推薦業(yè)務可以采用數(shù)據(jù)表快照(按天從業(yè)務系統(tǒng)中將數(shù)據(jù)庫同步到Hive中)進行抽取,對實時性有要求的信息流推薦可以采用binlog實時同步或者消息隊列的方式抽取。

場景化相關數(shù)據(jù)一般是描述用戶當前狀態(tài)的數(shù)據(jù),一般是通過各種傳感器或者埋點收集的,這類數(shù)據(jù)也生成于客戶端。通過上面圖4右下角的實時日志收集系統(tǒng)進入消息隊列,供后端的實時統(tǒng)計(如時間序列數(shù)據(jù)庫、ES進行存儲進而查詢展示)或者算法(通過Spark Streaming或者Flink等)進行處理。

2.轉(zhuǎn)換(Transform)

這個階段是ETL的核心環(huán)節(jié),也是最復雜的一環(huán)。它的主要目標是將抽取到的各種數(shù)據(jù),進行數(shù)據(jù)的清洗、格式的轉(zhuǎn)換、缺失值填補、剔除重復等操作,最終得到一份格式統(tǒng)一、高度結(jié)構(gòu)化、數(shù)據(jù)質(zhì)量高、兼容性好的數(shù)據(jù),提供給推薦算法的特征工程階段進行處理。

清洗過程包括剔除掉臟數(shù)據(jù)、對數(shù)據(jù)合法性進行校驗、剔除無效字段、字段格式檢查等過程。格式轉(zhuǎn)換是根據(jù)推薦算法對數(shù)據(jù)的定義和要求將不同來源的同一類數(shù)據(jù)轉(zhuǎn)為相同的格式,使之統(tǒng)一化、規(guī)范化的過程。由于日志埋點或者數(shù)據(jù)收集過程中存在的各種問題,真實業(yè)務場景中,字段值缺失是一定存在的,缺失值填補可以根據(jù)平均數(shù)或者眾數(shù)進行填補或者利用算法來學習填充(如樣條差值等)。由于網(wǎng)絡原因日志一般會有重傳策略,導致重復數(shù)據(jù),剔除重復就是將重復的數(shù)據(jù)從中過濾掉,從而提升數(shù)據(jù)質(zhì)量,以免影響最終推薦算法的效果(如果一個人有更多的數(shù)據(jù),那么在推薦算法訓練過程中,相當于他就有更多的投票權(quán),模型學習會向他的興趣傾斜,導致泛化能力下降)。

3. 加載(Load)

加載的主要目標是把數(shù)據(jù)存放至最終的存儲系統(tǒng),比如數(shù)據(jù)倉庫、關系型數(shù)據(jù)庫、key-value型NoSQL中等。對于離線的推薦系統(tǒng),訓練數(shù)據(jù)放到數(shù)倉中,畫像數(shù)據(jù)存放到關系型數(shù)據(jù)庫或NoSQL中。

用戶行為數(shù)據(jù)通過數(shù)據(jù)預處理一般可以轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)或者半結(jié)構(gòu)化數(shù)據(jù),行為數(shù)據(jù)是最容易獲得的一類數(shù)據(jù),也是數(shù)據(jù)量最大的一類數(shù)據(jù),這類數(shù)據(jù)一般存放在分布式文件系統(tǒng)中,原始數(shù)據(jù)一般放到HDFS中,通過處理后的行為數(shù)據(jù)都會統(tǒng)一存放到企業(yè)的數(shù)據(jù)倉庫中,離線數(shù)據(jù)基于Hive等構(gòu)建數(shù)倉,而實時數(shù)據(jù)基于HBase等構(gòu)建數(shù)倉,最終形成統(tǒng)一的數(shù)據(jù)服務,供上層的業(yè)務使用。

某些數(shù)據(jù),比如通過特征工程轉(zhuǎn)化為具體特征的數(shù)據(jù),這類數(shù)據(jù)可能需要實時獲取、實時更新、實時服務于業(yè)務,一般可以存放在HBase或者Redis等NoSQL中。

用戶畫像、物品畫像數(shù)據(jù)一般屬于關系型數(shù)據(jù),這類數(shù)據(jù)比較適合存放在關系型數(shù)據(jù)庫(如MySQL)或者NoSQL中。

對于圖片、音視頻這類比較復雜的非結(jié)構(gòu)化的數(shù)據(jù),一般適合存放在對象存儲中。當前比較火的數(shù)據(jù)湖技術(shù)(如Delta Lake、Iceberg、Hudi等)就是希望整合以數(shù)倉為主導的傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)存儲與以圖像音視頻為主的非結(jié)構(gòu)化數(shù)據(jù)。在數(shù)據(jù)湖體系下,推薦系統(tǒng)依賴的所有數(shù)據(jù)源都可以存儲在數(shù)據(jù)湖中。

總結(jié)

推薦系統(tǒng)是機器學習的一個分支,因此推薦算法依賴數(shù)據(jù)來構(gòu)建模型,最終為用戶提供個性化的物品推薦。本章簡單梳理了推薦系統(tǒng)的數(shù)據(jù)源及數(shù)據(jù)預處理相關的知識點。

推薦系統(tǒng)數(shù)據(jù)源可以按照3種形式來分類。按照推薦產(chǎn)品功能要素來劃分,可以分為用戶行為數(shù)據(jù)、用戶畫像數(shù)據(jù)、物品畫像數(shù)據(jù)和場景化數(shù)據(jù)四類。按照數(shù)據(jù)載體來劃分,可以分為數(shù)值數(shù)據(jù)、類別數(shù)據(jù)、文本數(shù)據(jù)、圖片數(shù)據(jù)、音視頻數(shù)據(jù)等5類。按照數(shù)據(jù)組織形式來劃分,可以分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)。

 

當我們獲得了各類不同的、可以用于推薦系統(tǒng)模型構(gòu)建的數(shù)據(jù),我們還需要將這些數(shù)據(jù)收集、轉(zhuǎn)運、預處理并存儲到數(shù)據(jù)中心。當所有的數(shù)據(jù)都準備就緒了,后面我們才可以基于這些數(shù)據(jù)去構(gòu)建算法模型。我們會在后續(xù)章節(jié)具體介紹推薦系統(tǒng)相關的算法模型。

 

責任編輯:武曉燕 來源: 數(shù)據(jù)與智能
相關推薦

2017-09-04 14:52:51

Tomcat線程數(shù)據(jù)源

2017-06-14 23:42:27

大數(shù)據(jù)數(shù)據(jù)源架構(gòu)

2010-12-27 09:59:11

ODBC數(shù)據(jù)源

2009-06-15 13:24:46

JBoss數(shù)據(jù)源

2023-05-26 16:30:20

人工智能邊緣計算

2025-01-09 11:21:25

2023-11-27 09:16:53

Python數(shù)據(jù)源類型

2017-05-02 08:40:36

機器學習預處理整理

2017-04-29 10:16:14

機器學習數(shù)據(jù)清洗數(shù)據(jù)整理

2013-06-09 10:15:09

2013-12-04 09:54:32

CA TechnoloCA ERwin

2013-06-07 10:05:18

2009-07-21 17:41:58

JDBC數(shù)據(jù)源

2010-06-04 10:31:05

tomcat MySQ

2025-04-14 01:00:00

Calcite電商系統(tǒng)MySQL

2025-03-07 08:00:00

數(shù)據(jù)數(shù)據(jù)集集神經(jīng)網(wǎng)絡數(shù)據(jù)預處理

2024-10-30 10:22:17

2009-09-15 17:15:33

Linq排序

2009-09-08 11:09:39

LINQ數(shù)據(jù)源

2025-09-15 08:46:45

點贊
收藏

51CTO技術(shù)棧公眾號

超黄网站在线观看| 精品黑人一区二区三区在线观看| 久久最新网址| 欧美日本一区二区三区四区| 国产精品88久久久久久妇女 | av网在线观看| 国产精品原创巨作av| 97av在线播放| 青花影视在线观看免费高清| 美女视频亚洲色图| 91精品国产入口| 97成人在线观看视频| 秋霞午夜在线观看| www国产成人免费观看视频 深夜成人网| 国产精品美女免费| 免费看一级一片| 日韩免费av| 日韩精品小视频| 亚洲一级片免费观看| 欧美××××黑人××性爽| 亚洲午夜三级在线| 永久免费精品视频网站| 外国精品视频在线观看| 国产成人亚洲综合色影视| 国产精品久久久久久久久久东京| 日本视频www| 亚洲欧洲美洲一区二区三区| 中文字幕无线精品亚洲乱码一区 | 欧美性色xo影院| 青青青青在线视频| 成人看av片| 国产精品拍天天在线| 久久久影院一区二区三区| 不卡视频在线播放| 激情欧美一区二区| 国产日韩在线精品av| 精产国品一区二区| 亚洲女同在线| 97精品国产91久久久久久| 毛片a片免费观看| 夜间精品视频| 另类视频在线观看| 97成人资源站| 中文字幕一区二区三区在线视频| 色偷偷91综合久久噜噜| 欧美老女人性生活视频| 国产一区二区三区电影在线观看 | 4444kk亚洲人成电影在线| 中文字幕乱码一区二区| 日韩高清在线电影| 国产精品国语对白| 亚洲视频在线观看免费视频| 日本成人超碰在线观看| 国产精品日韩在线一区| 正在播放亚洲精品| 久久国产精品99久久久久久老狼| 国产精品99久久99久久久二8| 免费的毛片视频| 久久三级福利| 国产精品久久久久7777婷婷| 在线观看国产精品入口男同| 麻豆视频一区二区| 成人啪啪免费看| 国产极品999| 成人av在线播放网站| 国产精品一区二区三区精品| 婷婷五月综合激情| 久久久99精品免费观看不卡| 日韩亚洲不卡在线| 免费看美女视频在线网站| **欧美大码日韩| 亚洲中文字幕无码一区二区三区| 男女在线观看视频| 狠狠久久五月精品中文字幕| 久久久久久久久久久久久久国产| 亚洲欧美在线成人| 56国语精品自产拍在线观看| 在线播放第一页| 日韩人体视频| 日韩色av导航| 精品无码人妻一区二区三| 国产欧美日韩综合一区在线播放 | 欧美成人午夜77777| 亚洲欧美日韩区| 情侣偷拍对白清晰饥渴难耐| 黑丝一区二区| 国产激情视频一区| 99免费在线视频| 久久综合丝袜日本网| 亚洲天堂电影网| 国内在线免费视频| 在线观看日韩电影| 日本少妇一区二区三区| 欧美影院天天5g天天爽| 日韩在线欧美在线国产在线| 久久久久久久福利| 日韩av一区二| 国产美女99p| 国产一级免费在线观看| 艳妇臀荡乳欲伦亚洲一区| 国产精品涩涩涩视频网站| 国产一区 二区| 亚洲欧美三级在线| 免费看一级一片| 久久精品国内一区二区三区| 国产精品日本一区二区| 中文日本在线观看| 一本久久综合亚洲鲁鲁五月天| 一级做a免费视频| 一区二区小说| 欧美精品第一页在线播放| 中文字幕日韩经典| 99国产精品久| 国产精品69久久久| 国产精品一区二区精品| 亚洲视频欧洲视频| 国产成人无码精品久久久久| 国产自产2019最新不卡| 欧美日韩电影一区二区| 成人性生交大片免费看在线播放| 欧美日韩在线观看一区二区| 91久久免费视频| 99在线精品视频在线观看| 91精品国产一区二区三区动漫 | 麻豆精品av| 欧美尺度大的性做爰视频| 国产美女www| 99精品久久只有精品| 狠狠干视频网站| 宅男噜噜噜66国产精品免费| 亚洲四色影视在线观看| av黄色在线播放| 99久久免费国产| 成年人看的毛片| www.爱久久| 欧美激情日韩图片| 国产综合视频在线| 亚洲永久精品国产| 成人欧美精品一区二区| 国内精品久久久久久久影视蜜臀| 91社区国产高清| 国内精品不卡| 日韩精品在线一区二区| 久草成人在线视频| 国产成人在线视频网站| 成人国产一区二区三区| 日韩av综合| 九九精品视频在线| www.天堂在线| 亚洲国产aⅴ天堂久久| 成熟妇人a片免费看网站| 亚洲午夜黄色| 久久手机视频| 成人线上视频| 国产一区二区三区视频免费| 亚洲熟妇无码久久精品| 国产精品国产精品国产专区不蜜 | 国产欧美一区二区在线| 最新中文字幕2018| 婷婷亚洲综合| 5566中文字幕一区二区| 欧洲中文在线| 日韩精品中文在线观看| 337p粉嫩色噜噜噜大肥臀| 国产精品日韩成人| 亚洲国产综合av| 亚洲免费成人| 色一情一乱一伦一区二区三欧美| 99re久久| 欧美老少配视频| av女名字大全列表| 欧美主播一区二区三区| 伊人久久久久久久久久久久久久| 国产乱人伦精品一区二区在线观看 | 日韩欧美在线播放| 国产真人真事毛片视频| 国产精品夜夜嗨| 欧美性大战久久久久xxx| 国产精品一区二区99| 91九色蝌蚪国产| 51av在线| 中文字幕日韩av综合精品| av无码精品一区二区三区宅噜噜| 亚洲第一成年网| 亚洲av熟女国产一区二区性色| 激情小说亚洲一区| 久久亚洲中文字幕无码| 日韩毛片视频| 国产在线精品一区二区三区| 久久精品国产福利| 久久久亚洲欧洲日产国码aⅴ| 精品电影在线| 欧美成人精品1314www| 波多野结衣激情视频| 一区二区视频在线| 亚洲精品国产精品国自产网站| 激情五月婷婷综合网| 欧美 日韩 国产一区| 亚洲欧洲中文字幕| 日韩欧美在线一区二区| 丁香婷婷成人| 91精品国产综合久久香蕉最新版 | 欧美三级视频网站| 成人免费高清视频在线观看| 午夜在线观看av| aa级大片欧美三级| 只有这里有精品| 精品国产99| 久久综合久久久| 6080亚洲理论片在线观看| 国产日本欧美一区| 69久成人做爰电影| 久久久久久久一区二区三区| 日日夜夜精品一区| 亚洲美女av黄| 视频一区二区免费| 日韩欧美三级在线| 97人妻精品一区二区三区| 91国在线观看| 免费看日批视频| 五月综合激情网| 久久精品99国产精| 亚洲精品中文在线观看| 国内毛片毛片毛片毛片毛片| 久久久久成人黄色影片| 中文字幕天堂av| 国产成人av影院| 青娱乐国产精品视频| 久久国产精品99久久久久久老狼 | 久久久久久91亚洲精品中文字幕| 一区二区三区在线视频观看58| 国产破处视频在线观看| 久久久国产精品午夜一区ai换脸| 国产免费一区二区三区最新6| 国产成人一级电影| 欧美熟妇精品一区二区 | 亚洲国产果冻传媒av在线观看| 国产福利一区在线| 色欲无码人妻久久精品| 国产成人在线色| 国产成人精品一区二区在线小狼| 国产一区二区在线看| 天天操精品视频| 国产一区二区成人久久免费影院| 亚洲第一成肉网| 国产毛片精品视频| 极品白嫩少妇无套内谢| 国产91对白在线观看九色| av漫画在线观看| 成人白浆超碰人人人人| 国产a级黄色片| 91美女视频网站| 精品无码人妻一区二区免费蜜桃| 久久久91精品国产一区二区精品| 中国女人特级毛片| 中文字幕在线免费不卡| 国产探花在线播放| 亚洲一区二区成人在线观看| www.av麻豆| 一本一本久久a久久精品综合麻豆 一本一道波多野结衣一区二区 | 色呦哟—国产精品| 日本黄xxxxxxxxx100| 影音先锋日韩资源| 亚洲色欲综合一区二区三区| 秋霞av亚洲一区二区三| 国产三级精品三级在线| 丁香婷婷综合五月| 泷泽萝拉在线播放| 国产精品国产三级国产专播品爱网 | www.蜜桃av.com| 亚洲国产另类久久精品| 国产综合在线观看| 日韩一中文字幕| 女人天堂av在线播放| 日本国产高清不卡| 日本久久久久| 国产主播一区二区三区四区| 国产欧美一区二区三区精品观看| 在线观看欧美亚洲| 亚洲激情一区| 一区二区三区网址| 成人免费高清在线| 中文字幕av久久爽一区| 亚洲在线成人精品| 无码人妻精品一区二区蜜桃色欲| 欧美精品久久一区| 欧美一区二区三区少妇| 久久久久www| 中文字幕在线看片| 51精品国产人成在线观看| 国产一区二区电影在线观看| 国产传媒久久久| 免费精品视频最新在线| 无码成人精品区在线观看| 中文字幕一区二区三区不卡| 女人十八岁毛片| 欧美一区二区三区四区视频 | 九色精品蝌蚪| 热re99久久精品国产99热 | 91视频 -- 69xx| 国产麻豆精品在线| 日本二区在线观看| 亚洲午夜激情av| 一级片免费观看视频| 日韩精品视频在线免费观看| 自拍亚洲图区| 国产色视频一区| 久久超碰99| 黄色成人在线看| 国产精品一区一区| 日本午夜精品视频| 日韩欧美视频一区二区三区| 欧美一区二不卡视频| 另类色图亚洲色图| 日韩福利在线观看| 亚洲v欧美v另类v综合v日韩v| 日韩一级在线| 中文字幕在线观看91| 17c精品麻豆一区二区免费| 欧美一区免费看| 亚洲精品久久久久中文字幕欢迎你 | 国产探花一区二区| 日韩av黄色网址| 成人福利视频网站| 青青草偷拍视频| 91精品国产入口在线| 欧美精品日韩少妇| 国产精品一区二区三区成人| 国产91一区| 91av在线免费播放| av亚洲精华国产精华| 九九九国产视频| 精品国产三级电影在线观看| av毛片在线看| 97久久人人超碰caoprom欧美| 天天做天天爱综合| 天天色天天干天天色| 亚洲视频一区二区在线观看| 国产精品久久久午夜夜伦鲁鲁| 综合136福利视频在线| 91亚洲精品| 国产高清精品软男同| 国产在线精品免费| 翔田千里88av中文字幕| 91精品国产乱| 天堂av在线电影| 国产精品国产精品国产专区蜜臀ah| 欧美日韩国内| 亚洲婷婷在线观看| 福利视频第一区| 极品白浆推特女神在线观看| 国产精品福利在线观看网址| 欧美一级淫片| 在线播放av中文字幕| 亚洲精品高清在线观看| 狠狠躁日日躁夜夜躁av| 97久久精品视频| 精品国产一区二区三区av片| 91网址在线播放| 亚洲天堂a在线| 成人午夜福利视频| 777午夜精品福利在线观看| 国产精品手机在线播放| 在线能看的av网站| 一区二区三区av电影| 手机av在线免费观看| 国产精品高潮呻吟久久av野狼| 色喇叭免费久久综合网| 国产精品日日摸夜夜爽| 欧美网站在线观看| 三区四区电影在线观看| 99视频在线播放| 免费看亚洲片| 国产日产精品一区二区三区的介绍| 日韩亚洲欧美在线| 345成人影院| 成年丰满熟妇午夜免费视频| 91在线观看免费视频| 怡红院成永久免费人全部视频| 欧美国产激情18| 精品久久影院| 伊人影院在线观看视频| 婷婷一区二区三区| 91大神xh98hx在线播放| 成人免费视频网站| 日韩av一二三| 国产精品99无码一区二区| 伊人久久大香线蕉av一区二区| 精品视频在线观看免费观看| jizzjizzxxxx| 日韩一区在线看| 日本福利片在线| 亚洲字幕一区二区| 久久一区二区三区四区五区| 三级影片在线看| 亚洲午夜久久久久久久| 澳门成人av| 国内国产精品天干天干| 欧美日韩午夜剧场| 自由的xxxx在线视频|