精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

用Python端對端數據分析識別機器人“僵尸粉”

大數據
在本文中,我想要討論一個互聯網現象:機器人,特別是Twitter機器人。

[[170069]]

導讀:不僅微博,在twitter中也存在大批的“僵尸粉”。Twitter中的“僵尸粉”不僅能夠在無人干預下撰寫和和發布推文的程序,并且所產生的推文相當復雜。如何識別這批“僵尸粉”或者說“機器人粉絲”?下面我們將通過Python的Pandas庫、自然語言處理學習NLTK和scikit-learn創建分類器對Twitter機器人進行識別。

在本文中,我想要討論一個互聯網現象:機器人,特別是Twitter機器人。

我之所以一直關注Twitter機器人主要是因為它們有趣又好玩,另外也因為Twitter提供了豐富而全面的API,讓用戶可以訪問到Twitter平臺信息并了解它們是如何運作的。簡而言之,這讓Python強大的數據分析能力得到了充分地展示,但也暴露了它相對薄弱的環節。

對于那些不熟悉Twitter的人, 我們先簡單介紹一下。Twitter是一個社交媒體平臺,在該平臺上用戶可以發布140字以內的惡搞笑話,稱之為“推文”。Twitter根本上區別于其它的社交媒體是因為推文默認是公開的,并且在Twitter上互相關注的人實際上不一定彼此認識。你可以認為Twitter不單單是個人信息流,更像是一個想法交易市場,流通的貨幣則是粉絲和推文轉發。

Twitter另外一個顯著的特點是它自身內容的“嵌入式能力”(見上圖的搞笑例子)。如今,將推文作為新媒體的一部分是稀疏平常的一件事。主要是因為Twitter開放式的API,這些API能讓開發者通過程序來發推文并且將時間軸視圖化。但是,開放式的API讓Twitter在互聯網廣泛傳播,也對一些不受歡迎的用戶開放了門戶,例如:機器人。

Twitter機器人是能夠在無人干預下撰寫和和發布推文的程序,并且所產生的推文相當復雜。其中一些機器人相對不活躍,只是用來增加粉絲和收藏推文的。而另一些會借助復雜的算法來創建具有說服力的推文。所有的Twitter機器人都可能變得讓人討厭,因為它們的出現破壞了Twitter分析的可信度和商業價值,最終甚至會觸及底線。

那么Twitter能對這些機器人做些什么呢?首先,要做的是去識別它們,以下是我的方法。

創建標簽

核心目標是創建一個分類器來識別哪些賬號是屬于Twitter機器人的,我是通過監督學習來實現的。“監督”意味著我們需要已有標注的樣本數據。例如,在最開始的時候,我們需要知道哪些賬號屬于機器人,哪些賬號屬于人類。在過去的研究中,這個費力不討好的任務已經被研究生的使用(和濫用)完成了。例如:Jajodia 等人通過手動檢測賬號,并且運用Twitter版本的圖靈檢測來判斷一個賬號是否屬于機器人,判斷推文是否由機器人發布的。問題是我已經不再是個研究生了并且時間寶貴(開玩笑)。我解決了這個問題多虧我的朋友兼同事Jim Vallandingham 提出的絕妙建議,他向我推薦了fiverr,一個花5美元就能獲取各類奇特服務的網站。

花了5美元,等待24小時之后,我有了5500個新粉絲。因為我知道在機器人關注之前,我的粉絲都有哪些,所以我可以有效地識別哪些是人類,哪些是一夜激增的機器人粉絲。

創建特征

由于Twitter有豐富的REST API(REST指一組架構約束條件和原則,滿足約束條件和原則的應用程序設計——譯者注),創建特征集是幾乎不違反服務條約的行為。我使用Python-twitter模型去查詢兩個終端指標:GET users/lookup(獲取用戶信息)和 GET statuses/user_timeline(獲取用戶狀態、時間軸信息)。獲取用戶信息的終端會返回JSON文本,這些文本中包含了你所希望得到的用戶賬號信息。例如:用戶是否使用了默認的模板配置,關注者/被關注者的數量,發布推文的數量。從獲取的用戶時間軸信息中,我抓取了數據集中每個用戶***的200條推文。

問題是,Twitter官方不允許你直接大量地收集你所想要的數據。Twitter限制了API的調用頻率,這樣意味著你只能在需求范圍內獲取少量的樣本數據進行分析,因此,我使用了以下美妙的方法(blow_chunks)來獲取數據:

#不要超出API的限制

 

如果查詢的長度大于所允許的***值,那么將查詢分塊。調用生成器.next()方式來抓取***個塊并將此需求發往API。然后暫停獲取數據,兩個數據請求需要間隔16分鐘。如果所有的塊都發出了,那么生成器將會停止工作并且終止循環。

機器人是怪物

通過快速地清理和整理數據,你會很快發現不正常的數據。通常情況下,機器人的關注量是1400,而人類的關注量是500。機器人的粉絲分布具有很大的差異性,而人類的粉絲分布差異性較小。有些人的人氣很高,有一些卻沒那么高,大多數人是介于兩者之間。相反,這些機器人的人氣非常低,平均只有28個粉絲。

將推文變成數據

當然,這些機器人在賬號信息層面上看起來很奇怪,但是也有很多人的人氣很低,而且賬號中幾乎空蕩蕩的,只有一張頭像。那么他們發布的推文是怎樣的呢?為了將推文數據加入到分類器中,一個賬號的推文信息需要被匯總成一行數據。有一種摘要度量方式建立在詞匯多樣性之上,就是每個特定詞匯數量占文檔總詞匯數量的比例。詞匯多樣性的范圍是從0到1,其中0代表這個文檔中沒有任何詞匯,1代表該文檔中所有詞都只出現過一次。可以將詞匯多樣性作為詞匯復雜性的度量方法。

我用Pandas 來快速優雅地運用歸納函數,例如詞匯多樣性,對推文進行處理。首先,我把每個用戶的所有推文放進一個文檔,并進行標記,這樣我會得到一個詞匯列表。然后,我再利用NLTK(自然語言處理技術)移除所有標點符合和間隔詞。

通過Pandas在數據集上使用自定義函數是極其方便的。利用groupby,我通過賬戶名將推文分組,并且在這些分組推文中應用詞匯多樣性函數。我鐘愛這個語法的簡潔和靈活,可以將任何類別的數據分組并且適用于自定義的歸納函數。舉個例子,我可以根據地理位置或者性別分類,并且僅僅根據分組的變量,計算所有組的詞匯多樣性。

同樣的,這些機器人看上去很怪異。人類用戶有著一個美得像教科書一般的正態分布,其中大部分的詞匯多樣性比例集中在0.7。而機器人的卻很極端化,詞匯多樣性接近于1。語義差異性為1,這意味著每個詞在文檔中都是獨特的,也就是說機器人要么幾乎不發推文,要么只是發隨機文字。

 

建模

我利用stickit-learn,Python中最重要的機器學習模塊,進行建模和校驗。我的分析計劃差不多是這樣的,因為我主要關注預測精準度,為什么不試試一些分類方法來看看哪個更好呢?Scikit-learn的一個強項是簡潔,同時在構建模型與管道時與API兼容,這樣易于測試一些模型。

 

我試了3個分類器,分別是樸素貝葉斯、邏輯回歸和隨機森林分類器。可以看到這三種分類方法的語法是一樣的。在***行中,我擬合分類器,提供從訓練集和標簽為y的數據中得到的特征。然后,簡單地通過將來自測試集的特征傳入模型來預測,并且從分類報告查看精確度。

分類指標

 

毫無疑問,隨機森林表現得***,整體精度為0.9,而樸素貝葉斯的是0.84,邏輯回歸的是0.87。令人驚訝的是,利用現有的分類器,我們識別機器人的準確率可以達到90%,但是我們是否可以做得更好?答案是:可以。事實上,利用GridSearchCV可以非常容易地調試分類器。GridSearchCV采用了一種分類方法和一系列的參數設置進行測試。其中,這一系列參數是一個鍵入了該模型配置參數的字典。GridSearchCV***的一點是可以像對待剛才我們看到的分類方法一樣地對待它。也就是說,我們可以使用.fit()和.predict()函數。

配置參數

 

啊哈,更加精確了!簡單的調試步驟產生了一個新格局,預測的準確率提高了2%。為調試過的隨機森林檢查變量重要性策略產生了一些驚喜。朋友數量和粉絲數量是機器人識別中最重要的變量。

 

預測準確

 

但是,我們需要更好的工具來開發迭代模型

Scikit-learn還有很大的提升空間,特別是生成模型診斷和模型比較應用上的功能性。一個說明我的意思的例子是,我想帶你走進另一個世界,那里不用Python,而是R語言。那里也沒有scikit-learn,只有caret(Classification and Regression Training,是為了解決分類和回歸問題的數據訓練而創建的一個綜合工具包——譯者注)。讓我告訴你一些caret的,在scikit-learn里可以被復制的強項。

以下是confusionMatrix函數的輸出結果,與scikit-learn分類報告的概念等價。你會注意到有關comfusionMatrix函數輸出的準確度報告的深度。有混淆矩陣(confusion matrix)和大量將混淆矩陣作為輸入的準確度測量維度。大多數時候,你也許只會使用到一個或者兩個測量維度,但是如果它們都可用是***的,這樣,可以在你所處的環境下使用效果***的,而無需增加額外代碼。

迭代模型

 

Caret***的一個優勢是提取推理模型診斷的能力,而這在scikit-learn中是看似不可能完成的。以擬合一個回歸方法為例:你自然想看看回歸系數,樣本滿意度,P值和擬合優度。即使你僅僅對預測準確性感興趣,理解模型的原理和知道模型是否滿足假設條件也是有用的。為了在Python中復制這樣的輸出,需要在與statsmodels類似的地方改裝模型,這樣會造成建模過程的浪費和繁瑣。

模型原理

 

但是,我認為R語言中caret包***的特點是能夠容易地比較不同的模型。使用 resamples 函數,可以很快地生成可視化效果來比較我選擇的指標模型的性能。這種類型的效用函數在建模過程中是超級有用的,也讓你在不想花費大量時間來制作圖的終稿的時候可以就早期的結果進行交流。

對于我而言,這些功能產生了所有的差異,這也是R語言仍然是我建模***語言的主要原因。

責任編輯:趙寧寧 來源: 36大數據
相關推薦

2015-08-04 14:49:37

物聯網

2024-03-13 10:47:45

機器人

2020-10-27 10:37:40

機器人

2018-08-14 17:41:54

人工智能機器人語音識別

2020-09-08 12:48:19

數據分析圖表互聯網

2020-10-15 15:42:00

人工智能

2013-04-10 13:55:09

IDF2013柏安娜端到端

2015-10-16 15:30:00

2021-10-26 13:54:56

區塊鏈機器人區塊鏈技術

2023-05-24 10:30:48

機器人人工智能

2018-08-13 21:19:07

Weld開源數據

2021-07-22 10:17:55

加密機器人加密貨幣機器人

2019-04-19 16:30:30

Python機器人代碼

2021-08-19 15:44:20

機器人人工智能機器學習

2015-07-28 09:36:11

機器人

2025-11-05 15:33:17

AI機器人模型

2021-07-31 21:08:53

工業機器人機器人編程語言

2020-04-14 15:33:37

Python 釘釘機器人

2015-12-10 21:49:32

IM機器人

2012-03-08 09:42:16

開源軟件Linux
點贊
收藏

51CTO技術棧公眾號

久久精品国产精品青草色艺 | 精品人妻一区二区三区含羞草| 久久视频在线| 日韩美一区二区三区| 欧美色图色综合| 欧美性天天影视| bt欧美亚洲午夜电影天堂| 国产精品成人国产乱一区| 久久久久久久9999| 国产传媒欧美日韩成人精品大片| 日韩一区二区在线观看视频| 国产1区2区在线| 欧美aaa免费| 国产精品久久久一本精品 | 国产九一精品| 精品成人私密视频| 亚洲激情在线看| 亚洲三级欧美| 亚洲激情图片qvod| 一区二区成人国产精品| 青青草观看免费视频在线| 国产精品99久久久久久似苏梦涵 | 日韩一区二区三区精品视频第3页 日韩一区二区三区精品 | av日韩国产| 亚洲视频每日更新| 日韩久久不卡| 色猫av在线| 成人综合婷婷国产精品久久免费| 国产美女精品视频| 日韩综合在线观看| 国产日韩欧美三区| 欧美激情在线狂野欧美精品| www欧美com| 久久精品av| 在线观看精品自拍私拍| 熟女丰满老熟女熟妇| 成人香蕉社区| 精品日韩成人av| 91丨porny丨九色| 99国内精品久久久久| 欧美乱妇15p| xx欧美撒尿嘘撒尿xx| 欧美日韩成人影院| 色一区在线观看| 好吊妞无缓冲视频观看| 91九色美女在线视频| 一区二区三区日本| 日韩专区第三页| 天天干在线视频论坛| 亚洲色图欧美在线| 少妇高潮流白浆| 麻豆av在线导航| 亚洲欧美怡红院| 视频一区二区视频| av毛片在线免费| 亚洲在线成人精品| 久久国产精品网| av资源一区| 精品美女久久久久久免费| 69sex久久精品国产麻豆| 国产福利在线免费观看| 五月婷婷综合在线| 日本一区二区黄色| 日本成人片在线| 欧美日韩一区二区三区免费看| 亚洲成人福利在线观看| 国内欧美日韩| 欧美一区二区福利在线| 动漫美女无遮挡免费| 日韩精品a在线观看91| 亚洲片av在线| 久久精品日韩无码| 国产精品vip| 97av在线播放| 老熟妇一区二区三区啪啪| 毛片不卡一区二区| av日韩中文字幕| 懂色av粉嫩av蜜乳av| 国产伦乱精品| 亚洲视频电影图片偷拍一区| 亚洲国产精品一区二区久久hs| 伊人久久大香线蕉综合四虎小说| 久久久在线免费观看| 精品国产午夜福利| 精品无码三级在线观看视频| 国产精品.com| 国产三级视频在线| 亚洲天堂成人在线观看| 毛片在线播放视频| 国产一区精品福利| 精品日韩av一区二区| 人妻少妇无码精品视频区| 忘忧草精品久久久久久久高清| 久久久久久久久中文字幕| 波多野结衣理论片| 国产福利视频一区二区三区| 欧美精品与人动性物交免费看| 免费观看久久久久| 欧美性猛交xxxx免费看漫画| 国产成人美女视频| 西野翔中文久久精品字幕| 日韩在线不卡视频| 国产精品一区无码| 国产91精品一区二区麻豆网站| 品久久久久久久久久96高清| 91国内在线| 欧美在线免费播放| 国产免费一区二区三区最新6| 日韩综合精品| 欧美在线视频一区二区| 国产黄色大片网站| 国产精品久久久久久久久免费相片| 欧美亚洲日本一区二区三区| 日本精品在线播放| 中文字幕少妇一区二区三区| 日韩免费av片| 国产精品一二二区| 亚洲ai欧洲av| 成人在线爆射| 亚洲精品成人av| 国产精品成人免费观看| 美国毛片一区二区| 视频一区不卡| 欧美黑人一区| 日韩精品中文在线观看| 国产一级在线观看视频| 国产剧情一区二区三区| 亚洲精品一区国产精品| 成人国产网站| 亚洲色图校园春色| 麻豆成人免费视频| 2021国产精品久久精品| 国产免费黄色小视频| 亚洲无线观看| 欧美激情小视频| 国内精品偷拍视频| 亚洲色图制服诱惑| 中文av字幕在线观看| 成人在线一区| 国产精品揄拍一区二区| av电影在线观看一区二区三区| 欧美视频中文字幕在线| 亚洲精品乱码久久久久久不卡| 1024成人| 久久精品国产美女| 日本午夜大片a在线观看| 日韩不卡在线观看| 国产精品国产三级国产专区52| 白白色 亚洲乱淫| 成 年 人 黄 色 大 片大 全| 国产精品chinese在线观看| 欧美极品美女电影一区| 殴美一级特黄aaaaaa| 亚洲va欧美va人人爽午夜| 大桥未久恸哭の女教师| 日本一级特级毛片视频| 亚洲高清不卡| 久久伊人一区| 国模一区二区| 久久精品国产96久久久香蕉| 国产成人精品免费看视频| 洋洋av久久久久久久一区| 一边摸一边做爽的视频17国产| 国产精品嫩草99av在线| 欧洲一区二区在线观看| 亚洲精品aa| 欧美极品美女电影一区| 你懂的在线播放| 欧美日韩国产首页| 久久久久久久久久一区二区三区| 成人avav影音| 韩国日本美国免费毛片| 香蕉国产精品| 国产在线观看一区| 欧美三级精品| 欧美夫妻性生活视频| 色天堂在线视频| 欧美日韩一区二区欧美激情| 一级黄色录像视频| 97久久超碰国产精品| 牛夜精品久久久久久久| 欧美激情1区| 欧美日韩亚洲一区二区三区在线观看 | 国产精品久久久久久av福利软件| 免费**毛片在线| 亚洲国产精品久久久久| 中文字幕 视频一区| 一区二区三区四区在线播放| 亚洲av无码一区二区三区网址 | a级片在线观看| 国内一区二区在线| 干日本少妇首页| 亚洲九九在线| 欧美精品久久久| 亚洲午夜精品| 国产精品成人品| 国产精品186在线观看在线播放| 在线成人一区二区| 黄色片网站免费在线观看| 欧美最猛黑人xxxxx猛交| 九九精品在线观看视频| 国产欧美综合在线| 精品人妻伦一二三区久| 狠狠色综合日日| 国产xxxxx在线观看| 欧美精品午夜| 亚洲午夜激情| 国产麻豆精品久久| 国产精品一区二区a| 欧美亚洲人成在线| 欧洲成人免费aa| 欧美aaaaaaa| 日韩亚洲成人av在线| 欧美日韩伦理片| 亚洲国产成人av在线| a在线观看视频| 欧美日韩一级黄| 免费看污视频的网站| 亚洲成av人片一区二区| 黄色一级片中国| 国产精品久久久久精k8| 91视频免费观看网站| av不卡免费在线观看| 中文字幕人妻熟女人妻a片| 久久99国内精品| 一区二区三区视频在线观看免费| 国产日韩欧美三区| 人妻夜夜添夜夜无码av| 好看不卡的中文字幕| 一区二区三区四区久久| 99久久激情| 亚洲一区不卡在线| 日韩激情图片| 亚洲黄色一区二区三区| 日本不卡二三区| 先锋影音网一区| 精品国产一区二区三区| 欧美重口乱码一区二区| 群体交乱之放荡娇妻一区二区| 国产精品久久久久久久小唯西川 | 韩国av一区二区三区四区 | 99精品一区二区| 老司机免费视频| 97国产精品videossex| 亚洲av成人精品一区二区三区| 丁香天五香天堂综合| 少妇伦子伦精品无吗| 成人免费视频播放| 国产激情第一页| 2021国产精品久久精品| 在线不卡av电影| 中文字幕不卡在线播放| 91麻豆精品久久毛片一级| 中文字幕在线视频一区| 国产女人18水真多毛片18精品| 亚洲美女区一区| 免费在线一级片| 精品动漫一区二区三区| 日本中文字幕第一页| 在线观看免费视频综合| 中文字幕视频免费观看| 91精品国产综合久久蜜臀| 精品久久久无码中文字幕| 欧美精品一区二区三区在线| 亚洲av成人精品毛片| 亚洲最新中文字幕| gogogogo高清视频在线| 隔壁老王国产在线精品| 芒果视频成人app| 成人福利网站在线观看11| 免费观看亚洲天堂| 久久国产手机看片| 欧美一级精品片在线看| 一级全黄肉体裸体全过程| 在线国产日韩| 免费观看成人在线视频| 韩国v欧美v亚洲v日本v| 国产精品嫩草av| 日本一区二区高清| 九九热国产在线| 色综合天天在线| 国产手机视频在线| 日韩电影中文字幕av| 日本在线播放| 91av国产在线| 91精品在线免费视频| 国产亚洲精品自在久久| 成人影院在线| 97视频在线免费| 蜜臀av一级做a爰片久久| 熟女人妻一区二区三区免费看| 久久久久久久久久久久久夜| 亚洲波多野结衣| 欧美午夜激情视频| 国产极品999| 一区二区亚洲精品国产| 波多一区二区| 91精品啪在线观看麻豆免费| 亚洲第一论坛sis| 污污污污污污www网站免费| 日韩在线播放一区二区| 69xxx免费视频| 最近日韩中文字幕| av毛片在线免费观看| 精品国产免费视频| 免费高清在线观看| 日韩av不卡电影| 国内毛片久久| 亚洲一区 在线播放| 秋霞成人午夜伦在线观看| 国产又黄又粗又猛又爽的视频 | 韩国v欧美v日本v亚洲| 日韩一区二区三免费高清在线观看| 久久综合福利| 伊人久久综合| 国产黄色一区二区三区| 亚洲国产高清不卡| 中文字幕国产在线观看| 亚洲福利在线视频| 直接在线观看的三级网址| 国产区精品在线观看| 久久93精品国产91久久综合| 亚洲人成无码网站久久99热国产| 国产成人免费网站| 2025国产精品自拍| 欧美日韩亚洲综合在线| www 日韩| 国产精品99久久久久久久久久久久| 国产精品久av福利在线观看| www.国产在线播放| 国产69精品久久99不卡| 激情四射综合网| 91精品国产美女浴室洗澡无遮挡| 在线激情网站| 国产欧美在线视频| 欧美成人激情| www.com黄色片| 国产精品国产三级国产普通话三级 | 三上悠亚ssⅰn939无码播放| 婷婷丁香激情综合| 免费观看国产精品| 午夜精品蜜臀一区二区三区免费| 白嫩白嫩国产精品| 拔插拔插海外华人免费| heyzo一本久久综合| 尤物视频在线观看国产| 亚洲男人天堂视频| 666av成人影院在线观看| 四虎永久国产精品| 美女诱惑一区二区| 神马午夜精品91| 日韩视频不卡中文| 好看的中文字幕在线播放| 国产免费一区二区| 久久av最新网址| 免费黄色在线网址| 制服丝袜亚洲网站| 久久99亚洲网美利坚合众国| 国产欧美日韩综合精品二区| 亚洲免费网站| 中文字幕黄色网址| 欧美一级电影网站| av手机免费在线观看| 欧美精品免费观看二区| 久久精品久久久精品美女| 精品国产乱码久久久久久鸭王1| 亚洲第一精品夜夜躁人人爽| 一二三四视频在线中文| 亚洲图片都市激情| 国产大陆a不卡| 久久久久久久极品| 这里只有精品久久| 免费精品一区| 欧美v在线观看| 中文字幕一区二区三区乱码在线 | 国产亚洲综合视频| 中文字幕+乱码+中文字幕一区| 国产熟女一区二区丰满| 欧美性受xxx| 五月天激情综合网| 久久人妻少妇嫩草av无码专区| 在线观看免费亚洲| 日本电影在线观看| 日韩欧美一区二区三区四区 | 亚洲欧美成人一区| 懂色av中文一区二区三区 | 亚洲黄色免费av| 波多野结衣三级在线| 91啪亚洲精品| 99热这里是精品| 国产99久久精品一区二区永久免费 | 国产精品视频一二三区| 国精产品乱码一区一区三区四区| 国产成人精品一区| 欧美午夜电影在线观看| 免费一级特黄3大片视频| 亚洲第一中文字幕| 国产专区精品| 日本中文字幕高清| 精品福利樱桃av导航|