精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

李鬼見李逵,用Python“死磕”翟天臨的博士論文

開發 后端 開發工具
都說今年的瓜特別多(葫蘆娃的那種),但是過年期間最甜的我想非翟天臨的“知網是什么?”莫屬了吧。

都說今年的瓜特別多(葫蘆娃的那種),但是過年期間最甜的我想非翟天臨的“知網是什么?”莫屬了吧。

[[258097]] 

近期,翟天臨因“論文抄襲、學術造假”被推上風口浪尖,甚至連自己參演并準備播出的六部電視劇,也被央視要求全部刪減,至此人設徹底崩塌,輿論嘩然。

 

我平常不怎么關注娛樂圈,所以剛開始并沒有把這件事放在心上,直到網上爆出翟的論文大篇幅抄襲陳坤論文的消息,我才對這位娛樂圈博士的文章起了興趣。

 

目前北京電影學院已經撤銷翟天臨博士學位,取消陳浥博士研究生導師資格。

接下來就讓我們以一個 Coder 的角度來硬核分析下翟的論文吧。

實驗環境

工欲善其事,必先利其器,在開始分析之前,我先說明此次分析所處的實驗環境,以免出現異常:

  • MacOS 10.14.3
  • Python 3.6.8(Anaconda)
  • Visual Studio Code
  • 使用的包有:
  • pkuseg(分詞)
  • matplotlib(繪圖)
  • wordcloud(詞云)
  • numpy(數學計算)
  • Sklearn(機器學習)

數據獲取

說實話,起初我以為就算翟不知“知網”為何物,“知網”也該收錄翟的文章吧,可我在知網搜了好久也沒能找到翟的論文,好在我在今日頭條上找到了他的文章,保存在 data/zhai.txt 中。

 

說到這,還真要感謝翟天臨啊,都是因為他,大家才變得這么有學術精神,開始研究起本科碩士博士論文了。

數據清理

上一節我們已經將他的論文保存到一個 txt 中了,所以我們需要先將文章加載到內存中:

  1. # 數據獲取(從文件中讀取) 
  2. def readFile(file_path): 
  3.     content = [] 
  4.     with open(file_path, encoding="utf-8"as f: 
  5.         content = f.read() 
  6.     return content 

我統計了下,除去開頭的標題和末尾的致謝,總共 25005 個字。接下來我們來進行數據清理,在這里我用了 pkuseg 對內容進行分詞處理,同時去掉停用詞后輸出分詞的結果。

所謂停用詞就是在語境中沒有具體含義的文字,例如這個、那個,你我他,的得地,以及標點符合等等。

因為沒人在搜索的時候去用這些沒意義的停用詞搜索,為了使得分詞效果更好,我就要把這些停用詞過濾掉。

  1. # 數據清理(分詞和去掉停用詞) 
  2. def cleanWord(content): 
  3.     # 分詞 
  4.     seg = pkuseg.pkuseg() 
  5.     text = seg.cut(content) 
  6.  
  7.     # 讀取停用詞 
  8.     stopwords = [] 
  9.     with open("stopwords/哈工大停用詞表.txt", encoding="utf-8"as f: 
  10.         stopwords = f.read() 
  11.  
  12.     new_text = [] 
  13.     # 去掉停用詞 
  14.     for w in text: 
  15.         if w not in stopwords: 
  16.             new_text.append(w) 
  17.  
  18.     return new_text 

執行結果如下:

這里我提兩點,為什么分詞工具用的是 pkuseg 而不是 jieba?pkuseg 是北大推出的一個分詞工具。官方地址是:

  1. https://github.com/lancopku/pkuseg-python 

它的 README 中說它是目前中文分詞工具中效果***的。

為什么用哈工大的停用詞表?停用詞表的下載地址在:

  1. https://github.com/YueYongDev/stopwords 

以下是幾個常用停用詞表的對比:

 

參考文獻:官琴, 鄧三鴻, 王昊. 中文文本聚類常用停用詞表對比研究[J]. 數據分析與知識發現, 2006, 1(3).

停用詞表對比研究:

  1. https://github.com/YueYongDev/stopwords 

數據統計

說是數據統計,其實也沒什么好統計的,這里簡單化一下,就是統計下各個詞出現的頻率,然后輸出詞頻***的 15 個詞:

  1. # 數據整理(統計詞頻) 
  2. def statisticalData(text): 
  3.     # 統計每個詞的詞頻 
  4.     counter = Counter(text) 
  5.     # 輸出詞頻***的15個單詞 
  6.     pprint.pprint(counter.most_common(15)) 

打印的結果如下:

 

真的是個***的“好演員”啊,能將角色帶入生活,即使肚中無貨卻仍用自己的表演能力為自己設立一個“學霸”人設,人物形象如此飽滿,興許這就是創作的藝術吧!

文章中說的最多的就是生活、角色、人物、性格這些詞,這些正是一個好演員的精神所在,如果我們將這些詞做成詞云的話,可能效果會更好。

生成詞云

詞云生成這個部分我采用的是 wordcloud 庫,使用起來非常簡單,網上教程也有很多。

這里需要提一點的就是:為了防止中文亂碼情況的發生,需要配置 font_path 這個參數。

中文字體可以選用系統的,也可以網上找,這里我推薦一個免費的中文字體下載的網址:

  1. http://www.lvdoutang.com/zh/0/0/1/1.html 

下面是生成詞云的代碼:

  1. # 數據可視化(生成詞云) 
  2. def drawWordCloud(text, file_name): 
  3.     wl_space_split = " ".join(text) 
  4.  
  5.     # 設置詞云背景圖 
  6.     b_mask = plt.imread('assets/img/bg.jpg'
  7.     # 設置詞云字體(若不設置則無法顯示中文) 
  8.     font_path = 'assets/font/FZZhuoYTJ.ttf' 
  9.     # 進行詞云的基本設置(背景色,字體路徑,背景圖片,詞間距) 
  10.     wc = WordCloud(background_color="white",font_path=font_path, mask=b_mask, margin=5) 
  11.     # 生成詞云 
  12.     wc.generate(wl_space_split) 
  13.     # 顯示詞云 
  14.     plt.imshow(wc) 
  15.     plt.axis("off"
  16.     plt.show() 
  17.     # 將詞云圖保存到本地 
  18.     path = os.getcwd()+'/output/' 
  19.     wc.to_file(path+file_name) 

真假李逵(文章對比)

分析完了“李鬼”,我們有必要請出他的真身“李逵”兄弟了,同樣還是和之前一樣的套路,先找到數據,然后分詞統計詞頻,這里就不重復操作了,直接放出詞云圖。

看到這圖是不是覺得和翟的詞云圖異常相似,那么,這“真假李逵”之間到底有多像呢?接下來我們來計算下兩篇文章的相似度吧。

TF-IDF

文章相似度的比較有很多種方法,使用的模型也有很多類別,包括 TF-IDF、LDA、LSI 等,這里方便起見,就只使用 TF-IDF 來進行比較了。

TF-IDF 實際上就是在詞頻 TF 的基礎上再加入 IDF 的信息,IDF 稱為逆文檔頻率。

不了解的可以看下阮一峰老師的講解,里面對 TFIDF 的講解也是十分透徹的。

  1. https://www.ruanyifeng.com/blog/2013/03/tf-idf.html 

Sklearn

Scikit-Learn 也簡稱 Sklearn,是機器學習領域當中最知名的 Python 模塊之一,官方地址為:

  1. https://github.com/scikit-learn/scikit-learn 

其包含了很多種機器學習的方式,下面我們借助于 Sklearn 中的模塊 TfidfVectorizer 來計算兩篇文章之間的相似度。

代碼如下:

  1. # 計算文本相似度 
  2. def calculateSimilarity(s1, s2): 
  3.     def add_space(s): 
  4.             return ' '.join(cleanWord(s)) 
  5.  
  6.     # 將字中間加入空格 
  7.     s1, s2 = add_space(s1), add_space(s2) 
  8.     # 轉化為TF矩陣 
  9.     cv = TfidfVectorizer(tokenizer=lambda s: s.split()) 
  10.     corpus = [s1, s2] 
  11.     vectors = cv.fit_transform(corpus).toarray() 
  12.     # 計算TF系數 
  13.     return np.dot(vectors[0], vectors[1]) / (norm(vectors[0]) * norm(vectors[1])) 

除了 Sklearn,我們還可以使用 gensim 調用一些模型進行計算,考慮到文章篇幅,就由讀者自己去搜集資料實現吧。

我們將翟的論文和陳的論文分別傳入該函數后,輸出結果為:

  1. 兩篇文章的相似度為: 
  2. 0.7074857881770839 

其實這個結果我還是挺意外的,只知道這“李鬼”長得像,卻沒想到相似度竟然高達 70.7%。

[[258099]]

當然,作為弟弟,翟的這個事和吳秀波的事比起來,那都不是個事。

 

責任編輯:武曉燕 來源: 01二進制
相關推薦

2023-06-05 14:11:14

論文

2021-10-18 17:54:13

論文博士數據

2023-12-25 15:11:16

AI模型

2021-06-01 09:29:43

ArthasJVM內存

2021-03-01 08:02:55

算法排序操作

2021-08-03 14:00:06

數據研究論文

2025-08-27 09:12:00

谷歌AI模型

2024-01-03 13:05:00

數據訓練

2024-08-28 14:30:00

論文AI

2024-07-01 12:50:10

2021-10-28 09:23:17

論文學術數據

2020-11-25 20:03:41

AI 機器人工智能

2021-06-03 08:32:18

JVM調優虛擬機

2021-07-15 16:05:29

編程Rust開發

2012-12-27 11:11:54

華為任正非

2013-06-05 09:38:27

Intel功耗酷睿

2025-04-08 09:15:00

AI論文實測

2025-06-16 08:51:00

2009-03-02 16:11:56

2022-10-09 14:53:35

機器學習
點贊
收藏

51CTO技術棧公眾號

免费观看成人性生生活片| 欧美一级视频免费| 午夜激情一区| 日韩精品免费在线视频| 午夜激情福利在线| 在线免费av导航| 久久午夜色播影院免费高清| 国产美女久久精品| 日韩免费一级片| 91综合视频| 亚洲精品中文字幕有码专区| 婷婷激情综合五月天| 免费在线小视频| 成人免费在线视频观看| 久久一区二区三区欧美亚洲| 国产精品日韩无码| 亚洲欧美日韩专区| 欧美乱妇40p| 亚洲精品国产91| 极品束缚调教一区二区网站 | 日本日本19xxxⅹhd乱影响| 成人三级黄色免费网站| 99久久99久久精品免费观看 | 国产一区二区三区成人| 久久激情中文| 91国偷自产一区二区三区的观看方式| 国产极品视频在线观看| 香蕉久久夜色精品国产更新时间| 日韩视频一区在线观看| 男女视频在线看| 桃色av一区二区| 亚洲午夜av在线| 干日本少妇视频| 色视频在线免费观看| 久久精品视频在线看| 国内精品二区| 色婷婷激情五月| 成人精品gif动图一区| 91九色蝌蚪国产| 亚洲午夜精品久久久| 久久九九国产| 国产成人精品电影| 国产又黄又猛又粗又爽| 在线亚洲成人| 91av视频导航| 色播视频在线播放| 亚洲毛片一区| 国产91精品久久久久久久| 久久精品国产亚洲av麻豆色欲| 亚洲激情中文在线| 久久亚洲精品毛片| 亚洲最大的黄色网址| 99久久久久国产精品| 日韩中文在线观看| 91视频免费看片| 日韩欧美高清| 精品国产欧美一区二区三区成人| 国产黄色录像视频| 97精品国产福利一区二区三区| 综合网中文字幕| 看黄色录像一级片| 一精品久久久| 久久久免费观看| 免费黄色网址在线| 日韩成人精品在线| 国产一区二区在线播放| aaa一区二区三区| 丁香六月久久综合狠狠色| dy888夜精品国产专区| 人妻偷人精品一区二区三区| 93久久精品日日躁夜夜躁欧美| 久久久久久久久久久久久久一区 | 久久久91精品国产一区二区精品| 日本一区二区久久精品| 91精品大全| 一区二区三区在线视频观看58 | 三上悠亚在线观看视频| 一区二区三区在线电影| 欧美激情在线观看| 亚洲天堂一区在线| 美女视频黄久久| 99久久无色码| 日韩欧美亚洲系列| 国产精品毛片久久久久久久| 波多野结衣与黑人| 无遮挡在线观看| 在线不卡a资源高清| 99久久综合网| 欧美女王vk| 欧美大片免费看| 国产污视频网站| 国内不卡的二区三区中文字幕| 国产精品免费区二区三区观看| 黄色软件在线| 一区二区三区欧美久久| 日本一区二区黄色| 久久久久毛片免费观看| 日韩精品欧美激情| 中文字幕五月天| 久久久久久久波多野高潮日日| 91亚洲永久免费精品| 婷婷久久久久久| 日韩美女精品在线| 成年人免费在线播放| 欧美一级大片在线视频| 亚洲天堂av在线免费| 久久久久久久久艹| 久久成人免费电影| 欧美日韩电影一区二区三区| 在线观看wwwxxxx| 欧美熟乱第一页| 给我免费观看片在线电影的| 欧美一区视频| 国产在线久久久| 男人久久精品| 午夜成人免费视频| 色综合久久久无码中文字幕波多| 成人同人动漫免费观看 | 国产真实的和子乱拍在线观看| 黄页网站大全在线观看| 婷婷精品久久久久久久久久不卡| 亚洲女人被黑人巨大进入al| 麻豆一区二区三区精品视频| 老司机免费视频一区二区三区| 久久精品日产第一区二区三区 | 伊人婷婷欧美激情| 天天综合天天添夜夜添狠狠添| 久久99视频| 2019av中文字幕| 黄色三级网站在线观看| 亚洲精品国久久99热| 一道本在线免费视频| 国模吧精品视频| 欧美最猛性xxxxx亚洲精品| 性一交一乱一精一晶| 亚洲视频一区二区免费在线观看| 91视频免费版污| 激情综合网站| 国产精品99久久99久久久二8| 四虎影视2018在线播放alocalhost| 亚洲综合色成人| 性生交大片免费看l| 欧美黄在线观看| 97视频热人人精品| 波多野结依一区| 精品国产第一区二区三区观看体验| 日本一级二级视频| 国产精品综合二区| 国产成人一区二区三区别| 香蕉成人app| 欧美黑人一级爽快片淫片高清| 亚洲国产精品久久久久爰性色| 亚洲精品久久久久久国产精华液| av在线免费观看不卡| 欧美日韩一区二区高清| 成人激情av| 精品极品在线| 亚洲天堂av电影| 91精品视频免费在线观看 | 亚洲欧美激情一区| 成人黄色激情视频| 亚洲欧美日韩国产综合| 中文字幕 欧美 日韩| 国产一区美女| 欧美国产一区二区在线| 久久亚洲国产精品尤物| 久久精品精品电影网| 精品久久在线观看| 天天综合色天天| 91l九色lporny| 精品一区二区免费| 成人免费在线视频播放| 亚洲春色h网| 国产一区私人高清影院| 欧美aaaxxxx做受视频| 国产视频欧美视频| 一级片aaaa| 亚洲国产婷婷综合在线精品| 麻豆精品免费视频| 国产做a爰片久久毛片| www插插插无码视频网站| 亚洲免费毛片| 国产中文字幕亚洲| 久久影院午夜精品| 日韩中文字幕在线免费观看| 欧美熟妇另类久久久久久不卡| 日本高清成人免费播放| 丁香花五月激情| 2021国产精品久久精品| 欧美xxxxxbbbbb| 亚洲欧美激情诱惑| 国产成人生活片| 成人影院天天5g天天爽无毒影院 | 国产黄色一级大片| 日韩欧美一区二区三区| 91视频最新网址| 91丝袜呻吟高潮美腿白嫩在线观看| 中文字幕第38页| 婷婷开心激情网| 在线精品视频在线观看高清| 国产精品久久精品视| 国产电影一区二区三区爱妃记| 久久国产精品久久久久久久久久| 青青九九免费视频在线| 91精品国模一区二区三区| 特级西西444www大精品视频免费看| 亚洲欧美在线高清| av男人的天堂av| a级高清视频欧美日韩| 亚洲欧美日本一区二区三区| 亚洲美女毛片| 久久久成人精品一区二区三区| 亚洲欧美校园春色| 国产欧美在线一区二区| 国产亚洲字幕| 国产精品羞羞答答| 国产伦精品一区二区三区视频金莲| 美女久久久久久久久久久| 激情小说 在线视频| 欧美精品一区二区三区在线 | 亚洲aaa精品| 26uuu成人网| 国产精品免费视频观看| 少妇久久久久久久久久| 99精品视频在线播放观看| 久久黄色一级视频| 国内精品写真在线观看| 精品免费国产一区二区| 午夜一级久久| 成人av一级片| 亚洲狼人精品一区二区三区| 三级在线免费观看| 中文无码久久精品| 中文字幕制服丝袜在线| 成人精品亚洲| 日本一区二区三区www| 精品在线观看入口| 久久青青草原| 妖精视频一区二区三区免费观看| 国产精品国产一区二区 | 欧美精品一区二区三区在线| 精品一区日韩成人| 岛国在线视频| 国产亚洲激情视频在线| 欧美新色视频| 亚洲欧美在线x视频| 五月婷婷伊人网| 日韩精品视频观看| 深夜福利视频一区| 亚洲人成电影在线| 国产高清视频免费最新在线| 亚洲性猛交xxxxwww| 国产粉嫩一区二区三区在线观看| 亚洲人永久免费| 国产人成在线视频| 中文字幕日韩在线播放| 日本三级在线视频| 久久精品一偷一偷国产| 国产网站在线免费观看| 欧美肥老妇视频| 国产免费拔擦拔擦8x在线播放 | 丁香婷婷久久| 国产欧美va欧美va香蕉在| 亚洲精品第一| 肥熟一91porny丨九色丨| 成人午夜网址| 日韩欧美精品在线不卡| 日韩激情一区| 91网站在线观看免费| 国产日韩一区| 午夜宅男在线视频| 国产成人在线看| 亚洲制服丝袜在线播放| 久久久三级国产网站| 精品视频第一页| 樱桃国产成人精品视频| 日韩精品在线免费视频| 欧美三级日韩三级国产三级| 99久久精品日本一区二区免费| 精品国产123| 久久综合九色综合久| 久久国产精品偷| videos性欧美另类高清| 成人免费网站在线看| 国产精品xxx在线观看| 色狠狠久久av五月综合|| 天天影视欧美综合在线观看| 日韩精品免费一区| 日韩精品欧美成人高清一区二区| 涩多多在线观看| 91女厕偷拍女厕偷拍高清| 亚洲欧美卡通动漫| 午夜久久av| 欧美妇女性影城| 丰满熟女一区二区三区| 久久伦理中文字幕| 91精品久久久久久久久久久| 亚洲视频一起| 婷婷久久五月天| 在线精品福利| 国产美女视频免费看| 94色蜜桃网一区二区三区| 亚洲不卡在线播放| 日本久久精品电影| 亚洲精品字幕在线| 色偷偷亚洲男人天堂| 精品众筹模特私拍视频| 91老司机在线| 国产在线观看91一区二区三区 | 国产精品大片| 乌克兰美女av| 91丝袜国产在线播放| 青青草原在线免费观看视频| 欧美视频一区在线观看| 欧美成人综合在线| 国产69精品久久久| 日韩一级淫片| 小说区视频区图片区| 日韩电影在线一区二区三区| 国产精品入口麻豆| 亚洲欧美aⅴ...| 91午夜交换视频| 中文字幕亚洲专区| 黄色精品视频| 日韩久久精品一区二区三区| 另类av一区二区| 一区二区不卡免费视频| 香蕉乱码成人久久天堂爱免费| 精品国产九九九| 久久久av电影| 999精品嫩草久久久久久99| 亚洲欧洲精品一区二区三区波多野1战4| 亚洲在线网站| 久久精品国产亚洲AV熟女| 欧美日韩免费网站| 亚洲av片一区二区三区| 午夜精品美女自拍福到在线| 一区二区三区亚洲变态调教大结局 | 欧美日韩亚洲一二三| 99久久99久久免费精品蜜臀| 日本在线小视频| 亚洲韩国日本中文字幕| sm久久捆绑调教精品一区| 国产精品免费一区二区三区四区 | 中文字幕日韩欧美一区二区三区| 好吊色在线视频| 在线精品91av| 亚洲欧美在线人成swag| 99久re热视频精品98| 国产精品一区三区| 国产真实的和子乱拍在线观看| 精品国产百合女同互慰| av在线网页| 久久精品午夜一区二区福利| 久久久www| www.4hu95.com四虎| 欧美日本高清视频在线观看| 大片免费在线看视频| 风间由美久久久| 99热精品在线观看| 四虎永久免费在线观看| 欧美图区在线视频| 八戒八戒神马在线电影| 国产精品.com| 男人的天堂亚洲| 无码人中文字幕| 日韩一级片网站| 蜜桃视频动漫在线播放| 色一情一乱一伦一区二区三区 | 欧美视频在线观看 亚洲欧| 黄色av网站在线看| 91老司机在线| 国产欧美二区| 香蕉久久久久久久| 日韩视频一区二区在线观看| 国产精品电影| 亚洲高清123| 成人午夜激情视频| 91在线视频免费播放| 久久亚洲私人国产精品va| 99a精品视频在线观看| 亚洲精品乱码久久久久久自慰 | 亚洲欧美日韩国产yyy| 国产高清不卡二三区| 99热只有这里有精品| 日韩性xxxx爱| 欧美爱爱网站| www.色就是色.com| 精品日本高清在线播放| 老司机精品影院| 免费毛片一区二区三区久久久| 麻豆成人91精品二区三区| 日本五十熟hd丰满| 日韩在线小视频| 久久99视频| 久草免费资源站| 欧美色图在线观看| caoporn视频在线| 日本丰满大乳奶| 欧美激情一区二区三区蜜桃视频 |