5000行python代碼+可視化60W數(shù)據(jù),告訴你知乎用戶不為人知的事
一次完整的python分析+可視化展示,是什么樣的?
比如我想知道知乎用戶的學(xué)歷,是否都是985呢?我還想知道知乎最受關(guān)注的話題都是些什么?高端人士都喜歡看什么書呢?“人在XX,剛下飛機?”這句話出現(xiàn)的頻率有多高呢?
最快的方法是用python爬蟲然后加BI可視化分析!python爬蟲僅需幾步就可以完成:
- 找到網(wǎng)頁URL,查看HTML代碼
- 在HTML代碼中找到你要提取的數(shù)據(jù)
- 寫python進行網(wǎng)頁請求和解析
- 存儲數(shù)據(jù),Excel導(dǎo)出

于是我使用10000秒的時間寫了5000行代碼,爬取了知乎下5646個話題與回答,10W+用戶,和我預(yù)想的結(jié)果完全不一樣。
我們先放一部分代碼,完整的可以到文末看評論~

最后爬取了大概快60W的數(shù)據(jù),我們接下來要對它進行數(shù)字可視化的分析。

- 我們想通過數(shù)據(jù)知道什么?
- 知乎人均985嗎?
- 知乎最受關(guān)注的話題是哪些?這些話題的關(guān)系圖譜是怎么樣的?
- 知乎大佬最推薦的書是哪些?
- 知乎的娛樂欄目最受關(guān)注的都是哪些?
在分析之前,我們得挑選一個數(shù)據(jù)可視化工具,有人會問:為什么不用python呢?因為python處理數(shù)據(jù)或許很不錯,但其實它并不簡單,分析起來是很困難的,SQL語句、Pandas和Matplotlib這些十分繁瑣,一般人也不會。
所以我想到既然有現(xiàn)成數(shù)據(jù)的話,那選擇一個可以直接連接數(shù)據(jù)源的工具就更好了,我想到了BI里的佼佼者FineBI,輕便敏捷的數(shù)據(jù)分析能力,瀏覽器里就可以直接操作,而且對于大數(shù)據(jù)量可以及時響應(yīng),直接拖拽即可生成可視化。
雖然主打的是企業(yè)級的數(shù)據(jù)分析工具,但是個人也是可以用的,而且是free的,功能并不會減少,可謂良心。很多企業(yè)依然有各種各樣的數(shù)據(jù)問題:IT-業(yè)務(wù)溝通困難,領(lǐng)導(dǎo)決策缺乏數(shù)據(jù)支撐....
FineBI從IT、業(yè)務(wù)、管理層三個方面去解決問題:


通過自助數(shù)據(jù)集功能,普通業(yè)務(wù)人員就能對數(shù)據(jù)做篩選、切割、排序、匯總等,自助靈活地達成期望的數(shù)據(jù)結(jié)果。

BI工具就介紹到這里,接下來我們看知乎的可視化分析,以下都是由FineBI所作。
1、知乎是否人均985?

一看這個學(xué)校,我自卑了!!!果真人均985,211,怪不得知乎上很多回答都顯得很有哲理的樣子,果然,學(xué)歷越高的人見識越多,看來好好學(xué)習真的很重要。不過,我說知乎的學(xué)歷比虎撲高沒有人反對吧。
當然,這些數(shù)據(jù)的前提都是基于你自己填寫的是準確的,大專給自己填哈佛我也沒辦法...
2、知乎最受關(guān)注的話題是哪些?
大佬們上知乎,都會去瀏覽什么問題呢?就拿數(shù)據(jù)領(lǐng)域來說,這兩份關(guān)系圖可以說是最全的了,如果你想從0-1進入數(shù)據(jù)行業(yè),這是一個很好的基礎(chǔ)學(xué)習方向。



3、知乎大佬最推薦的書是哪些?
讀萬卷書,行萬里路,沒點知識怎么好意思刷知乎呢?
我把所有關(guān)于文學(xué)書籍推薦的問題都爬了一遍,統(tǒng)計下來就是這10本書排名前列,很遺憾,我只看過1本...

4、在娛樂類目上,知乎的人都喜歡關(guān)注什么呢?

其實和微博一樣,知乎也算是一個獲取知識的平臺,而且現(xiàn)在越來越多的人都把知乎當作微博來看,評論區(qū)的智商會高很多(我沒有別的意思)。
一直流傳著一句話:微博前腳火什么,知乎后腳扒什么...真實!
總結(jié)
知乎的分析就到這里了,你可以看見python+finebi真的就是非常棒的組合,無論是數(shù)據(jù)處理,還是數(shù)據(jù)展示,想要分析什么,簡直就是手到擒來!
最后,以上的分析如果有不足的地方,歡迎告訴我!




















