精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

深入淺出理解Python“亂碼”問題

開發(fā) 后端
當(dāng)源網(wǎng)頁編碼和爬取下來后的編碼轉(zhuǎn)換不一致時(shí),如源網(wǎng)頁為gbk編碼的字節(jié)流,而我們抓取下后程序直接使用utf-8進(jìn)行編碼并輸出到存儲(chǔ)文件中,這必然會(huì)引起亂碼,即當(dāng)源網(wǎng)頁編碼和抓取下來后程序直接使用處理編碼一致時(shí),則不會(huì)出現(xiàn)亂碼,此時(shí)再進(jìn)行統(tǒng)一的字符編碼也就不會(huì)出現(xiàn)亂碼了。

 在爬取某網(wǎng)站時(shí),網(wǎng)頁的源代碼出現(xiàn)了中文亂碼問題。之前關(guān)于爬蟲亂碼有各式各樣的問題,今天與大家一起總結(jié)下關(guān)于網(wǎng)絡(luò)爬蟲的亂碼處理。注意,這里不僅是中文亂碼,還包括一些如日文、韓文 、俄文、藏文之類的亂碼處理,因?yàn)樗麄兊慕鉀Q方式 是一致的,故在此統(tǒng)一說明。

一、亂碼問題的出現(xiàn)

就以爬取51job網(wǎng)站舉例,講講為何會(huì)出現(xiàn)“亂碼”問題,如何解決它以及其背后的機(jī)制。

代碼示例:

  1. import requests 
  2.  
  3. url = "http://search.51job.com" 
  4. res = requests.get(url) 
  5. print(res.text) 

顯示結(jié)果:

 

打印res.text時(shí),發(fā)現(xiàn)了什么?中文亂碼!!!不過發(fā)現(xiàn),網(wǎng)頁的字符集類型采用的gbk編碼格式。

我們知道Requests 會(huì)基于 HTTP 頭部對(duì)響應(yīng)的編碼作出有根據(jù)的推測(cè)。當(dāng)你訪問 r.text 之時(shí),Requests 會(huì)使用其推測(cè)的文本編碼。你可以找出 Requests 使用了什么編碼,并且能夠使用r.encoding 屬性來改變它。

接下來,我們一起通過resquests的一些用法,來看看Requests 會(huì)基于 HTTP 頭部對(duì)響應(yīng)的編碼方式。

  1. print(res.encoding)  #查看網(wǎng)頁返回的字符集類型 
  2. print(res.apparent_encoding) #自動(dòng)判斷字符集類型 

輸出結(jié)果為:

 

可以發(fā)現(xiàn)Requests 推測(cè)的文本編碼(也就是網(wǎng)頁返回即爬取下來后的編碼轉(zhuǎn)換)與源網(wǎng)頁編碼不一致,由此可知其正是導(dǎo)致亂碼原因。

二、亂碼背后的奧秘

當(dāng)源網(wǎng)頁編碼和爬取下來后的編碼轉(zhuǎn)換不一致時(shí),如源網(wǎng)頁為gbk編碼的字節(jié)流,而我們抓取下后程序直接使用utf-8進(jìn)行編碼并輸出到存儲(chǔ)文件中,這必然會(huì)引起亂碼,即當(dāng)源網(wǎng)頁編碼和抓取下來后程序直接使用處理編碼一致時(shí),則不會(huì)出現(xiàn)亂碼,此時(shí)再進(jìn)行統(tǒng)一的字符編碼也就不會(huì)出現(xiàn)亂碼了。最終爬取的所有網(wǎng)頁無論何種編碼格式,都轉(zhuǎn)化為utf-8格式進(jìn)行存儲(chǔ)。

注意:區(qū)分源網(wǎng)編碼A-gbk、程序直接使用的編碼B-ISO-8859-1、統(tǒng)一轉(zhuǎn)換字符的編碼C-utf-8。

在此,我們拓展講講unicode、ISO-8859-1、gbk2312、gbk、utf-8等之間的區(qū)別聯(lián)系,大概如下:

最早的編碼是iso8859-1,和ascii編碼相似。但為了方便表示各種各樣的語言,逐漸出現(xiàn)了很多標(biāo)準(zhǔn)編碼。iso8859-1屬于單字節(jié)編碼,最多能表示的字符范圍是0-255,應(yīng)用于英文系列。很明顯,iso8859-1編碼表示的字符范圍很窄,無法表示中文字符。

1981年中國人民通過對(duì) ASCII 編碼的中文擴(kuò)充改造,產(chǎn)生了 GB2312 編碼,可以表示6000多個(gè)常用漢字。但漢字實(shí)在是太多了,包括繁體和各種字符,于是產(chǎn)生了 GBK 編碼,它包括了 GB2312 中的編碼,同時(shí)擴(kuò)充了很多。中國又是個(gè)多民族國家,各個(gè)民族幾乎都有自己獨(dú)立的語言系統(tǒng),為了表示那些字符,繼續(xù)把 GBK 編碼擴(kuò)充為 GB18030 編碼。每個(gè)國家都像中國一樣,把自己的語言編碼,于是出現(xiàn)了各種各樣的編碼,如果你不安裝相應(yīng)的編碼,就無法解釋相應(yīng)編碼想表達(dá)的內(nèi)容。終于,有個(gè)叫 ISO 的組織看不下去了。他們一起創(chuàng)造了一種編碼 UNICODE ,這種編碼非常大,大到可以容納世界上任何一個(gè)文字和標(biāo)志。所以只要電腦上有 UNICODE 這種編碼系統(tǒng),無論是全球哪種文字,只需要保存文件的時(shí)候,保存成 UNICODE 編碼就可以被其他電腦正常解釋。UNICODE 在網(wǎng)絡(luò)傳輸中,出現(xiàn)了兩個(gè)標(biāo)準(zhǔn) UTF-8 和 UTF-16,分別每次傳輸 8個(gè)位和 16個(gè)位。于是就會(huì)有人產(chǎn)生疑問,UTF-8 既然能保存那么多文字、符號(hào),為什么國內(nèi)還有這么多使用 GBK 等編碼的人?因?yàn)?UTF-8 等編碼體積比較大,占電腦空間比較多,如果面向的使用人群絕大部分都是中國人,用 GBK 等編碼也可以。

也可以這樣來理解:字符串是由字符構(gòu)成,字符在計(jì)算機(jī)硬件中通過二進(jìn)制形式存儲(chǔ),這種二進(jìn)制形式就是編碼。如果直接使用 “字符串↔️字符↔️二進(jìn)制表示(編碼)” ,會(huì)增加不同類型編碼之間轉(zhuǎn)換的復(fù)雜性。所以引入了一個(gè)抽象層,“字符串↔️字符↔️與存儲(chǔ)無關(guān)的表示↔️二進(jìn)制表示(編碼)” ,這樣,可以用一種與存儲(chǔ)無關(guān)的形式表示字符,不同的編碼之間轉(zhuǎn)換時(shí)可以先轉(zhuǎn)換到這個(gè)抽象層,然后再轉(zhuǎn)換為其他編碼形式。在這里,unicode 就是 “與存儲(chǔ)無關(guān)的表示”,utf—8 就是 “二進(jìn)制表示”。

三、亂碼的解決方法

根據(jù)原因來找解決方法,就非常簡(jiǎn)單了。

方法一:直接指定res.encoding

  1. import requests 
  2.  
  3. url = "http://search.51job.com" 
  4. res = requests.get(url) 
  5. res.encoding = "gbk" 
  6. html = res.text 
  7. print(html) 

方法二:通過res.apparent_encoding屬性指定

  1. import requests 
  2.  
  3. url = "http://search.51job.com" 
  4. res = requests.get(url) 
  5. res.encoding = res.apparent_encoding 
  6. html = res.text 
  7. print(html) 

方法三:通過編碼、解碼的方式

  1. import requests 
  2.  
  3. url = "http://search.51job.com" 
  4. res = requests.get(url) 
  5. html = res.text.encode('iso-8859-1').decode('gbk'
  6. print(html) 

輸出結(jié)果:

 

基本思路三步走:確定源網(wǎng)頁的編碼A---gbk、程序通過編碼B---ISO-8859-1對(duì)源網(wǎng)頁數(shù)據(jù)還原、統(tǒng)一轉(zhuǎn)換字符的編碼C-utf-8。至于為啥為出現(xiàn)統(tǒng)一轉(zhuǎn)碼這一步呢? 網(wǎng)絡(luò)爬蟲系統(tǒng)數(shù)據(jù)來源很多,不可能使用數(shù)據(jù)時(shí),再轉(zhuǎn)化為其原始的數(shù)據(jù),假使這樣做是很廢事的。所以一般的爬蟲系統(tǒng)都要對(duì)抓取下來的結(jié)果進(jìn)行統(tǒng)一編碼,從而在使用時(shí)做到一致對(duì)外,方便使用。

比如如果我們想講網(wǎng)頁數(shù)據(jù)保存下來,則會(huì)將起轉(zhuǎn)為utf-8,代碼如下:

  1. with open("a.txt",'w',encoding='utf-8'as f: 
  2.     f.write(html) 

四、總結(jié)

關(guān)于網(wǎng)絡(luò)爬蟲亂碼問題,本文不僅給出了一個(gè)解決方案,還深入到其中的原理,由此問題引申出很多有意思的問題,如,utf-8、gbk、gb2312的編碼方式怎樣的?為什么這樣轉(zhuǎn)化就可以解決問題?

責(zé)任編輯:武曉燕 來源: Python中文社區(qū)
相關(guān)推薦

2021-03-16 08:54:35

AQSAbstractQueJava

2011-07-04 10:39:57

Web

2021-07-20 15:20:02

FlatBuffers阿里云Java

2017-07-02 18:04:53

塊加密算法AES算法

2019-01-07 15:29:07

HadoopYarn架構(gòu)調(diào)度器

2012-05-21 10:06:26

FrameworkCocoa

2022-09-26 09:01:15

語言數(shù)據(jù)JavaScript

2020-10-19 10:35:18

數(shù)據(jù)庫監(jiān)控 系統(tǒng)

2019-11-11 14:51:19

Java數(shù)據(jù)結(jié)構(gòu)Properties

2009-11-30 16:46:29

學(xué)習(xí)Linux

2018-11-09 16:24:25

物聯(lián)網(wǎng)云計(jì)算云系統(tǒng)

2021-04-27 08:54:43

ConcurrentH數(shù)據(jù)結(jié)構(gòu)JDK8

2022-11-09 08:06:15

GreatSQLMGR模式

2012-02-21 13:55:45

JavaScript

2022-10-31 09:00:24

Promise數(shù)組參數(shù)

2009-11-18 13:30:37

Oracle Sequ

2022-12-02 09:13:28

SeataAT模式

2019-12-04 10:13:58

Kubernetes存儲(chǔ)Docker

2022-01-11 07:52:22

CSS 技巧代碼重構(gòu)

2025-03-27 09:38:35

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

91tv官网精品成人亚洲| 三上悠亚国产精品一区二区三区| 国产精品中文字幕日韩精品| 久久久免费观看| 美女伦理水蜜桃4| 黄色视屏在线免费观看| 久久网站热最新地址| 国产精品高潮呻吟久久av黑人| 国产男女猛烈无遮挡在线喷水| 欧美欧美在线| 色婷婷av一区二区| 日本道在线视频| 天天操天天操天天| 蜜臀av亚洲一区中文字幕| 欧美激情xxxx性bbbb| 人人人妻人人澡人人爽欧美一区| 国产色99精品9i| 午夜av电影一区| 亚洲人成网站在线观看播放| 亚洲av永久纯肉无码精品动漫| 欧美亚洲视频| 九九热r在线视频精品| wwwwxxxx国产| 亚洲一区电影| 欧美日韩一区视频| 国内自拍在线观看| av在线看片| 国产欧美精品区一区二区三区 | 日韩欧美在线电影| 亚洲高清视频网站| 看片网站欧美日韩| 欧美中文在线免费| 国产91av视频| 91精品动漫在线观看| 亚洲图片欧美午夜| 久久精品女同亚洲女同13| 国产精品毛片无码| 欧美日韩国产一二三| 久久精品午夜福利| а√在线中文网新版地址在线| 亚洲少妇中出一区| 视频在线一区二区三区| 日韩欧美在线观看一区二区| hitomi一区二区三区精品| 亚洲最大福利视频网站| 在线观看毛片视频| 日韩激情在线观看| 日韩av成人在线| 欧美福利视频一区二区| 激情国产一区| 欧美寡妇偷汉性猛交| 国产一二三区精品| 亚洲欧美色图| 成年人精品视频| 永久免费看mv网站入口| 久久人体视频| 中文字幕在线亚洲| 日韩av毛片在线观看| 奇米影视亚洲| 日韩中文字幕欧美| 欧美xxxooo| 国产精品99一区二区三区| 色吧影院999| 亚洲精品电影院| 欧美激情电影| 成人97在线观看视频| 日韩一区二区三区四区在线| 欧美91视频| 欧美激情一级欧美精品| 日韩成人免费在线观看| 国产欧美精品久久| 97在线观看免费| 亚洲另类在线观看| 日本视频一区二区三区| 国产精自产拍久久久久久蜜| 一级黄色免费看| 国模无码大尺度一区二区三区| 亚洲xxx自由成熟| 日本加勒比一区| 97久久精品人人做人人爽50路| 精品久久蜜桃| 国产系列电影在线播放网址| 国产精品欧美极品| 天天操天天干天天玩| 伦理av在线| 色婷婷综合在线| 三级视频中文字幕| 精品国产亚洲一区二区在线观看| 欧美日韩视频在线观看一区二区三区| 8x8x成人免费视频| 波多野结衣欧美| 亚洲人成在线电影| 污软件在线观看| 樱桃成人精品视频在线播放| 国产成人精品在线视频| 99久久精品国产色欲| 99国产欧美另类久久久精品| 亚洲人成网站在线观看播放| 欧美aaaxxxx做受视频| 日本久久一区二区三区| 色综合五月婷婷| 欧洲精品一区| 久久久精品视频成人| 日韩伦理在线视频| 九九视频精品免费| 久久精品国产99精品国产亚洲性色| 91高清在线| 亚洲a∨精品一区二区三区导航| 一本一道久久a久久精品综合蜜臀| 亚洲免费999| 大陆精大陆国产国语精品| 国产亚洲xxx| 久久久久久久极品内射| 日韩二区在线观看| 国产欧美日韩亚洲| 日本在线免费| 日韩欧美在线网址| 香蕉在线观看视频| 爽成人777777婷婷| 日韩免费高清在线观看| 亚洲成人中文字幕在线| 国产精品嫩草久久久久| 亚洲自偷自拍熟女另类| 成人欧美精品一区二区| av在线导航| 欧美中文字幕亚洲一区二区va在线 | 99久久夜色精品国产亚洲狼| 91成人在线观看国产| 91免费视频播放| 久久日一线二线三线suv| 日本香蕉视频在线观看| 亚洲一区av| 中文欧美日本在线资源| 精品人妻一区二区三区免费看| 成人永久免费视频| 欧美做受777cos| 男女啪啪999亚洲精品| 亚洲码在线观看| 中文字幕在线字幕中文| 国产大片一区二区| 制服丝袜综合日韩欧美| 日韩在线短视频| 亚洲女同性videos| 久久精品一区二区三| 国产在线视频精品一区| 一级日韩一区在线观看| 国产精品久久久久av电视剧| 亚洲精品视频二区| 丰满少妇乱子伦精品看片| 高清久久久久久| 国产精品va在线观看无码| 欧美三级一区| 欧美成人久久久| av高清一区二区| 亚洲欧美色综合| 乳色吐息在线观看| 欧美日本不卡高清| 国产精品久久久一区二区三区| 欧美hdxxx| 亚洲黄在线观看| 中国一级免费毛片| 91蜜桃传媒精品久久久一区二区| 日韩视频第二页| 国产精品三级| 国产精品一香蕉国产线看观看| 91在线导航| 56国语精品自产拍在线观看| 欧美成人777| 国产成人精品亚洲777人妖| 日韩精品一区二区在线视频| 国产成人aa在线观看网站站| 777国产偷窥盗摄精品视频| 水莓100国产免费av在线播放| 一本色道久久加勒比精品 | 91av国产在线| 欧美日韩视频精品二区| 欧洲精品一区二区| 老熟妇高潮一区二区三区| 国产九九视频一区二区三区| 国产乱淫av片杨贵妃| 欧美精品国产白浆久久久久| 国产不卡在线观看| 久久国产精品一区| 亚洲国产精品美女| 91porny九色| 亚洲精品日日夜夜| 欧美黑人欧美精品刺激| 蜜臀久久99精品久久久久宅男| 伊人情人网综合| 88久久精品| 国产精品欧美一区二区| 中文字幕在线三区| 精品亚洲一区二区三区在线播放| 在线观看亚洲国产| 亚洲五码中文字幕| 亚洲av毛片基地| 成人天堂资源www在线| 久久久久久久片| 午夜激情一区| 日韩欧美精品一区二区三区经典| 成人免费观看49www在线观看| 国产91精品黑色丝袜高跟鞋| 免费在线视频欧美| 亚洲精品电影久久久| 亚洲自拍偷拍另类| 欧美日韩视频在线| 欧美激情图片小说| 久久久九九九九| 亚洲成人精品在线播放| 青娱乐精品在线视频| 国产九色porny| 99热国内精品| 久久天堂国产精品| 一区二区三区国产好| 国产精品十八以下禁看| 国产在线精彩视频| 美女精品久久久| 成人免费视频| 精品伊人久久97| 国产黄色一级大片| 欧美日韩五月天| 成人午夜淫片100集| 亚洲一二三区不卡| 日韩一级片大全| 国产精品天天看| 日本丰满少妇裸体自慰| 福利电影一区二区三区| 福利片一区二区三区| 丝袜a∨在线一区二区三区不卡| 被灌满精子的波多野结衣| 欧美va天堂| 中国老女人av| 四季av一区二区凹凸精品| 欧美日韩电影一区二区| 女一区二区三区| 电影午夜精品一区二区三区| 不卡的国产精品| 国产欧美日韩最新| 国产精品天堂蜜av在线播放| 国产成人在线视频| se01亚洲视频| 国产精品第10页| 三级成人黄色影院| 日韩免费av一区二区| 天堂中文在线播放| 国产91成人在在线播放| 国产网红女主播精品视频| 欧美情侣性视频| 特级毛片在线| 欧美日本在线视频中文字字幕| 好了av在线| 久久视频在线免费观看| 黄色在线免费| 免费成人高清视频| 婷婷在线播放| 欧美黄色免费网站| 欧美aaaaaaa| 久久久久久91| 国产精品13p| 91成人国产在线观看| 成人性教育av免费网址| 国产经典一区二区| 伊人影院综合在线| 一本一本久久| 久久精品国产精品亚洲色婷婷| 亚洲乱码久久| 亚洲熟女乱色一区二区三区| 久久久综合网| 午夜国产一区二区三区| 九九**精品视频免费播放| 日本中文字幕在线不卡| 成人免费毛片aaaaa**| 久久久国产精品无码| 久久网站最新地址| 在线观看日本黄色| 亚洲精品国产一区二区精华液| 久久综合成人网| 日韩欧美主播在线| 亚洲一区二区影视| 精品剧情v国产在线观看在线| 日本高清视频免费看| 亚洲色图偷窥自拍| 久久久久久国产精品免费无遮挡 | 久久五月精品中文字幕| 91精品91久久久久久| 性欧美hd调教| 91在线视频精品| 日韩中文av| 亚洲欧洲精品在线 | 一级黄色大毛片| 精品国产乱码久久久久久1区2区| 日韩大片b站免费观看直播| 日韩精品中文在线观看| 欧美18hd| 欧美又大粗又爽又黄大片视频| 日韩久久一区| 韩日午夜在线资源一区二区| 日韩精品一区二区久久| 日韩黄色短视频| 日韩av电影天堂| av不卡中文字幕| 中文av一区二区| 国产午夜精品无码| 欧美日韩不卡一区二区| 四虎在线免费观看| 欧美黑人极品猛少妇色xxxxx| 亚洲日本网址| 精品一区二区视频| 牛牛国产精品| 第四色婷婷基地| 97久久超碰国产精品电影| 黄色片在线观看网站| 欧美自拍偷拍一区| 欧美女同网站| 孩xxxx性bbbb欧美| 久久国产精品免费一区二区三区| 日韩久久精品一区二区三区| 一本色道久久综合亚洲精品高清 | 欧美经典一区二区三区| 国产无遮挡aaa片爽爽| 日韩一区二区三区四区五区六区 | 国偷自产av一区二区三区| 一区二区三区视频| 久久综合婷婷| 国产精品三级在线观看无码| 亚洲线精品一区二区三区| 夜夜骚av一区二区三区| 国产午夜精品一区二区三区 | 久久中文视频| 亚洲国产精品久久久久爰色欲| 丁香五精品蜜臀久久久久99网站| 欧美h片在线观看| 在线精品观看国产| 黄色软件在线观看| 情事1991在线| 亚洲精品推荐| 91精品91久久久中77777老牛| av电影天堂一区二区在线观看| 国产亚洲自拍av| 日韩欧美一级二级| 日韩特级毛片| 7777精品久久久大香线蕉小说| 小处雏高清一区二区三区| 久久精品影视大全| 国产欧美精品一区二区色综合| 久久久久久91亚洲精品中文字幕| 亚洲成年人在线播放| 丁香高清在线观看完整电影视频 | 毛片在线视频| 久久久女人电视剧免费播放下载| 精品一区二区三区视频在线播放 | 久久久亚洲影院| 亚洲2区在线| bt天堂新版中文在线地址| 国产精品一区一区| 在线观看日本黄色| 欧美蜜桃一区二区三区| 麻豆系列在线观看| 国产精品免费一区豆花| 日本女优一区| 九九九九九九九九| 亚洲女同一区二区| 高清乱码毛片入口| 2024亚洲男人天堂| 亚洲自拍一区在线观看| 色爱区综合激月婷婷| 国产精品久久一区二区三区不卡 | 国产熟女一区二区三区五月婷| 国产成人小视频| 国产精品一区而去| 91丨九色丨海角社区| 欧美日韩1区| 久久人人爽人人爽人人片亚洲| 亚洲精品在线网址| 天然素人一区二区视频| 欧美性受xxxx黑人xyx性爽| 中文字幕欧美人妻精品一区| 国产原创在线观看| 国产日韩欧美电影| 国产一区二区精品免费| 精品人妻一区二区三区麻豆91| 久久福利影视| 日本成熟性欧美| 国产精品视频第一页| 精品一区二区三区香蕉蜜桃| www.色.com| 亚洲精品国产a久久久久久| 少妇人妻偷人精品一区二区| 秋霞av国产精品一区| 伊人久久大香线蕉综合网蜜芽| 亚洲成色www.777999| 夜夜揉揉日日人人青青一国产精品| 亚洲奶汁xxxx哺乳期| 奇米4444一区二区三区 | jizz欧美性20| 欧洲精品在线观看| 人人超在线公开视频| 日韩精品福利视频| 精品人妻少妇嫩草av无码专区| 欧美va在线播放|