requests.get()爬去中文网页乱码解决方法

wylc123 1年前 ⋅ 959 阅读

requests.get()爬去中文网页乱码解决方法

当我们使用requests.get()爬取百度首页时会发现，返回的html代码中的中文发生乱码。

import requests

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
url = 'http://www.baidu.com'
html = requests.get(url, headers = headers)
print(html.text)

发现下图中中文位置出现乱码。

对源码分析发现源码是以’utf-8’编码的。
以下提供两种思路：1.将get到的结果再用’utf-8’编码，之后获取text属性。官网给出的解决方法。2.对get返回结果的text属性以’latin-1’编码，再用’utf-8’解码。

import requests

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
url = 'http://www.baidu.com'
html = requests.get(url, headers = headers)
html.encoding = 'utf-8'
print(html.text)

import requests

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
url = 'http://www.baidu.com'
html = requests.get(url, headers = headers)
print(html.text.encode('latin-1').decode('utf-8'))

注意：本文归作者所有，未经作者允许，不得转载

#中文乱码 #爬虫

阅读全部

相关文章推荐

Nginx反爬虫策略，禁止某些UA抓取网站 0 点赞 ⋅ 0 回复 ⋅ 1年前
Python3 网络爬虫（一）：初识网络爬虫之夜探老王家 0 点赞 ⋅ 0 回复 ⋅ 1年前
Python3 网络爬虫（三）：漫画下载，动态加载、反爬虫这都不叫事！ 0 点赞 ⋅ 0 回复 ⋅ 1年前
Python3 网络爬虫（二）：下载小说的正确姿势 0 点赞 ⋅ 0 回复 ⋅ 1年前
Python3 网络爬虫（五）：老板，需要特殊服务吗？ 0 点赞 ⋅ 0 回复 ⋅ 1年前
Python3 网络爬虫（六）：618，爱他/她，就清空他/她的购物车！ 0 点赞 ⋅ 0 回复 ⋅ 1年前
Python3 网络爬虫（四）：视频下载，那些事儿！ 0 点赞 ⋅ 0 回复 ⋅ 1年前
Python3下安装Scrapy爬虫环境 0 点赞 ⋅ 0 回复 ⋅ 1年前
Python3网络爬虫快速入门实战解析 0 点赞 ⋅ 0 回复 ⋅ 1年前
python爬虫相关 0 点赞 ⋅ 0 回复 ⋅ 1年前
Requests库获取页面信息，BeautifulSoup库解析页面信息 0 点赞 ⋅ 0 回复 ⋅ 1年前
scrapy+selenium爬取懒加载网页 0 点赞 ⋅ 0 回复 ⋅ 1年前
scrapyd设置远程登录 0 点赞 ⋅ 0 回复 ⋅ 1年前
Scrapy初章-Scrapy理论简介 0 点赞 ⋅ 0 回复 ⋅ 1年前
Scrapy最最最终章-搂一把sakimichan 0 点赞 ⋅ 0 回复 ⋅ 1年前
Scrapy次章-啥也不干就是爬图 0 点赞 ⋅ 0 回复 ⋅ 1年前
scrapy爬虫启示录-小伙子老夫看你血气方刚这本《爬虫秘录》就传给你了 0 点赞 ⋅ 0 回复 ⋅ 1年前
Scrapy第三章-图片存库Mysql 0 点赞 ⋅ 0 回复 ⋅ 1年前
Scrapy第五章-多线程加速爬图 1 点赞 ⋅ 109 回复 ⋅ 1年前
Scrapy终章-1024福利 0 点赞 ⋅ 0 回复 ⋅ 1年前

全部评论: 0 条

我有话说:

wylc123
- 912发布
- 8评论
收藏 0

requests.get()爬去中文网页乱码解决方法

requests.get()爬去中文网页乱码解决方法

全部评论: 0 条

本文目录

热门标签

广告位

热门文章

阿里云新老用户最新优惠

最新发布

最新评论