Python爬虫乱码求助

2019-07-27 10:50

fengjianzhi2019-07-27 10:50
学爬虫
源码
# -*- coding:UTF-8 -*-
import requests

if __name__ == '__main__':
target = 'http://www.biqukan.com/1_1094/5403177.html'
req = requests.get(url=target)
print(req.text)

结果内容中有
μúò»ÕÂ Ëû½D°×D¡′¿_ò»Äîóàoã_DTÕæD¡Ëμ_±êè¤¸ó这样的乱码
请问应该怎么改。
谢谢hper
yxmr2019-07-27 10:51
要encode还是decode吧，这两个啥时候用哪个我也搞不明白
fengjianzhi2019-07-27 10:57
req.text是字符串类型，错误提示中说str没有decode，用encode后得到的是/x810这样的bytes。
fengjianzhi2019-07-27 10:57
请问如何变成汉字。
林爱丰2019-07-27 10:58
编码问题，就那几种可能，指定requests的编码，更改response的编码，自己网上搜一下解决方法试试呗。而且你这个应该是中文的乱码，不是url编码问题，网上关于这个的讨论很多了。
fqxufo2019-07-27 10:58
原网页是gbk的，python默认utf-8，所以显示乱码了
可以这样解决
req.encoding = req.apparent_encoding
复制代码
stefwoo2019-07-27 11:01
2.7的编码坑特别多。 iOS fly ~