中文 url 编码问题
问题描述:
有些url是带中文后缀的,比如以下这些:
而当你从浏览器复制粘贴下来,或者从页面上抓取下来显示的格式确是这样的:
- http://bj.ganji.com/ershoubijibendiannao/z1/_%E6%88%B4%E5%B0%94/
- http://jixie.huangye88.com/tag/%E5%9C%B0%E4%B8%AD%E8%A1%A1/
如果要把第二种格式的编码转换成原来的中文应该怎么做呢?
问题解答:
其实两种url都是可以正常访问的,没有必要处理,如真是想进行处理的话,可以如以下方式处理:
from urllib.parse import unquote
Urls = ['http://bj.ganji.com/ershoubijibendiannao/z1/_%E6%88%B4%E5%B0%94/','http://jixie.huangye88.com/tag/%E5%9C%B0%E4%B8%AD%E8%A1%A1/']
for url in Urls:
print(unquote(url,encoding="utf-8"))
++++++++
输出结果
++++++++
http://bj.ganji.com/ershoubijibendiannao/z1/_戴尔/
http://jixie.huangye88.com/tag/地中衡/