中文 url 编码问题

问题描述:

有些url是带中文后缀的,比如以下这些:

而当你从浏览器复制粘贴下来,或者从页面上抓取下来显示的格式确是这样的:

如果要把第二种格式的编码转换成原来的中文应该怎么做呢?


问题解答:

其实两种url都是可以正常访问的,没有必要处理,如真是想进行处理的话,可以如以下方式处理:

from urllib.parse import unquote
Urls = ['http://bj.ganji.com/ershoubijibendiannao/z1/_%E6%88%B4%E5%B0%94/','http://jixie.huangye88.com/tag/%E5%9C%B0%E4%B8%AD%E8%A1%A1/']

for url in Urls:
    print(unquote(url,encoding="utf-8"))

++++++++
输出结果
++++++++
http://bj.ganji.com/ershoubijibendiannao/z1/_戴尔/
http://jixie.huangye88.com/tag/地中衡/

results matching ""

    No results matching ""