Powered by GitBook

中文 url 编码问题

问题描述:

有些url是带中文后缀的，比如以下这些：

http://bj.ganji.com/ershoubijibendiannao/z1/_戴尔/

http://jixie.huangye88.com/tag/地中衡

而当你从浏览器复制粘贴下来，或者从页面上抓取下来显示的格式确是这样的：

http://bj.ganji.com/ershoubijibendiannao/z1/_%E6%88%B4%E5%B0%94/

http://jixie.huangye88.com/tag/%E5%9C%B0%E4%B8%AD%E8%A1%A1/

如果要把第二种格式的编码转换成原来的中文应该怎么做呢？

问题解答：

其实两种url都是可以正常访问的，没有必要处理，如真是想进行处理的话，可以如以下方式处理：

from urllib.parse import unquote
Urls = ['http://bj.ganji.com/ershoubijibendiannao/z1/_%E6%88%B4%E5%B0%94/','http://jixie.huangye88.com/tag/%E5%9C%B0%E4%B8%AD%E8%A1%A1/']

for url in Urls:
    print(unquote(url,encoding="utf-8"))

++++++++
输出结果
++++++++
http://bj.ganji.com/ershoubijibendiannao/z1/_戴尔/
http://jixie.huangye88.com/tag/地中衡/

results matching ""

No results matching ""