当前位置:编程学习 > C#/ASP.NET >>

【请教】为什么百度爬虫请求UTF-8网站的网站URL里的中文参数是乱码?

如题:
网页request和response都设成了UTF-8

网页中有很多链接如下所示:
http://localhost:3255/keywords/%e9%85%b76.html
http://localhost:3255/keywords/%e6%b1%9f%e5%8d%97%e6%98%a5.html
http://localhost:3255/keywords/%e8%bf%aa%e5%a3%ab%e5%b0%bc.html
在站内统计时看到百度请求的地址是类似:
http://localhost:3255/keywords/閲戝北姣掗湼.html
http://localhost:3255/keywords/浼犲獟.html
因此记录关键字keywords被访问的情况时,就都成了乱码
查站内访问统计时间,出现乱码的时候都是百度爬虫(我日了)
Baiduspider+(+http://www.baidu.com/search/spider.htm)

目的:
希望在任何访问http://localhost:3255/keywords/******.html页面的时候将******记录,且保证记录的时候不是乱码。
PS:不要建议我屏蔽百度爬虫,谢谢! --------------------编程问答-------------------- 最好不要用中文url,如果是百度过来的请求,可以用Encoding.UTF8.GetString(Encoding.GetEncoding("gb2312").GetBytes(url))转换编码 --------------------编程问答-------------------- 是不是编码的问题 --------------------编程问答-------------------- 应该是编码的问题,最好把带有中文的URL进行下编码 --------------------编程问答-------------------- 嘿嘿 帮顶 应该是编码的问题了 --------------------编程问答-------------------- 你如果选用中文 最好不要用url  --------------------编程问答-------------------- 百度乱码很严重的问题。。。 --------------------编程问答-------------------- 编码要统一 --------------------编程问答-------------------- 网结构里尽量避免中文目录和中文文件名 --------------------编程问答-------------------- /%e9%85%b76.html
这个是编码

閲戝北姣掗湼.html
这个是解码解错了。 --------------------编程问答-------------------- gb2312 ?
补充:.NET技术 ,  ASP.NET
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,