我想开发一个网站404错误扫描软件
用java开发。桌面式的软件。
输入一个网址, 然后定义扩展名[htm,php,asp,jpg,gif,css....]
然后开始扫描错误的404页面,用列表显示出来。。
请问这个需要用到java的哪些知识啊? 我刚学会java, 求指导。 --------------------编程问答-------------------- --------------------编程问答-------------------- java蜘蛛程序 --------------------编程问答-------------------- LZ做这个有什么意义? --------------------编程问答-------------------- .............
这个问题很难么? 没人回答。%>_<% --------------------编程问答-------------------- 求大牛指导。 --------------------编程问答-------------------- 偶也是新手。。我也想知道~ --------------------编程问答-------------------- 其是,这个,应该有现成的软件. 我记得大多数web日志分析工具都有这个功能.
如果自己练手,就多google一下. 看楼主的意思是要做爬虫. 不过要实现这个功能,一般都是直接分析服务器的访问日志. --------------------编程问答-------------------- 加油加油 --------------------编程问答-------------------- 试试看用apache的httpclient。
http://leiwuluan.iteye.com/blog/1306916
然后取到的页面里用正则表达式取出当前页面的其他链接,然后递归执行,找出所有的404页面。
祝你成功。
注意哦~~ 有些页面发生了404可以设置为调转到错误页面的,那么responsecode还是200,不是404了~~
这种怎么算?? 看你需求了。 --------------------编程问答-------------------- --------------------编程问答--------------------
是的,有点困难。蜘蛛程序是通过页面上的链接、按钮逐层进去的,如果某些 URL 根本就没有入口,只通过地址栏敲进去,那你认为程序怎么会知道这个 URL 呢?当然了,这是极端情况。
补充:Java , 非技术区