当前位置:编程学习 > JAVA >>

用webharvest抓取网页内容~~作业~望高手进入指教

是不是一定要在JDK环境下使用webharvest ?以下有个作业:Java网页内容提取系统  
类型:桌面Application
  要求:
A. 使用开源项目WebHarvest实现网页内容提取,该项目以XML作为动作配置文件。
B. 抓取以下两个网站的信息(并放在Access数据库中)
a) www.taobao.com
抓取 女鞋->帆布鞋中的所有商品的如下信息:
(1) 商品名(如“特价~爆款热卖 韩版时尚 高帮彩绘系带休闲帆布鞋 情侣鞋 3色”)
(2) 价格(如38.6元)
(3) 店家(如mofy1215)
(4) 封面图片和商品页内的图片,图片放在以该商品在数据库中的序号为目录名的目录中,并编号1.jpg,2.jpg….
b) http://finance.eastmoney.com/news/cpljh.html
把所有的评论作者、标题和正文内容抓到Access数据库中。

我是菜鸟啊,希望高手可以教教 --------------------编程问答-------------------- 那个学校这么厉害,帮顶! --------------------编程问答-------------------- 广工的,一看就知道了,哥这个学期也要做这个设计 --------------------编程问答-------------------- 提示一下,使用支持rest服务的webharvest框架进行抓取。第一步是写好xml配置文件,它应该是采用xpath语法的。主要的工作就在于写xml文件,它是严格对应于淘宝页面上元素和属性的。第二步写一个抓取的java类,当然需要webharvest的jar包,网上都有下载的。具体的抓取步骤比较简单,自己网上去查吧。 --------------------编程问答-------------------- 写过一个抓火影忍者漫画的,意思应该差不多,参考一下就搞定了。
http://blog.csdn.net/wind_324/article/details/6271412
补充:Java ,  Java相关
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,