用webharvest抓取网页内容~~作业~望高手进入指教

是不是一定要在JDK环境下使用webharvest ？以下有个作业：Java网页内容提取系统
类型：桌面Application
要求：
A．使用开源项目WebHarvest实现网页内容提取，该项目以XML作为动作配置文件。
B．抓取以下两个网站的信息（并放在Access数据库中）
a) www.taobao.com
抓取女鞋->帆布鞋中的所有商品的如下信息：
(1) 商品名（如“特价~爆款热卖韩版时尚高帮彩绘系带休闲帆布鞋情侣鞋 3色”）
(2) 价格（如38.6元）
(3) 店家（如mofy1215）
(4) 封面图片和商品页内的图片，图片放在以该商品在数据库中的序号为目录名的目录中，并编号1.jpg,2.jpg….
b) http://finance.eastmoney.com/news/cpljh.html
把所有的评论作者、标题和正文内容抓到Access数据库中。

我是菜鸟啊，希望高手可以教教 --------------------编程问答-------------------- 那个学校这么厉害，帮顶！ --------------------编程问答-------------------- 广工的，一看就知道了，哥这个学期也要做这个设计 --------------------编程问答-------------------- 提示一下，使用支持rest服务的webharvest框架进行抓取。第一步是写好xml配置文件，它应该是采用xpath语法的。主要的工作就在于写xml文件，它是严格对应于淘宝页面上元素和属性的。第二步写一个抓取的java类，当然需要webharvest的jar包，网上都有下载的。具体的抓取步骤比较简单，自己网上去查吧。 --------------------编程问答-------------------- 写过一个抓火影忍者漫画的，意思应该差不多，参考一下就搞定了。
http://blog.csdn.net/wind_324/article/details/6271412

补充：Java ,  Java相关