抓取网页特定的内容
前几天看到了这样一个需求用JAVA写一个WEB程序,可以输入:
1、 网页的URL地址,如:http://www.haodew.com/index.html
2、 一个关键词(如)如:电子商务
输入URL和关键词之后,点击确定按钮,程序返回如下结果:
1、 该关键字在该页面中出现的次数;
2、 找到在该页面中出现该关键词的倒数第二句话,并将这句话显示出来。
................................. --------------------编程问答--------------------
private String getListHtml(String listUrl) throws IOException {
String sHtml = "";
URLConnection uc = null;
BufferedReader br = null;
try {
java.net.URL url = new URL(listUrl);
uc = url.openConnection();
//设置模拟浏览器浏览参数,防止部分网站阻止
uc.setRequestProperty("User-Agent",
"Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
uc.connect();
boolean bgCatch = false;
boolean edCatch = false;
String line = "";
br = new BufferedReader(new InputStreamReader(new DataInputStream(
uc.getInputStream()), "UTF8"));//编码视具体情况而定
while ((line = br.readLine()) != null) {
System.out.println(line);//自己处理获得的每行HTML内容
sHtml += line + "\r\n";
}
} catch (MalformedURLException e) {
e.printStackTrace();
throw new IOException("该地址格式不正确!");
} catch (ConnectException e) {
e.printStackTrace();
throw new IOException("该地址不可到达!");
} finally {
try {
if (br != null)
br.close();
} catch (Exception e) {
e.printStackTrace();
}
}
return sHtml;
}
注意IFRAME或者frameset --------------------编程问答-------------------- 我也是1楼的方式用的。 --------------------编程问答--------------------
大赞直接贴代码~
补充:Java , Web 开发