当前位置:编程学习 > C#/ASP.NET >>

HTML解析:用蜘蛛程序输入url后,网页都抓取到数据库里。现在我想从这一堆网页中找到我需要的关键词,比如“体育”,将这类新闻连同里面的连接一起抓取出来

如题所示,我用一个蜘蛛程序输入utl后,相关网页都抓取到数据库里了。。但是现在我想从这一堆网页中找到我需要的关键词,比如“体育”,将这类新闻连同里面的连接一起抓取出来,挂到我自己建立的网页上。。。
具体怎么操作呢?

还请诸位大神不吝赐教。说的越详细我会给更多分数,这个问题很急!谢大家了! 数据库 HTML解析 --------------------编程问答-------------------- 首先要分析html格式,然后用正则进行抓取 --------------------编程问答--------------------
引用 1 楼 shawn_yang 的回复:
首先要分析html格式,然后用正则进行抓取


我知道要这样,但是具体怎么操作? --------------------编程问答-------------------- 能不能在抓取完网页后根据关键字对网页进行分类
将分类好的网页再存入数据库的不同表
或者在一张表中加上一个标志位表明该页面的类别 --------------------编程问答-------------------- 这是需要做分词研究的,先将网页的源码中的汉字按词语进行分割,再用你的关键词做查找。 --------------------编程问答--------------------
引用 3 楼 tiana0 的回复:
能不能在抓取完网页后根据关键字对网页进行分类
将分类好的网页再存入数据库的不同表
或者在一张表中加上一个标志位表明该页面的类别


你看这张图,我抓取完保存在数据库里是这样子的。。。我现在就是想解析它们,然后根据我想要的关键词将相关连接提取,挂到一个新的网页中。。。 --------------------编程问答--------------------
引用 5 楼 ZSY1061242643 的回复:
引用 3 楼 tiana0 的回复:
能不能在抓取完网页后根据关键字对网页进行分类
将分类好的网页再存入数据库的不同表
或者在一张表中加上一个标志位表明该页面的类别

你看这张图,我抓取完保存在数据库里是这样子的。。。我现在就是想解析它们,然后根据我想要的关键词将相关连接提取,挂到一个新的网页中。。。


我的意思是你这个工具在抓取网页前,难道不能根据关键字来抓取吗 --------------------编程问答-------------------- 关键字 或ID --------------------编程问答--------------------
引用 6 楼 tiana0 的回复:
引用 5 楼 ZSY1061242643 的回复:引用 3 楼 tiana0 的回复:
能不能在抓取完网页后根据关键字对网页进行分类
将分类好的网页再存入数据库的不同表
或者在一张表中加上一个标志位表明该页面的类别

你看这张图,我抓取完保存在数据库里是这样子的。。。我现在就是想解析它们,然后根据我想要的关键词将相关连接提取,挂到一个新的网页中。。。

我的……


不能,只能将我所输入的url所有链接抓取下来保存。。。我的思路是,抓取下来保存到数据库的时候,在表中建立一个项,根据抓取网页中的<a></a>里面内容来命名,我有根据关键词查询数据库的程序,这样是不是就可以根据关键词查询了。。。 --------------------编程问答--------------------
引用 8 楼 ZSY1061242643 的回复:
引用 6 楼 tiana0 的回复:引用 5 楼 ZSY1061242643 的回复:引用 3 楼 tiana0 的回复:
能不能在抓取完网页后根据关键字对网页进行分类
将分类好的网页再存入数据库的不同表
或者在一张表中加上一个标志位表明该页面的类别

你看这张图,我抓取完保存在数据库里是这样子的。。。我现在就是想解析它们,然后根据我想要的关键词将相关连接提取,……


是可以,不过效率也得考虑好
补充:.NET技术 ,  C#
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,