HTML解析:用蜘蛛程序输入url后,网页都抓取到数据库里。现在我想从这一堆网页中找到我需要的关键词,比如“体育”,将这类新闻连同里面的连接一起抓取出来
如题所示,我用一个蜘蛛程序输入utl后,相关网页都抓取到数据库里了。。但是现在我想从这一堆网页中找到我需要的关键词,比如“体育”,将这类新闻连同里面的连接一起抓取出来,挂到我自己建立的网页上。。。具体怎么操作呢?
还请诸位大神不吝赐教。说的越详细我会给更多分数,这个问题很急!谢大家了! 数据库 HTML解析 --------------------编程问答-------------------- 首先要分析html格式,然后用正则进行抓取 --------------------编程问答--------------------
我知道要这样,但是具体怎么操作? --------------------编程问答-------------------- 能不能在抓取完网页后根据关键字对网页进行分类
将分类好的网页再存入数据库的不同表
或者在一张表中加上一个标志位表明该页面的类别 --------------------编程问答-------------------- 这是需要做分词研究的,先将网页的源码中的汉字按词语进行分割,再用你的关键词做查找。 --------------------编程问答--------------------
你看这张图,我抓取完保存在数据库里是这样子的。。。我现在就是想解析它们,然后根据我想要的关键词将相关连接提取,挂到一个新的网页中。。。 --------------------编程问答--------------------
我的意思是你这个工具在抓取网页前,难道不能根据关键字来抓取吗 --------------------编程问答-------------------- 关键字 或ID --------------------编程问答--------------------
不能,只能将我所输入的url所有链接抓取下来保存。。。我的思路是,抓取下来保存到数据库的时候,在表中建立一个项,根据抓取网页中的<a></a>里面内容来命名,我有根据关键词查询数据库的程序,这样是不是就可以根据关键词查询了。。。 --------------------编程问答--------------------
是可以,不过效率也得考虑好
补充:.NET技术 , C#