当前位置:编程学习 > JAVA >>

怎样用正则表达式提取同一网页中部分的URL?

难点:网页中有很多URL,都以href="开头, 但我只要提取<h3></h3>中的URL,如图中的http://www.baidu.com/s?tn=baidurt&rtt=1&bsst=1&wd=%BF%A8%BF%A8
--------------------编程问答--------------------

string pat = @"<h3>.+</h3>"; //.表示任意非/n字符,+表示重复
Regex r = new Regex(pat, RegexOptions.IgnoreCase);
Match m = r.Match(htmltext);
while (m.Success)
{
 ...
 m=m.NextMatch();
}

给分吧 --------------------编程问答-------------------- 可能看不到图片吧
如下:我要提取的是<h3  </h3>中的URL: 
http://www.baidu.com/s?tn=baidurt&rtt=1&bsst=1&wd=%BF%A8%BF%A8
需要:
<h3 class="t"><a href="http://www.baidu.com/s?tn=baidurt&rtt=1&bsst=1&wd=%BF%A8%BF%A8" target="_blank" onmousedown="return c({'fm':'alrt','title':this.innerHTML,'url':this.href,'p1':al_c(this)});"><em>卡卡</em>的最新相关信息</a>
</h3>
需要:
<h3 class="t"><a href="http://baike.baidu.com/view/2255.htm" target="_blank" onmousedown="return op_baike_c({'fm':'albk1','title':this.innerHTML,'url':this.href,'p1':_aMC(this)})"><em>卡卡</em>_百度百科</a><span class="tsuf tsuf-op" data="{title : '卡卡_百度百科', link : 'http:\/\/baike.baidu.com\/view\/2255.htm'}"></span></h3>
不需要(不是在<h3  </h3>中的URL):
<div class="floatTipLink"><a href="http://share.baidu.com/" target="_blank" id="sharelink">百度分享是什么?</a></div>
补充:Java ,  Java相关
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,