当前位置:编程学习 > VB >>

关于正则表达式分组

读取一个页面源代码以后,想把无关的html标签删除,但要保留自己想要的,比如一下源码:
---------------------------------------------------------------------------------------------------
<!-- 显示图片 end -->
<!-- 输出内容-新分页 begin -->
<p>  新浪体育讯 <strong>布赖恩-克劳夫和尼戈尔-克劳夫</strong></p>
<p>  过世的布赖恩-克劳夫仍然是一个传奇。作为球员,他是家乡球队米德尔斯堡的高产射手,还效力过米堡的东北死敌桑德兰
---------------------------------------------------------------------------------------------------   
  
    我想把<P>、<strong>保留,<!-- 显示图片 end -->和<!-- 输出内容-新分页 begin -->删除。
我写的匹配规则是:<[^>p(strong)]{3,}?>,可是好像strong的小括号不起作用,总认为是单个字符,这样因为<!-- 显示图片 end -->和<!-- 输出内容-新分页 begin -->中都有"n",所以无法匹配,请指教! --------------------编程问答-------------------- 通过参考http://hi.baidu.com/13639966396/blog/item/14ef86867862513a67096ec5.html,问题已解决
表达式改成:<(?!p|strong)[^>]{3,}?>
补充:VB ,  基础类
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,