用于检测和组合重复标记的正则表达式
本文关键字:正则表达式 检测 组合 用于 | 更新日期: 2023-09-27 17:50:31
我使用正则表达式从组织中另一个组控制的页面中提取数据。基本结构遵循相同的模式:
<td><strong>Text I'm looking for</strong>...<a href="Link I'm also looking for"></a></td>
我能够成功地抓取所需的数据与
<td><strong>(?<title>.*?)</strong>(.*?)<a href="(?<link>.*?)">(.*?)</a></td>
然而,我偶尔会遇到一个看起来像
的组<td><strong>Text I'm </strong><strong>looking for</strong>...<a href="Link I'm also looking for"></a></td>
是否有一个正则表达式来处理这个?它最好是自动合并这两个块,但如果有必要,我也可以手动合并它们。
使用正则表达式解析HTML是困难且不安全的。有一个。net库可以帮助你:Html Agility Pack
(http://htmlagilitypack.codeplex.com/)(支持XPATH
和XSLT
)
也许您可以后处理第一个"我正在寻找的文本",将字符串"</strong><strong>"
替换为空字符串。
系统。String类型有一个Replace方法可以很好地完成。