用于检测和组合重复标记的正则表达式

本文关键字:正则表达式 检测 组合 用于 | 更新日期: 2023-09-27 17:50:31

我使用正则表达式从组织中另一个组控制的页面中提取数据。基本结构遵循相同的模式:

<td><strong>Text I'm looking for</strong>...<a href="Link I'm also looking for"></a></td> 

我能够成功地抓取所需的数据与

<td><strong>(?<title>.*?)</strong>(.*?)<a href="(?<link>.*?)">(.*?)</a></td>

然而,我偶尔会遇到一个看起来像

的组
<td><strong>Text I'm </strong><strong>looking for</strong>...<a href="Link I'm also looking for"></a></td>

是否有一个正则表达式来处理这个?它最好是自动合并这两个块,但如果有必要,我也可以手动合并它们。

用于检测和组合重复标记的正则表达式

使用正则表达式解析HTML是困难且不安全的。有一个。net库可以帮助你:Html Agility Pack (http://htmlagilitypack.codeplex.com/)(支持XPATHXSLT)

也许您可以后处理第一个"我正在寻找的文本",将字符串"</strong><strong>"替换为空字符串。

系统。String类型有一个Replace方法可以很好地完成。