C#正则表达式,用于查找包含一个或多个匹配项的单词

本文关键字:单词 用于 查找 包含一 正则表达式 | 更新日期: 2023-09-27 18:19:27

我有一个较大的德语文本数据集,它是由于一些编码问题生成的,我无法从头开始重新创建数据集。所以,我发现,在德语特殊字符应该是字符串"??"的情况下,它会出现在它的位置(我猜这是因为将UTF8视为Ascii或类似的东西)。

数据集是一系列CSV文件的形式,包含大约180000行。我的解决方案是识别所有包含"??"的唯一单词,并基本上进行字符串替换。幸运的是,没有那么多独特的单词可以替换(大约5%的数据集样本中有18个单词)。

我已经设法得到了一个正则表达式,它与只包含一个"??"实例的单词相匹配——问题是它将包含多个"?!"实例的词拆分为两个部分匹配。

在这个阶段,我已经达到了正则表达式知识的极限。我想这需要做一些前瞻性的工作,但我不知道该怎么做

这是我的正则表达式:"@"(?<TM>'w*'?'?'w*)"。下面是一个示例字符串(请注意,第二个单词将被拆分为两个匹配项:"hellgr??n Hei??folienflachpr??gung Folienpr??gung,"

C#正则表达式,用于查找包含一个或多个匹配项的单词

(?<TM>'w*('?'?'w*)+)

重复包含?的部分??至少一次。