正则表达式拆分PDF文件中的文本

本文关键字:文本 文件 拆分 PDF 正则表达式 | 更新日期: 2023-09-27 18:08:59

我有一个PDF文件,我使用在线工具将其转换为。txt。现在我想解析其中的数据并使用正则表达式拆分它。我几乎完成了,但停留在一个点上。

数据示例:

00 41 53 Bid Form – Design/Build (Single-Prime Contract)
27 05 13.23 T1 Services

我想把它分成:00 41 53 Bid Form – Design/Build (Single-Prime Contract)27 05 13.23 T1 Services

我使用的正则表达式是[0-9]('d|' |'.)*('D)*

可以是带空格和/或点的数字,然后可以是(字母,点,逗号,(, ), -和数字)的文本。

我不能匹配一个字符串,如果它里面有数字,像上面的"T1 Services"

正则表达式拆分PDF文件中的文本

如果我理解正确的话,你是在尝试用换行符进行分割。

string[] Result = Regex.Split(inputText, "['r'n]+");

你也可以这样做:

string phrase = ".......'n,,,,.ll..'r'n....";
string[] words;
words = phrase.Split(new string []{"'n","'r"}), StringSplitOptions.RemoveEmptyEntries);

如果你只需要regex,那么使用@mhasan解决方案