正则表达式拆分PDF文件中的文本
本文关键字:文本 文件 拆分 PDF 正则表达式 | 更新日期: 2023-09-27 18:08:59
我有一个PDF文件,我使用在线工具将其转换为。txt。现在我想解析其中的数据并使用正则表达式拆分它。我几乎完成了,但停留在一个点上。
数据示例:
00 41 53 Bid Form – Design/Build (Single-Prime Contract)
27 05 13.23 T1 Services
我想把它分成:00 41 53 Bid Form – Design/Build (Single-Prime Contract)
和27 05 13.23 T1 Services
我使用的正则表达式是[0-9]('d|' |'.)*('D)*
可以是带空格和/或点的数字,然后可以是(字母,点,逗号,(
, )
, -
和数字)的文本。
我不能匹配一个字符串,如果它里面有数字,像上面的"T1 Services"
如果我理解正确的话,你是在尝试用换行符进行分割。
string[] Result = Regex.Split(inputText, "['r'n]+");
你也可以这样做:
string phrase = ".......'n,,,,.ll..'r'n....";
string[] words;
words = phrase.Split(new string []{"'n","'r"}), StringSplitOptions.RemoveEmptyEntries);
如果你只需要regex,那么使用@mhasan解决方案