如何解析文本文件中的信息

本文关键字:信息 文件 何解析 文本 | 更新日期: 2023-09-27 18:23:52

我正在研究从文本文件中解析数据的各种选项。我们收到来自不同客户的发票,并且发票格式没有预先定义。基本上,我们收到的是具有不同列的表类型结构,如下所示,数据需要从文件中提取。

现在,我们有一个带有Parse方法的IExtractor接口,该接口由每个客户端解析器实现,并根据文件实例化适当的类,并对逻辑进行硬编码以检索数据。

由于客户端的数量在增加,我们正在寻找更健壮、更易于编码的方法来从文本文件中提取信息。

是否建议使用正则表达式来识别页眉和页脚,并使用另一个表达式从每行提取信息。如果有人能提出更好的替代方案,我将不胜感激。

<addition text>.....
    Date          Document            Invoice               Deductions     Paid Amount
    --------------------------------------------------------------------------------------------
    21.03.2014    9289                9280                  0.00                        48,000.00
    10.01.2013    21389               9402                  3.00                        4,000.00
    21.03.2014    9289                9280                  0.00                        48,000.00
    10.01.2013    21389               9402                  3.00                        4,000.00
    Sum Total
    Please ....<text>

如何解析文本文件中的信息

如果你有太多的代码解决方案,比如你提到的IExtractor.Parse,那么我会选择嵌入式脚本语言

然后,您可以为每个客户端编写一个脚本。

我会使用Javascript作为语言(它内置了regex支持)。我会使用codeplex 的jint项目