从大文本中解析数字,可能不使用正则表达式(性能关键)
本文关键字:正则表达式 性能 文本 数字 | 更新日期: 2023-09-27 18:08:11
在你们开始用:/d+
的变体回答之前,我对正则表达式非常熟悉我想知道是否有替代regex来解析大型文本文件中的数字。
我正在分析大量的文件,需要对关键字的位置做一些分组/位置分析。现在我需要开始寻找一组数字,这些数字与我感兴趣的内容紧密嵌套在一起。如果可能的话,我希望避免使用正则表达式,因为这需要一个快速的过程。
可以取文件的块来检查感兴趣的数字。然而,这将需要更多的工作,并增加搜索的硬编码限制。(我想避免这种情况)
我愿意接受任何建议。
更新很抱歉缺少样本数据。出于HIPAA的原因,我宁愿不考虑打乱文本并发布它。
一个很好的替代品将是任何stackoverflow.com问题页面的HTML源。想象一下,我需要获取所有发布问题答案的人的声誉(分数)。这也意味着也需要逗号(,)。我不能删除html来简化内容,因为我正在使用一些密度分析来剔除不相关的内容。删除HTML会将内容混在一起。
除非文件是某种SGML,否则我不知道有任何方法(这并不是说没有,我只是不知道一个)
然而,这并不是说你不能创建自己的解析器;你可以通过编写一些只查找数字范围的东西来消除。net正则表达式库的一些开销。
基本上,我想这是所有库在最基本的层面上所做的。
如果你能发布你将要处理的数据的样本可能会有所帮助?