日志文件的分析、预处理或后处理
本文关键字:预处理 后处理 文件 日志 | 更新日期: 2023-09-27 18:29:59
我正在尝试对日志文件进行一些数据挖掘。这是一个平面文件,每行都有大量的事件列表。文件本身也可以达到500MB以上。每一行都是一个逗号分隔的可变宽度事件列表,每个事件都包含专门与该事件相关的数据。
我已经经历了几次迭代,但真的无法决定如何结束数据(规范化还是去规范化)?如果我想预处理数据,或者可能在数据进入数据库后对其进行后处理?或者完全是别的什么?
到目前为止我使用过的东西:sed+awk,C#,g(awk),Ruby,Postgres我考虑过的事情:可能是一个没有SQL的数据库?可能还有其他想法吗?
最终,我使用了这些工具中的每一个来对文件进行单个"传递",并输出另一个文件,该文件每行都有一个硬列数(30)。在那之后,我一直在使用postgres,我创建了一个有30列的大型postgres表,我可以使用简单的COPY postgres命令(基本上是大容量复制插入)快速将该文件导入到表中。
烦恼:数据完全不规范化。我基本上在一个表中有一个巨大的数据转储,我当然可以查询并获取我需要的数据,但这个巨大的30列表正在测试我的敏感性。
问题:您会尝试规范化数据吗?如果是,你对此有何看法?你会对30列的表格进行后处理吗?在将其插入数据库之前进行预处理?还有其他想法吗?
您是否尝试过查看logstash或splunk?