日志文件的分析、预处理或后处理

本文关键字：预处理后处理文件日志 | 更新日期: 2023-09-27 18:29:59

我正在尝试对日志文件进行一些数据挖掘。这是一个平面文件，每行都有大量的事件列表。文件本身也可以达到500MB以上。每一行都是一个逗号分隔的可变宽度事件列表，每个事件都包含专门与该事件相关的数据。

我已经经历了几次迭代，但真的无法决定如何结束数据（规范化还是去规范化）？如果我想预处理数据，或者可能在数据进入数据库后对其进行后处理？或者完全是别的什么？

到目前为止我使用过的东西：sed+awk，C#，g（awk），Ruby，Postgres我考虑过的事情：可能是一个没有SQL的数据库？可能还有其他想法吗？

最终，我使用了这些工具中的每一个来对文件进行单个"传递"，并输出另一个文件，该文件每行都有一个硬列数（30）。在那之后，我一直在使用postgres，我创建了一个有30列的大型postgres表，我可以使用简单的COPY postgres命令（基本上是大容量复制插入）快速将该文件导入到表中。

烦恼：数据完全不规范化。我基本上在一个表中有一个巨大的数据转储，我当然可以查询并获取我需要的数据，但这个巨大的30列表正在测试我的敏感性。

问题：您会尝试规范化数据吗？如果是，你对此有何看法？你会对30列的表格进行后处理吗？在将其插入数据库之前进行预处理？还有其他想法吗？

日志文件的分析、预处理或后处理

您是否尝试过查看logstash或splunk？