计算/查找文本文件的列分隔符

本文关键字:分隔符 文件 文本 查找 计算 | 更新日期: 2023-09-27 17:51:16

是否有人有一个很好的方法来评估/查找给定文本文件的列分隔符?我愿意提供任何建议,无论是否涉及c#脚本,Powerscript等。

我有一个客户,他喜欢通过几乎每隔一个数据提要更改列分隔符来保持我们的脚。这显然会破坏我们的SQL代理导入作业。虽然我可以走失败路线——如果这个连接管理器(例如使用逗号分隔符)失败,则使用另一个连接管理器(以制表符分隔的连接)——但我更愿意在失败之前评估分隔符并决定采取哪条路线。有人有这样做的经验吗?

计算/查找文本文件的列分隔符

假设每行有相同数量的列,您总是可以选择一组常用分隔符(逗号、制表符、管道等),并计算在前这么多行中每种分隔符有多少个。如果前5行的逗号计数为34,34,35,34,36,而这些行的制表符计数为0,0,1,0,0,那么您可能有34个逗号分隔的列,并在文本中嵌入一些额外的逗号。如果您事先知道预计有多少列,将会更容易。

底线是,它可能不是一个确定性的黑白算法,而是一个基于数据通常看起来的选择一些规则和阈值的问题,然后让你的代码做出最好的猜测。

那,不然就狠狠地揍客户。: -)