识别并删除不是100%相同的“重复”PPT文件

本文关键字：重复文件 PPT 删除 100% 识别 | 更新日期: 2023-09-27 18:34:54

作为即将到来的项目的发现过程的一部分，我正在尝试找到一种方法来获取我们网络上PPT文件的代表性样本。到目前为止，我已经收集并组织了我们拥有的所有PPT文件，但是我意识到有大量的文档，因此我需要找到一种方法来减少它。为此，我认为删除所有"重复"文件会有所帮助。

我们

公司没有任何类型的版本控制系统来控制我们网络上的文件。因此，用户通常会创建文件副本以进行较小的更改。这导致了大量没有真正命名约定的"重复"文件等。理想情况下，我能够对哪些文件是"重复"文件做出最佳猜测并保留最新版本。由于我只需要一个代表性的样本，因此我不需要对保存/删除决定保持 100% 准确，如果我丢失了一大块文件也没关系(目前有 135K 个文件，我希望最终得到 3-5K(。我不确定该怎么做，因为像 http://www.easyduplicatefinder.com/这样的工具似乎在寻找真正相同的文档，而不是更细微的差异。

以下是一些其他详细信息：

文件名不遵循任何标准约定
我认为假设许多PPT属性在各个版本中保持不变是公平
的版本始终位于同一文件夹中，但其他PPT文件也可能存在于同一文件夹中
我愿意用以下任何语言/技术来解决这个问题：C#，VB，Ruby，Python，IronPython，PowerShell

识别并删除不是100%相同的“重复”PPT文件

我会这样处理它：

从每个.ppt文件中提取所有可见的文本字符串
字符串转储到文本文件中，每个.ppt一个
对所有文本文件对(在同一目录中？(运行diff以获得最小的编辑距离
通过聚类算法运行生成的距离矩阵