识别并删除不是100%相同的“重复”PPT文件

本文关键字:重复 文件 PPT 删除 100% 识别 | 更新日期: 2023-09-27 18:34:54

作为即将到来的项目的发现过程的一部分,我正在尝试找到一种方法来获取我们网络上PPT文件的代表性样本。到目前为止,我已经收集并组织了我们拥有的所有PPT文件,但是我意识到有大量的文档,因此我需要找到一种方法来减少它。为此,我认为删除所有"重复"文件会有所帮助。

我们

公司没有任何类型的版本控制系统来控制我们网络上的文件。因此,用户通常会创建文件副本以进行较小的更改。这导致了大量没有真正命名约定的"重复"文件等。 理想情况下,我能够对哪些文件是"重复"文件做出最佳猜测并保留最新版本。由于我只需要一个代表性的样本,因此我不需要对保存/删除决定保持 100% 准确,如果我丢失了一大块文件也没关系(目前有 135K 个文件,我希望最终得到 3-5K(。我不确定该怎么做,因为像 http://www.easyduplicatefinder.com/这样的工具似乎在寻找真正相同的文档,而不是更细微的差异。

以下是一些其他详细信息:

  • 文件名不遵循任何标准约定
  • 我认为假设许多PPT属性在各个版本中保持不变是公平
  • 的文件
  • 的版本始终位于同一文件夹中,但其他PPT文件也可能存在于同一文件夹中
  • 我愿意用以下任何语言/技术来解决这个问题:C#,VB,Ruby,Python,IronPython,PowerShell

识别并删除不是100%相同的“重复”PPT文件

我会这样处理它:

  • 从每个.ppt文件中提取所有可见的文本字符串
  • 字符串转储到文本文件中,每个.ppt一个
  • 对所有文本文件对(在同一目录中?(运行diff以获得最小的编辑距离
  • 通过聚类算法运行生成的距离矩阵