如何导入和合并来自多个不同来源的相似(但不相等)文本

本文关键字:文本 相似 不相等 导入 何导入 合并 | 更新日期: 2023-09-27 18:13:32

我正在从几个文件(excel文件)中导入一组数据,这些文件每天保存没有标识符的记录。然后将需要的数据存储在关系数据库(Oracle)中。

问题是文本可能与每个资源略有不同,因为没有唯一标识符,所以我需要以某种方式基于文本值进行比较。

让我们举个例子,假设我从不同的来源得到这个信息:

Source A: The Dark Knight
Source B: Batman The Dark Knight
Source C: The Dark Knight 2008
Source D: The Dark Knight Rises

如果数据库已经持有item_name为"黑暗骑士"的项目,那么当我从源A,B,C导入这些行时,我将得到一个"完全匹配",但不是D,因为这是一个不同的电影。

要知道的事情:

  • 这个过程不是100%自动化的,所以如果没有匹配,将有一个用户交互手动匹配或创建一个新的记录。
  • 虽然有一个用户交互,我想保持它到最小(特别是在用户手动匹配一个项目)。

我该如何解决这个问题,而不让数据库中每个项目都有大量的同义词?

如何导入和合并来自多个不同来源的相似(但不相等)文本

更新日期05/21/2013

我发现:http://matpalm.com/resemblance/

这是使用 jard系数。虽然我不确定这对我的情况是最好的,因为复杂性,匹配m x n次,其中m是导入记录的大小,n是总数据库记录,可能有数万长。