如何导入和合并来自多个不同来源的相似(但不相等)文本

本文关键字：文本相似不相等导入何导入合并 | 更新日期: 2023-09-27 18:13:32

我正在从几个文件(excel文件)中导入一组数据，这些文件每天保存没有标识符的记录。然后将需要的数据存储在关系数据库(Oracle)中。

问题是文本可能与每个资源略有不同，因为没有唯一标识符，所以我需要以某种方式基于文本值进行比较。

让我们举个例子，假设我从不同的来源得到这个信息:

Source A: The Dark Knight
Source B: Batman The Dark Knight
Source C: The Dark Knight 2008
Source D: The Dark Knight Rises

如果数据库已经持有item_name为"黑暗骑士"的项目，那么当我从源A,B,C导入这些行时，我将得到一个"完全匹配"，但不是D，因为这是一个不同的电影。

要知道的事情:

我该如何解决这个问题，而不让数据库中每个项目都有大量的同义词?

如何导入和合并来自多个不同来源的相似(但不相等)文本

更新日期05/21/2013

我发现:http://matpalm.com/resemblance/

这是使用 jard系数。虽然我不确定这对我的情况是最好的，因为复杂性，匹配m x n次，其中m是导入记录的大小，n是总数据库记录，可能有数万长。