阿拉伯文本文件搜索和索引

本文关键字:索引 搜索 文件 文本 阿拉伯 | 更新日期: 2023-09-27 18:01:58

我正在做一个电子图书馆(阿拉伯语图书)的项目。允许用户将自己的图书导入系统库并对其库进行搜索的程序。系统交付给用户一个基本的库(一组图书),用户可以稍后更新。

为了处理搜索问题,我认为系统应该在DB中有一个用于基本搜索关键字的初始表。每个搜索关键词都指向图书馆中对应的位置。

当用户将一本新书导入图书馆时出现问题。有两个步骤。第一个是针对新书搜索系统中已经存在的关键字,以查找是否有关键字出现在书中,并将其位置添加到系统中。第二点,也是最主要的障碍,是在新书中识别新的搜索关键词。

我的想法,我认为是相当糟糕和幼稚的,是将新书分解成token,然后根据图书馆中以前找到的所有书搜索每个token。

总之,如果有任何帮助(工具,库或DB选项)或想法来解决第二个问题或整个系统的另一个想法,我很感激。真的试着阅读和搜索了很多解决方案,但是徒劳无功。

谢谢,

阿拉伯文本文件搜索和索引

您需要Lucene.net。您需要使用阿拉伯语分析器。

http://www.ibm.com/developerworks/java/library/os-apache-lucenesearch/index.html