使用点网或Java分析Word文档的内容
本文关键字:文档 Word 分析 Java | 更新日期: 2023-09-27 17:58:19
nbsp nbsp nbsp;我希望有人能帮我分析MS Word。基本上,我需要解析Word文档的内容,并使用结果值来形成映射。事实上,Word会有这样的内容:
Key1: Value1
Key2: Value2
KeyKey1: Key11: Value11
Key12: Value12
KeyKey2:
Key21: Value21
Key22: Value22
nbsp nbsp nbsp;文档将有表或键值对(也有键值)。我们需要识别或区分关键&keykey,并且需要解析文档并将其插入到映射中。目前,我正在研究手动解析,这看起来像是对值进行了太多的硬编码。例如,如何区分key1和key1以及key1和Key2。
nbsp nbsp nbsp;请提出一些解析word文档或库内容的方法,以便用C#或Java进行解析
任何帮助都将不胜感激。提前谢谢。
您需要查看文档的内容吗?为此,您可以将Apache POI与Java结合使用。我们在应用程序中使用它没有任何问题。我们读写Word和Excel文档。文档非常完整,API也非常简单。
目前最好的库是Apache tika。它支持多种文档类型,只需要编写几行代码。你可以阅读这篇文章http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika如果忽略solr相关的代码,那么提取pdf内容只需要5-6行代码。
您可以查看Java API For Microsoft文档,以便在Java中解析word文档。