从Microsoft Word中提取指定信息

本文关键字:取指 信息 提取 Microsoft Word | 更新日期: 2023-09-27 18:07:50

假设我有一个word文档,其内容如下

Name: Blabla1
Address: Blablabla2
History Employment: Blablabla3
                    Blablabla4
                    Blablabla5

我的问题是如何以及用什么算法(如果存在的话)将这些信息提取到c#中的类中。

Class Employee {
    public string Name { get; set; }
    public string Address { get; set; }
    public IEnumerable<string> History = new IList<string>();
}

有什么建议吗?

var Employee = ExtractMethodFromDoc(docPath);

从Microsoft Word中提取指定信息

MS Word完全可脚本化,通过OLE自动化。

c#中没有用于此目的的泛型库。您可以使用第三方应用程序转换为另一种格式,如ASCII。

您也可以参考这个链接到PERL模块:

http://www.xav.com/perl/site/lib/Win32/OLE.html

您也可以参考此MSDN:

http://msdn.microsoft.com/en-us/library/cc974107%28office.12%29.aspx

您也可以使用下面的开放XML SDK 2.0代码链接:

http://www.microsoft.com/en-us/download/details.aspx?id=17985

可以使用Microsoft word dll。创建word DLL对象并加载数据