如何处理从DocX和其他文件格式到特定XSD的文档转换
本文关键字:格式 XSD 转换 文档 文件 其他 何处理 处理 DocX | 更新日期: 2023-09-27 17:57:33
我们正在尝试将.docx以及后来的其他潜在文件格式转换为一种标准XML。这个XML将通过XSLT映射到我们选择的XML(xsd)。
为了使转换成功,我们需要在文档中保留尽可能多的信息元素。最重要的是文档中的结构、内容、表格、列表和图形(图像等)。
我们已经意识到,获得这份工作的文件是复杂的,我们可以支持的文件种类受到严重限制。
由于有不同的标准,为每个标准实现一个转换器将需要时间。
有人对文档转换为XML有一些经验吗?有关于如何进行的提示吗?
您正确地认为,从DOCX转换为任意XML格式可能是一项艰巨的任务。
我们想要的是转换.docx和其他潜在文件格式转换为标准XML,该标准XML可以通过XSLT转换为具有指定XSD的XML。
DOCX文件已经采用了称为Office Open XML(OOXML)的标准XML格式。有关简介,请参阅Office Open XML概述。
我们意识到这是一个复杂的领域。将会有对我们将支持的文件类型的限制,以及对我们来说,重要的是我们可以保持结构和内容。
鉴于OOXML是面向格式化的,这取决于您想要识别的"结构和内容",您可能需要解决一个非常具有挑战性的分类问题。要知道确切的目标格式,这个问题已经够难的了;在一般情况下回答是不可行的。一种有帮助的技术是基于模式的关键字、标题等匹配,以识别源文档中目标格式中更结构化的部分。