使用OpenXML强大的工具将Docx转换为html，而无需格式化

本文关键字：html 格式化转换 Docx OpenXML 工具使用 | 更新日期: 2023-09-27 18:30:33

我在我的项目中使用OpenXml Power工具将文档（docx）转换为html，使用此 SDK 中已提供的代码，它会生成一个优雅的 HTML 形式副本。（Github链接：https://github.com/OfficeDev/Open-Xml-PowerTools/blob/vNext/OpenXmlPowerToolsExamples/HtmlConverter01/HtmlConverter01.cs）

但是，查看 html 标记，html 具有嵌入式样式。

有没有办法关闭它并使用简单明了的<h1>和<p>标签？

我想知道这种嵌入式样式，因为格式将由引导程序处理。

嵌入式样式如下：

 <p dir="ltr" style="font-family: Calibri;font-size: 11pt;line-height: 115.0%;margin-bottom: 0;margin-left: 0;margin-right: 0;margin-top: 0;">
 <span xml:space="preserve" style="font-size: 11pt;font-style: normal;font-weight: normal;margin: 0;padding: 0;"> </span>
 </p>

如您所见，如果您想要直接复制，这很好，但如果您想自己控制样式，则不然。

在C#代码中，我已经进行了以下调整：

附加Css被注释掉
FabricateCssClasses是假的
CssClassPrefix 被注释掉

非常感谢。

使用OpenXML强大的工具将Docx转换为html，而无需格式化

如果还可以XmlReader和XmlWriter来获取裸骨html。然而，这可能有点矫枉过正，因为只会保留标签本身及其文本内容。

public static class HtmlHelper
{
    /// <summary>
    /// Keep only the openning and closing tag, and text content from the html
    /// </summary>
    public static string CleanUp(string html)
    {
        var output = new StringBuilder();
        using (var reader = XmlReader.Create(new StringReader(html)))
        {
            var settings = new XmlWriterSettings() { Indent = true, OmitXmlDeclaration = true };
            using (var writer = XmlWriter.Create(output, settings))
            {
                while (reader.Read())
                {
                    switch (reader.NodeType)
                    {
                        case XmlNodeType.Element:
                            writer.WriteStartElement(reader.Name);
                            break;
                        case XmlNodeType.Text:
                            writer.WriteString(reader.Value);
                            break;
                        case XmlNodeType.EndElement:
                            writer.WriteFullEndElement();
                            break;
                    }
                }
            }
        }
        return output.ToString();
    }
}

结果输出：

<p>
  <span></span>
</p>

我已经用 Xiaoy312 的提示解决了这个问题......

有了下面，在使用上面的示例时，生成的 HTML 字符串可以加载到 HTML 敏捷包中，就像这样......

HtmlDocument htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(htmlString);

然后查找属性（样式和任何其他属性）将其删除。

var styles = htmlDoc.DocumentNode.SelectNodes("//@style");                    
if (styles != null)
{
foreach (var item in styles)
{
item.Attributes["style"].Remove();
}
}

，然后保存文件。

var fileName = Path.Combine(outputDirectory,"index.html");
htmlDoc.Save(new FileStream(fileName,FileMode.Create,FileAccess.ReadWrite));

还有其他方法可以做到这一点，但似乎是一个可以接受的解决方法。

编辑：

在对此处发布的两个答案进行一些实验后，我发现此实现效果最好，因为它没有图像问题。

 var body = htmlDoc.DocumentNode.SelectSingleNode("//body");
 var tags = body.SelectNodes("//*");
 if (tags != null)
 {
  foreach (var tag in tags){
      if (!tag.OuterHtml.Contains("img"))
      {
       tag.Attributes.RemoveAll();
      }
    }
  }

理论上，您也可以将其用于表格，但是根据您想要的样式，您始终可以去除电动工具生成的属性，并将属性替换为您自己的属性。