使用OpenXML强大的工具将Docx转换为html,而无需格式化
本文关键字:html 格式化 转换 Docx OpenXML 工具 使用 | 更新日期: 2023-09-27 18:30:33
我在我的项目中使用OpenXml Power工具将文档(docx)转换为html,使用此 SDK 中已提供的代码,它会生成一个优雅的 HTML 形式副本。(Github链接:https://github.com/OfficeDev/Open-Xml-PowerTools/blob/vNext/OpenXmlPowerToolsExamples/HtmlConverter01/HtmlConverter01.cs)
但是,查看 html 标记,html 具有嵌入式样式。
有没有办法关闭它并使用简单明了的<h1>
和<p>
标签?
我想知道这种嵌入式样式,因为格式将由引导程序处理。
嵌入式样式如下:
<p dir="ltr" style="font-family: Calibri;font-size: 11pt;line-height: 115.0%;margin-bottom: 0;margin-left: 0;margin-right: 0;margin-top: 0;">
<span xml:space="preserve" style="font-size: 11pt;font-style: normal;font-weight: normal;margin: 0;padding: 0;"> </span>
</p>
如您所见,如果您想要直接复制,这很好,但如果您想自己控制样式,则不然。
在C#代码中,我已经进行了以下调整:
- 附加Css被注释掉
- FabricateCssClasses是假的
- CssClassPrefix 被注释掉
非常感谢。
如果还可以XmlReader
和XmlWriter
来获取裸骨html。然而,这可能有点矫枉过正,因为只会保留标签本身及其文本内容。
public static class HtmlHelper
{
/// <summary>
/// Keep only the openning and closing tag, and text content from the html
/// </summary>
public static string CleanUp(string html)
{
var output = new StringBuilder();
using (var reader = XmlReader.Create(new StringReader(html)))
{
var settings = new XmlWriterSettings() { Indent = true, OmitXmlDeclaration = true };
using (var writer = XmlWriter.Create(output, settings))
{
while (reader.Read())
{
switch (reader.NodeType)
{
case XmlNodeType.Element:
writer.WriteStartElement(reader.Name);
break;
case XmlNodeType.Text:
writer.WriteString(reader.Value);
break;
case XmlNodeType.EndElement:
writer.WriteFullEndElement();
break;
}
}
}
}
return output.ToString();
}
}
结果输出:
<p>
<span></span>
</p>
我已经用 Xiaoy312 的提示解决了这个问题......
有了下面,在使用上面的示例时,生成的 HTML 字符串可以加载到 HTML 敏捷包中,就像这样......
HtmlDocument htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(htmlString);
然后查找属性(样式和任何其他属性)将其删除。
var styles = htmlDoc.DocumentNode.SelectNodes("//@style");
if (styles != null)
{
foreach (var item in styles)
{
item.Attributes["style"].Remove();
}
}
,然后保存文件。
var fileName = Path.Combine(outputDirectory,"index.html");
htmlDoc.Save(new FileStream(fileName,FileMode.Create,FileAccess.ReadWrite));
还有其他方法可以做到这一点,但似乎是一个可以接受的解决方法。
编辑:
在对此处发布的两个答案进行一些实验后,我发现此实现效果最好,因为它没有图像问题。
var body = htmlDoc.DocumentNode.SelectSingleNode("//body");
var tags = body.SelectNodes("//*");
if (tags != null)
{
foreach (var tag in tags){
if (!tag.OuterHtml.Contains("img"))
{
tag.Attributes.RemoveAll();
}
}
}
理论上,您也可以将其用于表格,但是根据您想要的样式,您始终可以去除电动工具生成的属性,并将属性替换为您自己的属性。