人工智能，文本分类器

本文关键字：分类器文本人工智能 | 更新日期: 2023-09-27 18:06:01

我是AI新手。我正在研究一个通过机器学习进行文本分类的应用程序。应用程序需要对HTML文档的不同部分进行分类。例如，大多数网页都有标题、菜单、侧边栏、页脚、主要内容等。我想使用文本分类器对HTML文档的这些部分进行分类，并识别页面上不同类型的表单。

我正在寻找更多的技术建议，有关代码&实现。

我可以将标签分配给html标签属性，如class或id

<div class="menu-1">
<div id="entry">
<div id="content">
<div id="footer">
<div id="comment-12">
<div id="comment-title">

like for first item:

TrainClassifier(label: "Menu"， value: "Menu -1"， attribute: "class"， position-in-string: "21%"， tag: "div");

输入:

什么神经网络库，可以接受上述输入，并将其分类到标签(即菜单)。

并非所有用户都能创建正则表达式或xpath，他们需要更简单的方法，因此重要的是，要使软件智能化，用户可以突出显示他/她需要的html文档的一部分，使用web浏览器控件，并训练软件，直到它可以自己工作。

但我不知道如何使用AI制作软件列车，

我正在寻找的AI是，像它应该能够接受各种输入，并在此基础上分类，因为我已经说过新的AI，不太了解它。

如果我得到我所问的问题的答案，比如我应该使用什么库，以及如何实现，答案建议Xpath或Regex或其他方法请不要回答，它经常发生，你得到所有的建议，但你需要的一个。

人工智能，文本分类器

我建议你先看看更简单的算法，容易理解的，我可以给一些指针。

这是一个非常宽泛的话题。有一些c#的神经网络库，只要在Stack Overflow上搜索它们。

在进行任何类型的分类之前，您需要执行监督训练。为了让人工神经网络理解您向它输入的内容，您需要弄清楚如何解析HTML以获得您正在寻找的结果。

例如，大多数网站将使用CSS在浏览器上呈现内容。其他网站可能会使用表格。这两项你都需要训练。

你的问题可不容易。

分类可以帮助您，如果您有必须为其分配标签的数据块。事实并非如此。您最好手动编写用于拆分文档的XPath规则。