人工智能,文本分类器
本文关键字:分类器 文本 人工智能 | 更新日期: 2023-09-27 18:06:01
我是AI新手。我正在研究一个通过机器学习进行文本分类的应用程序。应用程序需要对HTML文档的不同部分进行分类。例如,大多数网页都有标题、菜单、侧边栏、页脚、主要内容等。我想使用文本分类器对HTML文档的这些部分进行分类,并识别页面上不同类型的表单。
- 如果有人能就这个问题提供详细的指导,那将是非常有帮助的。
- 类似应用的例子,也会很有帮助。
我正在寻找更多的技术建议,有关代码&实现。
我可以将标签分配给html标签属性,如class或id
<div class="menu-1">
<div id="entry">
<div id="content">
<div id="footer">
<div id="comment-12">
<div id="comment-title">
like for first item:
TrainClassifier(label: "Menu", value: "Menu -1", attribute: "class", position-in-string: "21%", tag: "div");
输入:
- "menu-1"(属性值) 列表项
- "class"(属性名)
- "21"(标签位置字符串)
- "div"(标签名)
- "菜单"(归类为标签)
什么神经网络库,可以接受上述输入,并将其分类到标签(即菜单)。
并非所有用户都能创建正则表达式或xpath,他们需要更简单的方法,因此重要的是,要使软件智能化,用户可以突出显示他/她需要的html文档的一部分,使用web浏览器控件,并训练软件,直到它可以自己工作。
但我不知道如何使用AI制作软件列车,
我正在寻找的AI是,像它应该能够接受各种输入,并在此基础上分类,因为我已经说过新的AI,不太了解它。
如果我得到我所问的问题的答案,比如我应该使用什么库,以及如何实现,答案建议Xpath或Regex或其他方法请不要回答,它经常发生,你得到所有的建议,但你需要的一个。
我建议你先看看更简单的算法,容易理解的,我可以给一些指针。
- 朴素贝叶斯(你会发现很多实现,但你可以自己做,算法很容易实现,但相当强大)
- 最大熵SharpMaxEnt -开源).
-
SVM(如。LibSVM for c# port).
如果您想体验一下这些是如何工作的,请下载WEKA工具包:
http://sourceforge.net/projects/weka/
通常遵循的步骤如下:
- 标识尽可能多的属性/特征(和一组标签)。
- 收集数据集{Label, Attribute1, A2, A3,…}
- 使用特征选择算法(也可在WEKA工具包中使用)选择最小的重要属性集
- 使用标准算法训练分类器
- 测试系统,直到您获得所需的准确性,召回率或其他参数。
祝你好运!
这是一个非常宽泛的话题。有一些c#的神经网络库,只要在Stack Overflow上搜索它们。
在进行任何类型的分类之前,您需要执行监督训练。为了让人工神经网络理解您向它输入的内容,您需要弄清楚如何解析HTML以获得您正在寻找的结果。
例如,大多数网站将使用CSS在浏览器上呈现内容。其他网站可能会使用表格。这两项你都需要训练。你的问题可不容易。
分类可以帮助您,如果您有必须为其分配标签的数据块。事实并非如此。您最好手动编写用于拆分文档的XPath规则。