';代币化';处理文本文件时的文本部分
本文关键字:文件 文本部 处理 文本 | 更新日期: 2023-09-27 18:24:41
我正在做一个业余项目,将现有的标记库移植到C#/.NET类库中。如果你熟悉Markdown,它也是一个类似的概念。
我早期的一个问题是,有一种语法可以标记文本的一部分,以阻止它被任何其他语法规则处理,我希望得到一些建议。
我想到的一种方法是首先搜索这些部分,删除它们并用某种有意义的标记替换它们,运行其余的处理规则,然后作为最后一步,用它们所代表的文本替换标记。
这对其他人来说最有意义吗?此外,您将如何生成令牌,从而避免意外创建与现有文本匹配的令牌的可能性?
感谢任何帮助/建议!
pt
为什么不使用合适的解析器生成器来创建标记化器?
你可能会在几个小时内与ANTLR合作。