自动更正编码正则表达式模式

本文关键字:正则表达式 模式 编码 | 更新日期: 2023-09-27 18:08:15

我正在为字符串输入编码构建自动更正。我想建立一个正则表达式的编码模式。

例如:

var encoding = "utd-8";
Correct c = new Correct(encoding);
var c.Correct();

,输出为utf-8。我完成了大部分的工作(并且使用了一些开源代码,这些代码来自一些伟大的人,他们写了很多漂亮的东西)。有人能帮帮忙吗?

我最后需要的是正确编码的正则表达式模式。用户输入编码名称iso-8859-1,并检查其是否有效。

自动更正编码正则表达式模式

在找到解决问题的方法之前,你不应该决定使用哪种技术;正则表达式真的有必要吗?

如果我正确理解你的问题,你想检查输入字符串是否看起来很像支持的编码之一。在编写一行代码之前,您必须弄清楚:

  • 你支持哪些编码?您是否支持别名(UTF-16Unicode相同)?
  • 输入字符串允许与选择的编码(utd-8, utd-9, utd9, td9, 9)有多少不同?
  • 给定输入字符串"utf-36",输出是UTF-16还是UTF-32 ?

也许你可以看看其中一个字符串距离算法(例如,http://en.wikipedia.org/wiki/Levenshtein_distance)来获得关于这个主题的灵感。在"see also"部分有很多链接