自动更正编码正则表达式模式
本文关键字:正则表达式 模式 编码 | 更新日期: 2023-09-27 18:08:15
我正在为字符串输入编码构建自动更正。我想建立一个正则表达式的编码模式。
例如:var encoding = "utd-8";
Correct c = new Correct(encoding);
var c.Correct();
,输出为utf-8
。我完成了大部分的工作(并且使用了一些开源代码,这些代码来自一些伟大的人,他们写了很多漂亮的东西)。有人能帮帮忙吗?
我最后需要的是正确编码的正则表达式模式。用户输入编码名称iso-8859-1
,并检查其是否有效。
在找到解决问题的方法之前,你不应该决定使用哪种技术;正则表达式真的有必要吗?
如果我正确理解你的问题,你想检查输入字符串是否看起来很像支持的编码之一。在编写一行代码之前,您必须弄清楚:
- 你支持哪些编码?您是否支持别名(
UTF-16
与Unicode
相同)? - 输入字符串允许与选择的编码(utd-8, utd-9, utd9, td9, 9)有多少不同?
- 给定输入字符串"utf-36",输出是
UTF-16
还是UTF-32
?
也许你可以看看其中一个字符串距离算法(例如,http://en.wikipedia.org/wiki/Levenshtein_distance)来获得关于这个主题的灵感。在"see also"部分有很多链接