在逐行浏览某些文本时令人困惑的索引错误
本文关键字:错误 索引 浏览 逐行 文本 | 更新日期: 2023-09-27 18:31:29
我正在逐行阅读一些文本,我想标记单词并创建 1 克和 2 克,但我认为我的索引有问题,因为我要么收到索引错误,要么它会说我试图在我的字典中修改的项目不存在,这完全奇怪, 因为我编写的代码首先制作字典项,如果它已经存在,则增加计数器。基本上,我的字典的形式是(n-gram字符串,频率int)
System.IO.StreamReader lines = new System.IO.StreamReader("myfile");
while (true)
{
string line = lines.ReadLine().ToLower();
if (line == null) break;
if (line.Trim().Length == 0) continue;
string[] tokens = Regex.Split(line, "[^''w']+");
for (int i = 0; i < tokens.Count()-1; i++)
{
try
{
one_gram.Add(tokens[i], 1);
two_gram.Add(tokens[i] + " " + tokens[i + 1], 1);
}
catch
{
one_gram[tokens[i]]++;
two_gram[tokens[i] + " "+tokens[i + 1]]++;
}
}
}
任何人都可以查看我的代码并告诉我我哪里出错了?问题似乎发生在第一行的 for 循环末尾,但如果我这样做
for(int i=0;i<tokens.Count()-3;i++)
然后错误发生在第二行...但我不确定究竟是什么原因造成的。
编辑:根据建议,我尝试使用ContainsKey方法,但是在第一行末尾附近仍然出现错误,说我正在添加一个已经存在的密钥,即使if语句应该捕获它?!
for (int i = 0; i < tokens.Count()-1; i++)
{
if (one_gram.ContainsKey(tokens[i]))
{
one_gram[tokens[i]]++;
}
if (two_gram.ContainsKey(tokens[i] + " " + tokens[i + 1]))
{
two_gram[tokens[i] + " " + tokens[i + 1]]++;
}
one_gram.Add(tokens[i], 1);
two_gram.Add(tokens[i] + " " + tokens[i + 1], 1);
}
你需要使用else
(或break
):
for (int i = 0; i < tokens.Count() - 1; i++)
{
// Save yourself typing errors by creating variables to hold
// the key values and then you can just use the variable name
var oneGramKey = tokens[i];
var twoGramKey = string.Format("{0} {1}", tokens[i], tokens[i + 1]);
if (one_gram.ContainsKey(oneGramKey))
{
one_gram[oneGramKey]++;
}
else
{
one_gram.Add(oneGramKey, 1);
}
if (two_gram.ContainsKey(twoGramKey))
{
two_gram[twoGramKey]++;
}
else
{
two_gram.Add(twoGramKey, 1);
}
}