在逐行浏览某些文本时令人困惑的索引错误

本文关键字:错误 索引 浏览 逐行 文本 | 更新日期: 2023-09-27 18:31:29

我正在逐行阅读一些文本,我想标记单词并创建 1 克和 2 克,但我认为我的索引有问题,因为我要么收到索引错误,要么它会说我试图在我的字典中修改的项目不存在,这完全奇怪, 因为我编写的代码首先制作字典项,如果它已经存在,则增加计数器。基本上,我的字典的形式是(n-gram字符串,频率int)

   System.IO.StreamReader lines = new System.IO.StreamReader("myfile");
    while (true)
    {
        string line = lines.ReadLine().ToLower();
        if (line == null) break;
        if (line.Trim().Length == 0) continue;
        string[] tokens = Regex.Split(line, "[^''w']+");
        for (int i = 0; i < tokens.Count()-1; i++)
        {
            try
            {
                one_gram.Add(tokens[i], 1);
                two_gram.Add(tokens[i] + " " + tokens[i + 1], 1);
            }
            catch
            {
                one_gram[tokens[i]]++;
                two_gram[tokens[i] + " "+tokens[i + 1]]++;
            }
        }
    }

任何人都可以查看我的代码并告诉我我哪里出错了?问题似乎发生在第一行的 for 循环末尾,但如果我这样做

for(int i=0;i<tokens.Count()-3;i++)

然后错误发生在第二行...但我不确定究竟是什么原因造成的。

编辑:根据建议,我尝试使用ContainsKey方法,但是在第一行末尾附近仍然出现错误,说我正在添加一个已经存在的密钥,即使if语句应该捕获它?!

for (int i = 0; i < tokens.Count()-1; i++)
{
    if (one_gram.ContainsKey(tokens[i]))
    {
        one_gram[tokens[i]]++;
    }
    if (two_gram.ContainsKey(tokens[i] + " " + tokens[i + 1]))
    {
        two_gram[tokens[i] + " " + tokens[i + 1]]++;
    }
    one_gram.Add(tokens[i], 1);
    two_gram.Add(tokens[i] + " " + tokens[i + 1], 1);
}

在逐行浏览某些文本时令人困惑的索引错误

你需要使用else(或break):

for (int i = 0; i < tokens.Count() - 1; i++)
{
    // Save yourself typing errors by creating variables to hold 
    // the key values and then you can just use the variable name
    var oneGramKey = tokens[i];
    var twoGramKey = string.Format("{0} {1}", tokens[i], tokens[i + 1]);
    if (one_gram.ContainsKey(oneGramKey))
    {
        one_gram[oneGramKey]++;
    }
    else
    {
        one_gram.Add(oneGramKey, 1);
    }
    if (two_gram.ContainsKey(twoGramKey))
    {
        two_gram[twoGramKey]++;
    }
    else
    {
         two_gram.Add(twoGramKey, 1);
    }
}