代码diff使用Roslyn CTP API

本文关键字：CTP API Roslyn 使用 diff 代码 | 更新日期: 2023-09-27 18:16:10

我正试图用Roslyn API做一些基本的代码差异，我遇到了一些意想不到的问题。实际上，我有两段相同的代码，只是增加了一行。这应该只返回更改后的文本行，但由于某种原因，它告诉我一切都改变了。我也试过只编辑一行而不是添加一行，但我得到了同样的结果。我希望能够将此应用于源文件的两个版本，以确定两者之间的差异。下面是我目前使用的代码:

        SyntaxTree tree = SyntaxTree.ParseCompilationUnit(
            @"using System;
            using System.Collections.Generic;
            using System.Linq;
            using System.Text;
            namespace HelloWorld
            {
                class Program
                {
                    static void Main(string[] args)
                    {
                        Console.WriteLine(""Hello, World!"");
                    }
                }
            }");
        var root = (CompilationUnitSyntax)tree.Root;
        var compilation = Compilation.Create("HelloWorld")
                                     .AddReferences(
                                        new AssemblyFileReference(
                                            typeof(object).Assembly.Location))
                                     .AddSyntaxTrees(tree);
        var model = compilation.GetSemanticModel(tree);
        var nameInfo = model.GetSemanticInfo(root.Usings[0].Name);
        var systemSymbol = (NamespaceSymbol)nameInfo.Symbol;
        SyntaxTree tree2 = SyntaxTree.ParseCompilationUnit(
            @"using System;
            using System.Collections.Generic;
            using System.Linq;
            using System.Text;
            namespace HelloWorld
            {
                class Program
                {
                    static void Main(string[] args)
                    {
                        Console.WriteLine(""Hello, World!"");
                        Console.WriteLine(""jjfjjf"");
                    }
                }
            }");
        var root2 = (CompilationUnitSyntax)tree2.Root;
        var compilation2 = Compilation.Create("HelloWorld")
                                     .AddReferences(
                                        new AssemblyFileReference(
                                            typeof(object).Assembly.Location))
                                     .AddSyntaxTrees(tree2);
        var model2 = compilation2.GetSemanticModel(tree2);
        var nameInfo2 = model2.GetSemanticInfo(root2.Usings[0].Name);
        var systemSymbol2 = (NamespaceSymbol)nameInfo2.Symbol;
        foreach (TextSpan t in tree2.GetChangedSpans(tree))
        {
            Console.WriteLine(tree2.Text.GetText(t));
        }

下面是我得到的输出:

System
                using System
Collections
Generic
                using System
Linq
                using System
Text
                namespace HelloWorld
                {
                    class Program
                    {
                        static
Main
args
                        {
                            Console
WriteLine
"Hello, World!"
                            Console.WriteLine("jjfjjf");
                        }
                    }
                }
Press any key to continue . . .

有趣的是，它似乎将每行显示为每一行的标记，除了添加的行，它显示该行而不将其分开。有人知道如何隔离实际的更改吗?

代码diff使用Roslyn CTP API

Bruce Boughton的猜测是正确的。getchangedspan方法并不是一种通用的语法区分机制，用来区分两个没有共享历史的语法树之间的差异。更确切地说，它的目的是将两棵由编辑产生的树与一棵公共树结合，并确定树的哪些部分由于编辑而不同。

如果您使用第一个解析树并将新语句作为编辑插入其中，那么您将看到更小的更改集。

如果我简要地描述一下Roslyn词法分析器和解析器是如何在高层次上工作的，可能会有所帮助。基本思想是词法分析器生成的"语法令牌"和解析器生成的"语法树"是不可变的。它们永远不会改变。因为它们永远不会改变，所以我们可以在新的解析树中重用以前解析树的部分。(具有此属性的数据结构通常被称为"持久"数据结构。)

因为我们可以重用现有的部分，例如，我们可以对程序中出现的给定令牌(例如class)的每个实例使用相同的值。每个class令牌的长度和内容完全相同;区分两个不同的class标记的唯一东西是它们的细节(它们周围的空格和注释)和它们的位置，以及它们的父节点——哪个更大的语法节点包含该标记。

当你解析一个文本块时，我们以一种持久的、不可变的形式生成语法标记和语法树，我们称之为"绿色"形式。然后我们将绿色节点包裹在"红色"层中。绿色层不知道位置、父节点等等。红色层有。(这些异想天开的名字是因为当我们第一次在白板上绘制这个数据结构时，我们使用的是这些颜色。)当您创建对给定语法树的编辑时，我们查看前面的语法树，识别更改的节点，然后仅在更改的主干上构建新节点。这棵绿树的所有其他树枝都保持不变。

当区分两棵树时，我们所做的基本上是取绿色节点的集合差。如果其中一棵树是通过编辑另一棵树生成的，那么几乎所有的绿色节点都将是相同的，因为只有脊柱被重建。树差分算法将识别变化的节点并计算出受影响的跨度。

如果这两棵树没有共同的历史，那么它们共同拥有的唯一绿色节点就是单个令牌，正如我之前所说，这些令牌在任何地方都被重用。每个更高级别的绿色语法节点将是一个不同的绿色节点，因此被树差分引擎视为不同的，即使它的文本是相同的。

该方法的目的是允许编辑器代码快速保守地猜测文本缓冲区的哪些部分需要重新着色，例如，在编辑或撤消之后，或诸如此类的事情。假设这些树有历史关系。其目的不是提供一种通用的文本差异机制;已经有很多很棒的工具可以做到这一点。

假设，例如，您已经将第一个程序粘贴到编辑器中，然后高亮显示整个程序，然后将第二个程序粘贴到编辑器中。人们可以合理地期望编辑器不会浪费时间试图找出粘贴代码的哪些部分恰好与先前粘贴的代码相同。这可能会非常昂贵，而答案很可能是"不多"。相反，编辑器会保守地假设整个粘贴区域是全新的、完全不同的代码。它不会花任何时间在旧代码和新代码之间建立对应关系;它回应了，因此整个事物重新上色。

另一方面，如果您刚刚粘贴了一条不同的语句，那么编辑引擎将简单地将编辑插入到正确的位置。解析树将重新生成，在可能的地方重用现有的绿色节点，并且差值引擎将识别需要重新着色的跨度:具有不同绿色节点的那些。

这些都说得通吗?

更新:

哈，显然凯文和我在相邻的办公室同时打出了相同的答案。有点重复的努力，但我认为两个答案都对形势有很好的看法。: -)

@bruceboughton是正确的，GetChangedSpans旨在发现增量解析器所做的更改。使用如下代码，我可以得到更好的输出:

        var code = 
        @"using System; 
        using System.Collections.Generic; 
        using System.Linq; 
        using System.Text; 
        namespace HelloWorld 
        { 
            class Program 
            { 
                static void Main(string[] args) 
                { 
                    Console.WriteLine(""Hello, World!""); 
                } 
            } 
        }";
        var text = new StringText(code);
        SyntaxTree tree = SyntaxTree.ParseCompilationUnit(text);
        var index = code.IndexOf("}");
        var added = @"    Console.WriteLine(""jjfjjf""); 
                      ";
        var code2 = code.Substring(0, index) + 
                    added +
                    code.Substring(index);
        var text2 = new StringText(code2);
        var tree2 = tree.WithChange(text2, new [] { new TextChangeRange(new TextSpan(index, 0), added.Length) } );
        foreach (var span in tree2.GetChangedSpans(tree))
        {
            Console.WriteLine(text2.GetText(span));
        }

然而，一般来说，getchangedspan意味着一个相当快但保守的diff。为了更好地控制diff和更准确的结果，您可能希望实现您自己的树差分算法，您可以调优以满足您的需求。

在上面的代码中，如果你使用的是VS，编辑器已经内置了变更报告和文本差异，这将允许你轻松地构建TextChangeRange对象，但如果你想要能够将更改传递给增量解析器，你可能仍然需要至少一个文本差异算法。

我猜GetChangedSpans的目的是比较树和由原始树的更改创建的树之间的更改，而不是在两个任意树之间。