使用 C# 标记自定义文本文件格式文件

本文关键字:文件 文本 格式 自定义 使用 | 更新日期: 2023-09-27 17:55:56

我想解析一种语法有点古怪的基于文本的文件格式。以下是一些有效的示例行:

<region>sample=piano C3.wav key=48 ampeg_release=0.7 // a comment here
<region>key = 49 sample = piano Db3.wav
<region>
group=1
key = 48
    sample = piano D3.ogg

我认为想出一个有意义的正则表达式对我来说太复杂了,但我想知道是否有一种好方法可以在不编写自己的解析器的情况下标记这种类型的输入? 即我想要一些读取上述输入并吐出"令牌"流的东西, 例如,我的示例格式开始的输出如下所示:

new Region(), new Sample("piano C3.wav"), new Key("48"), new AmpegRelease("0.7"), new Region()

是否有一个好的库/教程可以为我指明正确的方向,以优雅的方式实现这一点?

更新:我用 Irony 尝试过这个,但我需要解析的语法的怪癖(特别是 sample= 后面的数据可以有一个空格的事实)导致他们建议我可能更好地编写我自己的代码基于 String.Split。请参阅此处的讨论。

使用 C# 标记自定义文本文件格式文件

对于这类东西,我会得到轻量级但强大的CoCo/R。如果您向我展示更多示例输入,我可能会想出一个语法起点。


我以前使用过 lex 和 yacc,所以我有一些解析经验。 – 马克·希思 17分钟前

好吧,你很幸运:我在Fedora的soundfont-utils包中找到了sfz的lex语法。该软件包包含 sfz2pat util。您可以在此处获取(源)包:

http://rpmfind.net//linux/RPM/fedora/14/i386/soundfont-utils-0.4-10.fc12.i686.html (来源.rpm)

根据快速调查,最新版本的语法是从2004年11月开始的,但相当复杂(sfz2pat.l中的58k)。这是一个品尝示例:

%option noyywrap
%option nounput
%option outfile = "sfz2pat.c"
nm  ([^'n]+".wav"|[^ 't'n'r]+|'"[^'"'n]+'")
ipn [A-Ga-g][#b]?([0-9]|"-1")
%s  K
%%
"//".*  ;
<K>"<group>"    {
    int i;
    leave_region();
    leave_group();
    if (!enter_group()) {
        SFZERR
        "Can't start group'n");
        return 1;
    }
    am_in_group_scope = TRUE;
    for (i = FIRST_SFZ_PARM; i < MAX_SFZ_PARM; i++) group_parm[i] = default_parm[i];
    for (i = 0; i < MAX_FLOAT_PARM; i++) group_flt_parm[i] = default_flt_parm[i];
    group_parm[REGION_IN_GROUP] = current_group;
    BEGIN(0);
}
<K>"<region>"   {
    int i;
    if (!am_in_group) {
        SFZERR
        "Can't start region outside group.'n");
        return 1;
    }
    leave_region();
    if (!enter_region()) {
        SFZERR
        "Can't start region'n");
        return 1;
    }
    am_in_group_scope = FALSE;
    for (i = 0; i < MAX_SFZ_PARM; i++) region_parm[i] = group_parm[i];
    for (i = 0; i < MAX_FLOAT_PARM; i++) region_flt_parm[i] = group_flt_parm[i];
    BEGIN(0);
}
<K>"sample="{nm} {
    int i = 7, j;
    unsigned namelen;
    if (yytext[i] == '"') {
        i++;
        for (j = i; j < yyleng && yytext[j] != '"'; j++) ;
    }
    else j = yyleng;
    namelen = (unsigned)(j - i + 1);
    sfzname = strncpy( (char *)malloc(namelen), yytext+i, (unsigned)(j-i) );
    sfzname[j-i] = ''0';
    for (i = 0; i < (int)namelen; i++) if (sfzname[i] == '''') sfzname[i] = '/';
    SFZDBG
    "Sample name is '"%s'"", sfzname);
    SFZNL
    if (read_sample(sfzname)) {
#ifndef LOADER
        fprintf(stderr, "'n");
#endif
        return 0;
    }
    BEGIN(0);
}
[...snip...]

假设语言相当规则,我建议使用 ANTLR 编写一个快速解析器。 对于具有解析经验的人来说,它有一个非常简单的学习曲线,它输出 C#(以及其他内容)。

我使用 Gardens Point LEX 和 Gardens Point Parser Generator 来生成解析器。它们工作得很好,特别是如果你有一些lex/yacc知识。

IMO,这两个是 .NET 的最佳解析器生成器。

一个好处:创建者对错误报告和建议的反应很快,如此处所示。