Urlmon.dll中的FindMimeFromData方法的替代方案,它具有更多的MIME类型

本文关键字:类型 MIME 方案 中的 dll FindMimeFromData 方法 Urlmon | 更新日期: 2023-09-27 18:02:55

通过Windows DLL Urlmon.dll访问的FindMimeFromData方法能够确定存储在内存中的给定数据的MIME类型,考虑到字节数组的前256个字节,这些数据存储在哪里。

然而,在阅读了它的文档之后,我被引导到Windows Internet Explorer中的MIME类型检测,在那里我可以找到这种方法能够识别的MIME类型。看到列表。如您所见,此方法仅限于26种MIME类型。

所以我想知道是否有人可以指给我另一个方法与更多的MIME类型,或者另一个方法/类,我将能够包括我认为合适的MIME类型。

Urlmon.dll中的FindMimeFromData方法的替代方案,它具有更多的MIME类型

更新:@GetoX已经将这段代码包装在。net core的NuGet包中!请看下面,干杯!!

所以我想知道是否有人可以指给我另一个方法更多的MIME类型,或者另一个方法/类能够包含我认为合适的MIME类型。

我使用Winista和URLMon的混合来检测上传文件的真实格式。

Winista MIME检测

如果有人用jpg扩展名重命名一个exe,你仍然可以确定"真实";文件格式使用二进制分析。它不检测swf或flv的,但几乎所有其他众所周知的格式+你可以得到一个十六进制编辑器,并添加更多的文件,它可以检测。

文件魔法

Winista使用XML文件" MIME -type. XML "检测真正的MIME类型。包含有关文件类型和用于标识内容类型的签名的信息。例如:

<!--
 !   Audio primary type
 ! -->
<mime-type name="audio/basic"
           description="uLaw/AU Audio File">
    <ext>au</ext><ext>snd</ext>
    <magic offset="0" type="byte" value="2e736e64000000"/>
</mime-type>
<mime-type name="audio/midi"
           description="Musical Instrument Digital Interface MIDI-sequention Sound">
    <ext>mid</ext><ext>midi</ext><ext>kar</ext>
    <magic offset="0" value="MThd"/>
</mime-type>
<mime-type name="audio/mpeg"
           description="MPEG Audio Stream, Layer III">
    <ext>mp3</ext><ext>mp2</ext><ext>mpga</ext>
    <magic offset="0" value="ID3"/>
</mime-type>

当Winista无法检测到真正的文件格式时,我又回到了URLMon方法:

public class urlmonMimeDetect
{
    [DllImport(@"urlmon.dll", CharSet = CharSet.Auto)]
    private extern static System.UInt32 FindMimeFromData(
        System.UInt32 pBC,
        [MarshalAs(UnmanagedType.LPStr)] System.String pwzUrl,
        [MarshalAs(UnmanagedType.LPArray)] byte[] pBuffer,
        System.UInt32 cbSize,
        [MarshalAs(UnmanagedType.LPStr)] System.String pwzMimeProposed,
        System.UInt32 dwMimeFlags,
        out System.UInt32 ppwzMimeOut,
        System.UInt32 dwReserverd
    );
public string GetMimeFromFile(string filename)
{
    if (!File.Exists(filename))
        throw new FileNotFoundException(filename + " not found");
    byte[] buffer = new byte[256];
    using (FileStream fs = new FileStream(filename, FileMode.Open, FileAccess.Read))
    {
        if (fs.Length >= 256)
            fs.Read(buffer, 0, 256);
        else
            fs.Read(buffer, 0, (int)fs.Length);
    }
    try
    {
        System.UInt32 mimetype;
        FindMimeFromData(0, null, buffer, 256, null, 0, out mimetype, 0);
        System.IntPtr mimeTypePtr = new IntPtr(mimetype);
        string mime = Marshal.PtrToStringUni(mimeTypePtr);
        Marshal.FreeCoTaskMem(mimeTypePtr);
        return mime;
    }
    catch (Exception e)
    {
        return "unknown/unknown";
    }
}
}

从Winista方法内部,我回到这里的URLMon:

   public MimeType GetMimeTypeFromFile(string filePath)
    {
        sbyte[] fileData = null;
        using (FileStream srcFile = new FileStream(filePath, FileMode.Open, FileAccess.Read))
        {
            byte[] data = new byte[srcFile.Length];
            srcFile.Read(data, 0, (Int32)srcFile.Length);
            fileData = Winista.Mime.SupportUtil.ToSByteArray(data);
        }
        MimeType oMimeType = GetMimeType(fileData);
        if (oMimeType != null) return oMimeType;
        //We haven't found the file using Magic (eg a text/plain file)
        //so instead use URLMon to try and get the files format
        Winista.MimeDetect.URLMONMimeDetect.urlmonMimeDetect urlmonMimeDetect = new Winista.MimeDetect.URLMONMimeDetect.urlmonMimeDetect();
        string urlmonMimeType = urlmonMimeDetect.GetMimeFromFile(filePath);
        if (!string.IsNullOrEmpty(urlmonMimeType))
        {
            foreach (MimeType mimeType in types)
            {
                if (mimeType.Name == urlmonMimeType)
                {
                    return mimeType;
                }
            }
        }
        return oMimeType;
    }

Wayback Machine从netomatix链接到Winista实用程序。据我所知,他们在开源的Nutch爬虫系统中发现了一些"mime阅读器实用程序类"。他们在2000年初重写了c#。

我已经使用Winista和URLMon在这里托管了我的MimeDetect项目(请使用十六进制编辑器贡献新的文件类型):https://github.com/MeaningOfLights/MimeDetect

你也可以使用注册表方法或。net 4.5方法,在Paul Zahra链接的这篇文章中提到,但我认为Winista是最好的。

享受知道你的系统上的文件他们声称是和没有加载恶意软件!


更新:

对于桌面应用程序,您可能会发现WindowsAPICodePack工作得更好:

using Microsoft.WindowsAPICodePack.Shell;
using Microsoft.WindowsAPICodePack.Shell.PropertySystem;
private static string GetFilePropertyItemTypeTextValueFromShellFile(string filePathWithExtension)
{
   var shellFile = ShellFile.FromFilePath(filePathWithExtension);
   var prop = shellFile.Properties.GetProperty(PItemTypeTextCanonical);
   return prop.FormatForDisplay(PropertyDescriptionFormatOptions.None);
}

经过几个小时的寻找弹性解决方案。我采用了@JeremyThompson解决方案,将其改编为framework .net core/.net 4.5,并将其放入nuget包中。

   //init
   var mimeTypes = new MimeTypes();
   //usage by filepath
   var mimeType1 = mimeTypes.GetMimeTypeFromFile(filePath);
   //usage by bytearray
   var mimeType2 = mimeTypes.GetMimeTypeFromFile(bytes);

在这篇文章中有多种可能的解决方案,至少会给你一些思考的食物。

似乎唯一真正的方法是读取它的二进制,然后做一个比较,是否MIME类型声明硬编码以某种方式或你依赖于机器自己的可用MIME类型/注册表

刚刚找到文件签名。它实际上是一个很好的替代方案,在针对linux的应用程序上也运行得很好。

<<h2>上下文/h2>

Urlmon.dll不适合Linux -因此不能用于多平台应用程序。我在微软文档中找到了这篇文章。它引用了一个文件签名数据库,这是一个非常好的文件类型参考(我写这篇文章的时候有518个)。

再深入一点,我发现了这个非常好的项目:FileSignatures nuget。它还具有很强的可扩展性,因此,例如,您可以从filesignatures.net获取所需的所有类型,并创建自己的类型模型。

使用

可以检查任何已定义的类型

var format = inspector.DetermineFileFormat(stream);
if(format is Pdf) {
  // Just matches Pdf
}
if(format is OfficeOpenXml) {
  // Matches Word, Excel, Powerpoint
}
if(format is Image) {
  // Matches any image format
}

或使用它带来的一些元数据,基于匹配的文件类型

var fileFormat = _fileFormatInspector.DetermineFileFormat(stream);
var mime = fileFormat?.MediaType;

可扩展性

您可以定义任意数量的从FileFormat继承的类型,并配置FileFormatLocator以在需要时加载它们

var assembly = typeof(CustomFileFormat).GetTypeInfo().Assembly;
// Just the formats defined in the assembly containing CustomFileFormat
var customFormats = FileFormatLocator.GetFormats(assembly);
// Formats defined in the assembly and all the defaults
var allFormats = FileFormatLocator.GetFormats(assembly, true);

项目Github