Urlmon.dll中的FindMimeFromData方法的替代方案,它具有更多的MIME类型
本文关键字:类型 MIME 方案 中的 dll FindMimeFromData 方法 Urlmon | 更新日期: 2023-09-27 18:02:55
通过Windows DLL Urlmon.dll
访问的FindMimeFromData方法能够确定存储在内存中的给定数据的MIME类型,考虑到字节数组的前256个字节,这些数据存储在哪里。
然而,在阅读了它的文档之后,我被引导到Windows Internet Explorer中的MIME类型检测,在那里我可以找到这种方法能够识别的MIME类型。看到列表。如您所见,此方法仅限于26种MIME类型。
所以我想知道是否有人可以指给我另一个方法与更多的MIME类型,或者另一个方法/类,我将能够包括我认为合适的MIME类型。
更新:@GetoX已经将这段代码包装在。net core的NuGet包中!请看下面,干杯!!
所以我想知道是否有人可以指给我另一个方法更多的MIME类型,或者另一个方法/类能够包含我认为合适的MIME类型。
我使用Winista和URLMon的混合来检测上传文件的真实格式。
Winista MIME检测
如果有人用jpg扩展名重命名一个exe,你仍然可以确定"真实";文件格式使用二进制分析。它不检测swf或flv的,但几乎所有其他众所周知的格式+你可以得到一个十六进制编辑器,并添加更多的文件,它可以检测。
文件魔法
Winista使用XML文件" MIME -type. XML "检测真正的MIME类型。包含有关文件类型和用于标识内容类型的签名的信息。例如:
<!--
! Audio primary type
! -->
<mime-type name="audio/basic"
description="uLaw/AU Audio File">
<ext>au</ext><ext>snd</ext>
<magic offset="0" type="byte" value="2e736e64000000"/>
</mime-type>
<mime-type name="audio/midi"
description="Musical Instrument Digital Interface MIDI-sequention Sound">
<ext>mid</ext><ext>midi</ext><ext>kar</ext>
<magic offset="0" value="MThd"/>
</mime-type>
<mime-type name="audio/mpeg"
description="MPEG Audio Stream, Layer III">
<ext>mp3</ext><ext>mp2</ext><ext>mpga</ext>
<magic offset="0" value="ID3"/>
</mime-type>
当Winista无法检测到真正的文件格式时,我又回到了URLMon方法:
public class urlmonMimeDetect
{
[DllImport(@"urlmon.dll", CharSet = CharSet.Auto)]
private extern static System.UInt32 FindMimeFromData(
System.UInt32 pBC,
[MarshalAs(UnmanagedType.LPStr)] System.String pwzUrl,
[MarshalAs(UnmanagedType.LPArray)] byte[] pBuffer,
System.UInt32 cbSize,
[MarshalAs(UnmanagedType.LPStr)] System.String pwzMimeProposed,
System.UInt32 dwMimeFlags,
out System.UInt32 ppwzMimeOut,
System.UInt32 dwReserverd
);
public string GetMimeFromFile(string filename)
{
if (!File.Exists(filename))
throw new FileNotFoundException(filename + " not found");
byte[] buffer = new byte[256];
using (FileStream fs = new FileStream(filename, FileMode.Open, FileAccess.Read))
{
if (fs.Length >= 256)
fs.Read(buffer, 0, 256);
else
fs.Read(buffer, 0, (int)fs.Length);
}
try
{
System.UInt32 mimetype;
FindMimeFromData(0, null, buffer, 256, null, 0, out mimetype, 0);
System.IntPtr mimeTypePtr = new IntPtr(mimetype);
string mime = Marshal.PtrToStringUni(mimeTypePtr);
Marshal.FreeCoTaskMem(mimeTypePtr);
return mime;
}
catch (Exception e)
{
return "unknown/unknown";
}
}
}
从Winista方法内部,我回到这里的URLMon:
public MimeType GetMimeTypeFromFile(string filePath)
{
sbyte[] fileData = null;
using (FileStream srcFile = new FileStream(filePath, FileMode.Open, FileAccess.Read))
{
byte[] data = new byte[srcFile.Length];
srcFile.Read(data, 0, (Int32)srcFile.Length);
fileData = Winista.Mime.SupportUtil.ToSByteArray(data);
}
MimeType oMimeType = GetMimeType(fileData);
if (oMimeType != null) return oMimeType;
//We haven't found the file using Magic (eg a text/plain file)
//so instead use URLMon to try and get the files format
Winista.MimeDetect.URLMONMimeDetect.urlmonMimeDetect urlmonMimeDetect = new Winista.MimeDetect.URLMONMimeDetect.urlmonMimeDetect();
string urlmonMimeType = urlmonMimeDetect.GetMimeFromFile(filePath);
if (!string.IsNullOrEmpty(urlmonMimeType))
{
foreach (MimeType mimeType in types)
{
if (mimeType.Name == urlmonMimeType)
{
return mimeType;
}
}
}
return oMimeType;
}
Wayback Machine从netomatix链接到Winista实用程序。据我所知,他们在开源的Nutch爬虫系统中发现了一些"mime阅读器实用程序类"。他们在2000年初重写了c#。
我已经使用Winista和URLMon在这里托管了我的MimeDetect项目(请使用十六进制编辑器贡献新的文件类型):https://github.com/MeaningOfLights/MimeDetect
你也可以使用注册表方法或。net 4.5方法,在Paul Zahra链接的这篇文章中提到,但我认为Winista是最好的。
享受知道你的系统上的文件是他们声称是和没有加载恶意软件!
更新:
对于桌面应用程序,您可能会发现WindowsAPICodePack工作得更好:
using Microsoft.WindowsAPICodePack.Shell;
using Microsoft.WindowsAPICodePack.Shell.PropertySystem;
private static string GetFilePropertyItemTypeTextValueFromShellFile(string filePathWithExtension)
{
var shellFile = ShellFile.FromFilePath(filePathWithExtension);
var prop = shellFile.Properties.GetProperty(PItemTypeTextCanonical);
return prop.FormatForDisplay(PropertyDescriptionFormatOptions.None);
}
经过几个小时的寻找弹性解决方案。我采用了@JeremyThompson解决方案,将其改编为framework .net core/.net 4.5,并将其放入nuget包中。
//init
var mimeTypes = new MimeTypes();
//usage by filepath
var mimeType1 = mimeTypes.GetMimeTypeFromFile(filePath);
//usage by bytearray
var mimeType2 = mimeTypes.GetMimeTypeFromFile(bytes);
在这篇文章中有多种可能的解决方案,至少会给你一些思考的食物。
似乎唯一真正的方法是读取它的二进制,然后做一个比较,是否MIME类型声明硬编码以某种方式或你依赖于机器自己的可用MIME类型/注册表
刚刚找到文件签名。它实际上是一个很好的替代方案,在针对linux的应用程序上也运行得很好。
<<h2>上下文/h2> Urlmon.dll
不适合Linux -因此不能用于多平台应用程序。我在微软文档中找到了这篇文章。它引用了一个文件签名数据库,这是一个非常好的文件类型参考(我写这篇文章的时候有518个)。
再深入一点,我发现了这个非常好的项目:FileSignatures nuget。它还具有很强的可扩展性,因此,例如,您可以从filesignatures.net获取所需的所有类型,并创建自己的类型模型。
使用可以检查任何已定义的类型
var format = inspector.DetermineFileFormat(stream);
if(format is Pdf) {
// Just matches Pdf
}
if(format is OfficeOpenXml) {
// Matches Word, Excel, Powerpoint
}
if(format is Image) {
// Matches any image format
}
或使用它带来的一些元数据,基于匹配的文件类型
var fileFormat = _fileFormatInspector.DetermineFileFormat(stream);
var mime = fileFormat?.MediaType;
可扩展性您可以定义任意数量的从FileFormat
继承的类型,并配置FileFormatLocator
以在需要时加载它们
var assembly = typeof(CustomFileFormat).GetTypeInfo().Assembly;
// Just the formats defined in the assembly containing CustomFileFormat
var customFormats = FileFormatLocator.GetFormats(assembly);
// Formats defined in the assembly and all the defaults
var allFormats = FileFormatLocator.GetFormats(assembly, true);
项目Github