Java通过读取前几个字节读取实际文件类型(法医学)
您好,我需要一种使用Java读取任何文件的前四个字节的方法。 为什么是前四个字节?因为它是实际文件类型的法医指纹(文件扩展名不可靠,因为它可能被伪造) 现在,以这种方式读取文件(下面是Java代码)将读取文件“content”,我认为它跳过了文件头信息。。。?我无法获得幻数(前四个字节),因此无法识别/确认给定样本的真实文件类型Java通过读取前几个字节读取实际文件类型(法医学),java,computer-forensics,Java,Computer Forensics,您好,我需要一种使用Java读取任何文件的前四个字节的方法。 为什么是前四个字节?因为它是实际文件类型的法医指纹(文件扩展名不可靠,因为它可能被伪造) 现在,以这种方式读取文件(下面是Java代码)将读取文件“content”,我认为它跳过了文件头信息。。。?我无法获得幻数(前四个字节),因此无法识别/确认给定样本的真实文件类型 byte[] buffer = new byte[4]; InputStream is = new FileInputStream("somwhere.in.the.
byte[] buffer = new byte[4];
InputStream is = new FileInputStream("somwhere.in.the.dark");
if (is.read(buffer) != buffer.length) {
// do something
}
is.close();
请提供建议?我想您可以使用:
IOUtils.toByteArray(InputStream is)
请看这里:
要将InputStream转换为byteArray,请获取前4个字节。为此使用java.nio.file API;具体来说,编写自己的
FileTypeDetector
我恰好在我的一个项目中做到了这一点:
有了它,我可以使用Files.probeContentType()
并以MIME字符串的形式返回文件的确切类型
看
现在,它是如何工作的:
- 您可以编写自己的
文件类型检测器的实现(这是检测PNG文件的一个示例)李>
- 如果检测器无法确定类型,则使其返回
李>null
- 在
中注册实现(请参阅)李>META-INF/services/java.nio.file.spi.FileTypeDetector
- 测试它
- 并使用
文件.probeContentType()
- 如果检测器无法确定类型,则使其返回
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.mime.MediaType;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.parser.AbstractParser;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.sax.XHTMLContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.Collections;
import java.util.Set;
import org.apache.tika.metadata.Property;
public class TestTika {
public static void main(String[] args) {
File file = null;
InputStream stream = null;
String contentType = null;
try
{
file = new File("C:\\tmp\\test3_iamexe.txt");
stream = new FileInputStream(file);
AutoDetectParser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
try {
// This step here is a little expensive
parser.parse(stream, handler, metadata);
} finally {
stream.close();
}
// metadata is a HashMap, you can loop over it see what you need. Alternatively, I think Content-Type is what you need
contentType = metadata.get("Content-Type");
} catch(...)
{
// handle it
}
return;
}
}
这就是读取文件前4个字节的方式。对于大多数文件,“头”和“内容”没有区别,“魔法cookie”是主要内容的一部分。例如,如果文件较短,则读取的字节数可能少于4字节。什么不起作用?你看到了什么你没有预料到的行为?实际文件是否拼写为“somwhere”或“某处”?您可以使用Blank,而不是自己执行此操作。如果有人上传了一个exe。但改名为xls。蒂卡能检测到吗?谢谢你。我测试了蒂卡。简单的API调用metadata.getProperty(“内容类型”)正好提供了我所需要的!probeContentType()是垃圾。。完全不是跨平台查看等@blank抱歉,但如果你这么说,你根本不明白它是如何工作的。查看我的实现和测试文件!抱歉,您需要为要检查的每种类型实现吗?csv、txt、xls、xlsx。。例如,在过去的几个月里,Solaris上的某些文件类型的返回值为null,但它已被破坏。但它可能在jdk8中被修复。@blank您是否编写了自己的文件类型检测器?