Java通过读取前几个字节读取实际文件类型（法医学）_Java_Computer Forensics

Java通过读取前几个字节读取实际文件类型（法医学）

java

Java通过读取前几个字节读取实际文件类型（法医学）,java,computer-forensics,Java,Computer Forensics,您好，我需要一种使用Java读取任何文件的前四个字节的方法。为什么是前四个字节？因为它是实际文件类型的法医指纹（文件扩展名不可靠，因为它可能被伪造）现在，以这种方式读取文件（下面是Java代码）将读取文件“content”，我认为它跳过了文件头信息。。。？我无法获得幻数（前四个字节），因此无法识别/确认给定样本的真实文件类型 byte[] buffer = new byte[4]; InputStream is = new FileInputStream("somwhere.in.the.

您好，我需要一种使用Java读取任何文件的前四个字节的方法。为什么是前四个字节？因为它是实际文件类型的法医指纹（文件扩展名不可靠，因为它可能被伪造）

现在，以这种方式读取文件（下面是Java代码）将读取文件“content”，我认为它跳过了文件头信息。。。？我无法获得幻数（前四个字节），因此无法识别/确认给定样本的真实文件类型

byte[] buffer = new byte[4];
InputStream is = new FileInputStream("somwhere.in.the.dark");
if (is.read(buffer) != buffer.length) { 
    // do something 
}
is.close();

请提供建议？

我想您可以使用：

IOUtils.toByteArray(InputStream is)

请看这里：

要将InputStream转换为byteArray，请获取前4个字节。

为此使用java.nio.file API；具体来说，编写自己的

FileTypeDetector

我恰好在我的一个项目中做到了这一点：

有了它，我可以使用

Files.probeContentType（）

并以MIME字符串的形式返回文件的确切类型

看

现在，它是如何工作的：

您可以编写自己的

文件类型检测器的实现（这是检测PNG文件的一个示例）
如果检测器无法确定类型，则使其返回null

在META-INF/services/java.nio.file.spi.FileTypeDetector
中注册实现（请参阅）
测试它
并使用文件.probeContentType（）

如空白所示
下面是代码-在本例中，“test3_iamexe.txt”是一个可剪切的exe，攻击者将文件扩展名重命名为“txt”
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.mime.MediaType;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.parser.AbstractParser;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.sax.XHTMLContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.Collections;
import java.util.Set;
import org.apache.tika.metadata.Property;

public class TestTika {

    public static void main(String[] args) {
        File file = null;
    InputStream stream = null;
        String contentType = null;

        try
        {
            file = new File("C:\\tmp\\test3_iamexe.txt");
            stream = new FileInputStream(file);

            AutoDetectParser parser = new AutoDetectParser();
            BodyContentHandler handler = new BodyContentHandler();
            Metadata metadata = new Metadata();

            try {
                // This step here is a little expensive
                parser.parse(stream, handler, metadata);
            } finally {
                stream.close();
            }

            // metadata is a HashMap, you can loop over it see what you need. Alternatively, I think Content-Type is what you need
            contentType = metadata.get("Content-Type");

        } catch(...)
        {
            // handle it
        }

        return;
    }
}

这就是读取文件前4个字节的方式。对于大多数文件，“头”和“内容”没有区别，“魔法cookie”是主要内容的一部分。例如，如果文件较短，则读取的字节数可能少于4字节。什么不起作用？你看到了什么你没有预料到的行为？实际文件是否拼写为“somwhere”或“某处”？您可以使用Blank，而不是自己执行此操作。如果有人上传了一个exe。但改名为xls。蒂卡能检测到吗？谢谢你。我测试了蒂卡。简单的API调用metadata.getProperty（“内容类型”）正好提供了我所需要的！probeContentType（）是垃圾。。完全不是跨平台查看等@blank抱歉，但如果你这么说，你根本不明白它是如何工作的。查看我的实现和测试文件！抱歉，您需要为要检查的每种类型实现吗？csv、txt、xls、xlsx。。例如，在过去的几个月里，Solaris上的某些文件类型的返回值为null，但它已被破坏。但它可能在jdk8中被修复。@blank您是否编写了自己的文件类型检测器？