Java OutOfMemoryError-来自检测UTF-8编码_Java_Utf 8_Character Encoding_Detect

Java OutOfMemoryError-来自检测UTF-8编码

java utf-8 character-encoding

Java OutOfMemoryError-来自检测UTF-8编码,java,utf-8,character-encoding,detect,Java,Utf 8,Character Encoding,Detect,此类应检查currentFile并检测编码。如果结果为UTF-8则返回true runnig之后的输出是-java.lang.OutOfMemoryError:java堆空间对于读取数据，此文件需要有JDK 7。readAllBytes（路径）代码： class EncodingsCheck implements Checker { @Override public boolean check(File currentFile) { return isUTF

此类应检查

currentFile

并检测编码。如果结果为UTF-8

则返回true

runnig之后的输出是-

java.lang.OutOfMemoryError:java堆空间

对于读取数据，此

文件需要有JDK 7。readAllBytes（路径）

代码：

class EncodingsCheck implements Checker {

    @Override
    public boolean check(File currentFile) {
        return isUTF8(currentFile);
    }

    public static boolean isUTF8(File file) {
        // validate input
        if (null == file) {
            throw new IllegalArgumentException("input file can't be null");
        }
        if (file.isDirectory()) {
            throw new IllegalArgumentException(
                    "input file refers to a directory");
        }

        // read input file
        byte[] buffer;
        try {
            buffer = readUTFHeaderBytes(file);
        } catch (IOException e) {
            throw new IllegalArgumentException(
                    "Can't read input file, error = " + e.getLocalizedMessage());
        }

        if (0 == (buffer[0] & 0x80)) {
            return true; // ASCII subset character, fast path
        } else if (0xF0 == (buffer[0] & 0xF8)) { // start of 4-byte sequence
            if (buffer[3] >= buffer.length) {
                return false;
            }
            if ((0x80 == (buffer[1] & 0xC0)) && (0x80 == (buffer[2] & 0xC0))
                    && (0x80 == (buffer[3] & 0xC0)))
                return true;
        } else if (0xE0 == (buffer[0] & 0xF0)) { // start of 3-byte sequence
            if (buffer[2] >= buffer.length) {
                return false;
            }
            if ((0x80 == (buffer[1] & 0xC0)) && (0x80 == (buffer[2] & 0xC0))) {
                return true;
            }
        } else if (0xC0 == (buffer[0] & 0xE0)) { // start of 2-byte sequence
            if (buffer[1] >= buffer.length) {
                return false;
            }
            if (0x80 == (buffer[1] & 0xC0)) {
                return true;
            }
        }

        return false;
    }

    private static byte[] readUTFHeaderBytes(File input) throws IOException {
        // read data
        Path path = Paths.get(input.getAbsolutePath());
        byte[] data = Files.readAllBytes(path);
        return data;
    }
}

问题：

如何解决这个问题
如何通过这种方式检查UTF-16 （我们需要担心这件事还是这只是无用的麻烦）

private static byte[] readUTFHeaderBytes(File input) throws IOException {
    FileInputStream fileInputStream = new FileInputStream(input);
    try{
        byte firstBytes[] = new byte[4];
        int count = fileInputStream.read(firstBytes);
        if(count < 4){
            throw new IOException("Empty file");
        }
        return firstBytes;
    } finally {
        fileInputStream.close();
    }
}

private static byte[]readUTFHeaderBytes（文件输入）引发IOException{
FileInputStream FileInputStream=新的FileInputStream（输入）；
试一试{
字节firstBytes[]=新字节[4]；
int count=fileInputStream.read（firstBytes）；
if（计数<4）{
抛出新IOException（“空文件”）；
}
返回第一个字节；
}最后{
fileInputStream.close（）；
}
}

InputStream

InputStream

文件

if（0==（缓冲区[0]&0x80））{…return false；}

（…&0xF8）

0xF0==