Java 将文本从Tex文件编码为UTF-8格式

Java 将文本从Tex文件编码为UTF-8格式,java,encoding,utf-8,character-encoding,latex,Java,Encoding,Utf 8,Character Encoding,Latex,我有.tex文件,该文件可以具有来自拉丁语、Cp…、ISO-…、UTF-…或任何形式的通用编码类型。我需要对这个文本文件进行编码以解析内容,然后将其存储到某种数据库类型,如SQLite等。当我使用java(只有我可以使用的编程语言)时会出现问题,因此如果tex包含例如日本符号或任何其他符号,它会错误地解析这个变量char。您有没有建议如何将文本编码到universal,我可以在解析之后立即进行编码(我的解析器只是从命令等中提取内容) 但不仅仅是日式编码,而且是通用的。我知道存在MathJax,但

我有.tex文件,该文件可以具有来自拉丁语、Cp…、ISO-…、UTF-…或任何形式的通用编码类型。我需要对这个文本文件进行编码以解析内容,然后将其存储到某种数据库类型,如SQLite等。当我使用java(只有我可以使用的编程语言)时会出现问题,因此如果tex包含例如日本符号或任何其他符号,它会错误地解析这个变量char。您有没有建议如何将文本编码到universal,我可以在解析之后立即进行编码(我的解析器只是从命令等中提取内容)

但不仅仅是日式编码,而且是通用的。我知道存在MathJax,但我需要解析内容并首先将其存储到数据库中。


谢谢

文件是经过编码的。文件的编码是什么?要正确读取文件,请使用
新的InputStreamReader(新文件InputStream(file),ENCODING)
或类似的方法。不要使用
FileReader
。好的@KarolS,但是如果我使用java,但我不知道如何获取文件编码,因为没有任何库可以检测当前文件的编码类型,该怎么办?例如,如果文件编码为Cp1250,并且该文件包含上述日文字符,该怎么办?然后呢?因为在使用InputStreamReader逐字符读取之后,这些字符将显示为,,?”。
\begin{japanese}
日本語は\textbf{難しい}!
\end{japanese}