Encoding 如何自动检测srt字幕文件的编码

Encoding 如何自动检测srt字幕文件的编码,encoding,Encoding,与竞争对手相比,我这里有一款产品在自动检测srt字幕文件编码方面存在弱点。我可以自动检测smi文件的编码,因为它的头中有语言信息。但对于srt,我不能这样做。如何将此自动检测应用于srt文件? 任何关于算法的好的参考资料,例如,我可以学习作为我的第一步,将不胜感激。 仅供参考,我的产品应该支持西欧、中欧、西里尔字母表、希腊语、土耳其语、希伯来语、阿拉伯语、波罗的海语、韩语、S-Chinese、T-Chinese、越南语、泰国语。有很多工具可以检测文本文件(例如srt文件)的字符集。例如,在Lin

与竞争对手相比,我这里有一款产品在自动检测srt字幕文件编码方面存在弱点。我可以自动检测smi文件的编码,因为它的头中有语言信息。但对于srt,我不能这样做。如何将此自动检测应用于srt文件? 任何关于算法的好的参考资料,例如,我可以学习作为我的第一步,将不胜感激。
仅供参考,我的产品应该支持西欧、中欧、西里尔字母表、希腊语、土耳其语、希伯来语、阿拉伯语、波罗的海语、韩语、S-Chinese、T-Chinese、越南语、泰国语。

有很多工具可以检测文本文件(例如srt文件)的字符集。例如,在Linux机器的命令行中,可以使用chardet:

chardet subtile_file_name.srt
此实用程序应该在安装pip(Python安装程序)之前安装。在Ubuntu中:

sudo apt-get install python-pip
pip install chardet
如果需要在应用程序中集成检测器,还可以使用开放库来完成这项工作。例如,在我用Java实现的工具中,我使用了