非unicode到unicode转换,适用于任何字体!

非unicode到unicode转换,适用于任何字体!,unicode,non-unicode,Unicode,Non Unicode,我有一个html文件,文本编码为非unicode字体。我需要将该文件转换为unicode。我找了个转换器。但是,大多数转换器只适用于一系列字体,而不是所有字体 我的字体非常具体,文本是用Devanagari脚本编写的。 我有文件,我有字体,现在,请建议我一个工具或技术。谢谢。Unicode与字体无关,它与编码有关。您需要找到一个可以将文本转换为Unicode的转换器。文本的编码是什么?Apache Tika能够通过了解字体行为从PDF文件中提取文本。因此,如果该文件实际上是一个PDF文件,您就有

我有一个html文件,文本编码为非unicode字体。我需要将该文件转换为unicode。我找了个转换器。但是,大多数转换器只适用于一系列字体,而不是所有字体

我的字体非常具体,文本是用Devanagari脚本编写的。
我有文件,我有字体,现在,请建议我一个工具或技术。谢谢。

Unicode与字体无关,它与编码有关。您需要找到一个可以将文本转换为Unicode的转换器。文本的编码是什么?

Apache Tika能够通过了解字体行为从PDF文件中提取文本。因此,如果该文件实际上是一个PDF文件,您就有机会。如果你有一个没有特殊编码的字体索引的文本文件,那么你面前就有一个很大的编程任务。

是的,我要找一个转换器。这就是我上面写的。我发现了编码:它是Unicode 1.0语义,Macintosh:Roman,Microsoft:Unicode BMP。我面临着同样的问题。在我的数据库中,保存的内容是utf-8,这是unicode,但在网页上,我想使用的字体不是unicode。因此,我正在寻找一种方法来转换支持unicode的相同字体。我有点惊讶!我可以轻松地将我的文件转换为pdf格式。足够吗?阿帕奇·蒂卡能接受吗?也许吧。仅当字体/pdf使用Adobe指定的字形ID时。如果只是数字,不,不会。