JavaScript/NodeJS RTF CJK转换
我正在开发一个节点模块,该模块解析RTF文件,并进行一些查找和替换。我已经提出了一个用转义unicode表示的特殊字符的解决方案,但在涉及CJK字符时遇到了麻烦。有没有一种简单的方法可以在JavaScript中进行这些转换,或者使用库,或者内置 例如: 以纯文本查看的RTF文件包含:JavaScript/NodeJS RTF CJK转换,javascript,node.js,escaping,rtf,cjk,Javascript,Node.js,Escaping,Rtf,Cjk,我正在开发一个节点模块,该模块解析RTF文件,并进行一些查找和替换。我已经提出了一个用转义unicode表示的特殊字符的解决方案,但在涉及CJK字符时遇到了麻烦。有没有一种简单的方法可以在JavaScript中进行这些转换,或者使用库,或者内置 例如: 以纯文本查看的RTF文件包含: Now testing symbols {鈴:200638d} 在NodeJS中解析时,文件的这一部分如下所示: Now testing symbols \{ \f1 \'e2\'8f \f0 :200638d\
Now testing symbols {鈴:200638d}
在NodeJS中解析时,文件的这一部分如下所示:
Now testing symbols \{
\f1 \'e2\'8f
\f0 :200638d\}\
我知道\f1
和\f0
表示字体更改,\'e2\8f
块是实际字符。。。但是我怎样才能将\'e2\8f
转换回鈴代码>,或相反,转换鈴代码>到\'e2\8f
我试着用不同的编码查找这个字符,但没有看到任何与\'e2\'8f
非常相似的字符。我了解RTF控件\'hh
是一个基于指定字符集的十六进制值(可用于识别8位值)
(),或者更好的定义来自Microsoft RTF规范<代码>%xHH(十六进制值为HH的八位字节)
()但我不知道如何处理这些信息来进行转换。我能够使用解析示例文件并检索正确的字符
顾名思义,关键是\fonttbl
命令定义了文档中使用的字体。作为每个字体定义的一部分,\fcharset
命令确定要与此字体一起使用的字符集。您需要使用它来正确解释字符数据
我的解析器将参数映射到
\fcharset
到一个代码集名称,然后将其转换为一个字符集名称,该名称可用于检索正确的Java字符集
。当您使用Javascript时,您的字符集处理显然会有所不同,但希望这些信息能帮助您前进。您能提供一个指向示例RTF文件的链接吗?@JonIles现在开始,