Character encoding 哪个页面代码用于对此文档进行编码?

Character encoding 哪个页面代码用于对此文档进行编码?,character-encoding,Character Encoding,我有一大堆文件。我甚至不能肯定它们是Word文档,但即使它们是,我也需要用Python打开并解析它们,以便从中提取信息 问题是,我无法弄清楚它们是如何编码的:无论我尝试了哪种编码,UltraEdit的转换函数都无法更正文本。OpenOffice 3.2也无法正确显示Windows-1252中的内容 下面是一个例子,希望有人知道它是什么页面代码: lÕassemblyŽe gŽnŽrale代替l'assemblyée générale 感谢您提供的任何提示。格林斯通数字图书馆提供了从word文档中

我有一大堆文件。我甚至不能肯定它们是Word文档,但即使它们是,我也需要用Python打开并解析它们,以便从中提取信息

问题是,我无法弄清楚它们是如何编码的:无论我尝试了哪种编码,UltraEdit的转换函数都无法更正文本。OpenOffice 3.2也无法正确显示Windows-1252中的内容

下面是一个例子,希望有人知道它是什么页面代码:

lÕassemblyŽe gŽnŽrale代替l'assemblyée générale


感谢您提供的任何提示。

格林斯通数字图书馆提供了从word文档中提取非常好的文本,包括编码检测

在服务器模式下运行msword为您提供了一系列脚本选项-我确信检测编码是可能的

我应该补充一点,我只会在一束是重要数字时使用绿石。