Windows 在Microsoft Word文档中,每个字符的属性都存储在一个文件结构中,用于此目的的文件结构是什么?

Windows 在Microsoft Word文档中,每个字符的属性都存储在一个文件结构中,用于此目的的文件结构是什么?,windows,ms-word,file-format,Windows,Ms Word,File Format,在Microsoft Word文档中,每个字符的属性都存储在一个文件结构中,用于此目的的文件结构是什么 Microsoft Word文档有几种常见的格式。 第一种是旧的标准.doc格式,自Word的原始版本以来使用了多年。它是97至2003版的标准化文件,文件格式规范可在MSDN上找到。 如果您对技术细节不太感兴趣,则提供了一个不错的概述: 在20世纪90年代末和21世纪初,默认的Word文档格式(.DOC)成为Microsoft Office用户文档文件格式的事实标准。虽然通常仅称为“Word

在Microsoft Word文档中,每个字符的属性都存储在一个文件结构中,用于此目的的文件结构是什么

Microsoft Word文档有几种常见的格式。

第一种是旧的标准
.doc
格式,自Word的原始版本以来使用了多年。它是97至2003版的标准化文件,文件格式规范可在MSDN上找到。
如果您对技术细节不太感兴趣,则提供了一个不错的概述:

在20世纪90年代末和21世纪初,默认的Word文档格式(.DOC)成为Microsoft Office用户文档文件格式的事实标准。虽然通常仅称为“Word文档格式”,但该术语主要指Word 97-2003版默认使用的格式范围

Word文档文件通过使用Word 97-2003二进制文件格式实现OLE(对象链接和嵌入)结构化存储来管理其文件格式的结构。OLE的行为相当类似于传统的硬盘驱动器文件系统,由几个关键组件组成。每个Word文档都由所谓的“大块”组成,这些块几乎总是(但不一定是)512字节的块;因此,Word文档的文件大小在大多数情况下是512的倍数

“存储”类似于磁盘驱动器上的目录,并指向与磁盘上的文件类似的其他存储或“流”。Word文档中的文本始终包含在“WordDocument”流中。Word文档中的第一个大块称为“header”块,它提供有关文档中主要数据结构位置的重要信息。“属性存储”提供关于文档文件中的存储和流的元数据,例如文件的起始位置和名称等。“文件信息块”包含有关Word文档中文本的起始位置、结束位置、Word创建文档的版本以及其他属性的信息

Word 2003改变了游戏,引入了基于XML的新文件格式。此新文件格式成为此版本Word的默认格式,尽管出于向后兼容性原因,它继续支持旧的
.doc
格式。该格式如中所述


最后,Office2007介绍了OfficeOpenXML文件格式,包括Word的
.docx
格式。那上面也有一个问题。或者,如果您更喜欢技术细节,请参阅MSDN上的这篇参考文章:

在这样的概述中,我会提到RTF而不是孤立的Word 2003 XML格式(最好将其视为Office Open XML文件格式的前身)@plutext:也许值得一提,但问题是关于微软Word格式的。RTF是一种几乎所有字处理程序都可以打开的开放标准。科迪·格雷有一个很好的答案,但这是一个非常广泛的问题。你有什么特别的想法吗?