Text 文本注释的数据格式

Text 文本注释的数据格式,text,comments,format,Text,Comments,Format,这或多或少是表示文本之间差异的事实标准,程序员广泛使用它来分发源代码更改。大多数版本控制系统可以输出差异,差异用于讨论对文本(例如源代码)的拟议更改,因为它们在说明更改方面非常强大 然而,我通常只想在不改变文本的情况下对文本进行注释,并且想要一种数据格式,它能够以一种与diff对更改同样强大的方式来表示文本注释。一个典型的用例是代码审查,我想对代码进行评论,但不(尚未)提出任何更改。另一个用例是用我自己的想法和提醒注释一篇文章。在Word中,我可以通过标记文本并在文本旁边创建注释气球来注释文本。

这或多或少是表示文本之间差异的事实标准,程序员广泛使用它来分发源代码更改。大多数版本控制系统可以输出差异,差异用于讨论对文本(例如源代码)的拟议更改,因为它们在说明更改方面非常强大

然而,我通常只想在不改变文本的情况下对文本进行注释,并且想要一种数据格式,它能够以一种与diff对更改同样强大的方式来表示文本注释。一个典型的用例是代码审查,我想对代码进行评论,但不(尚未)提出任何更改。另一个用例是用我自己的想法和提醒注释一篇文章。在Word中,我可以通过标记文本并在文本旁边创建注释气球来注释文本。但是Word在其他方面很麻烦——我希望将注释保存在一个单独的文件中,并保持原样

存在哪些数据格式可以以与用于更改的diff一样精确的方式表示文本注释

我不是在寻找像“XML”这样的一般答案。我正在寻找明确表示文本注释的格式。(除了某些程序(如Word)的特定于应用程序的格式外,可能不存在这种格式。)

好问题

大多数人会将XML或类似HTML的子集加入讨论。 标记语言使用存储在原始文本中的(数据)属性。但那不是你想要的。我不包括XML/HTML和RDF&微格式

一般来说

您需要保留原始文本,克隆它,然后通过自定义标记语言添加注释。这允许原始文本与注释文本之间存在文本差异。 重要的是原始文本的单独存储和文本注释的修订

这允许多个差异:

  • “原始文本”和“注释文本修订版1..n”之间的差异
  • “注释文本版次n”和“注释文本版次n+1”之间的差异
这是相当强大的

存在哪些数据格式?

  • BioNLP格式是一种用于信息提取的文本挖掘格式
  • Brat防区外格式
在对峙陈述中,文件的文本被保留 与注释分开,注释连接到 文本通过字符偏移。注释与 它们的文本按其基本名称(文件名)的文件命名约定命名 名称(不带后缀)是相同的:例如,文件PMID-1000.a1 包含文件PMID-1000.txt的注释

如您所见,它是一个“基于文件名的注释关联”。
学术研究和改进的空间很大,)

回答得很好!这些格式只需要一些概括。隐马尔可夫模型。。。诱人的…;)这个答案比我最初想的要好。我一直在寻找一种注释格式,主要用于代码和文档审查,我希望它们存储为纯文本(或标记或简单的东西),类似于可以从PDF注释导出(或导入为PDF注释)的FDF文件,但对于文本文件而不是PDF,我的结论是没有通用格式(例如,由多个IDE支持),但diff可能是最好的解决方案。事实上,我可以对代码进行注释,将其提交给Git或Subversion,然后diff在那里,也可以查看所有历史记录(不需要额外的IDE)。