Html 提供多种常见文档格式的纯文本访问/迭代的库？_Html_Nlp_Rtf_Text Processing_Doc

Html 提供多种常见文档格式的纯文本访问/迭代的库？

html nlp

Html 提供多种常见文档格式的纯文本访问/迭代的库？,html,nlp,rtf,text-processing,doc,Html,Nlp,Rtf,Text Processing,Doc,我想找到一个用于NLP/文本处理的库，它提供了一个用于访问最常见文本格式文本的通用接口： Microsoft Word.doc和可能的.docx RTF HTML “纯文本” 我想要的是忽略文档中除文本以外的几乎所有信息的内容，但它应该统一以下功能：内联与块格式（块类似于段落，但忽略内联样式更改）所有字符编码、实体等，UTF都应该是相同的（可能是UTF-8或UTF-16）可配置各种纯文本格式，例如用于换行的纯文本格式与具有硬编码换行符的纯文本格式具有每次获取字符/单词/句子的方法，

我想找到一个用于NLP/文本处理的库，它提供了一个用于访问最常见文本格式文本的通用接口：

Microsoft Word
```
.doc
```
和可能的
```
.docx
```
RTF
HTML
“纯文本”

我想要的是忽略文档中除文本以外的几乎所有信息的内容，但它应该统一以下功能：

内联与块格式（块类似于段落，但忽略内联样式更改）
所有字符编码、实体等，UTF都应该是相同的（可能是UTF-8或UTF-16）
可配置各种纯文本格式，例如用于换行的纯文本格式与具有硬编码换行符的纯文本格式
具有每次获取字符/单词/句子的方法，无论底层文档格式如何，都具有相同的语义
注意歧义，例如行尾的连字符、句点，这些句点可能是首字母缩略词的一部分，也可能是句子的结尾

我仍然很高兴，如果它只支持任何两种格式和我上面的一些功能

谷歌搜索并不成功，但如果不存在这样的东西，我会感到惊讶。NLP用户将使用什么来处理大量的真实文本？任何平台/编程语言都可以，因为这很难找到。开源让我可以贡献是最好的

（如果这被认为是离题且已结束，我至少希望您能推荐其他什么Stack Exchange站点或其他什么论坛来提出这样的问题。）

您可能需要两个步骤：从文件中取出内容，然后使用一些NLP工具包对其进行分析。第一步可以通过以下步骤完成。对于步骤2，最著名的备选方案可能是，和。请注意，可能存在一些重叠，例如UIMA可能已经有一个使用Tika的组件。

是的，我想我希望能够从现有NLP工具或我自己的工具访问原始数据。一直以来，多种文件格式和对纯文本的有损转换让我望而却步。正在查看这些链接。。。很惊讶我没有在搜索中找到Tika-可能是我想要的，谢谢！