Html 提供多种常见文档格式的纯文本访问/迭代的库?

Html 提供多种常见文档格式的纯文本访问/迭代的库?,html,nlp,rtf,text-processing,doc,Html,Nlp,Rtf,Text Processing,Doc,我想找到一个用于NLP/文本处理的库,它提供了一个用于访问最常见文本格式文本的通用接口: Microsoft Word.doc和可能的.docx RTF HTML “纯文本” 我想要的是忽略文档中除文本以外的几乎所有信息的内容,但它应该统一以下功能: 内联与块格式(块类似于段落,但忽略内联样式更改) 所有字符编码、实体等,UTF都应该是相同的(可能是UTF-8或UTF-16) 可配置各种纯文本格式,例如用于换行的纯文本格式与具有硬编码换行符的纯文本格式 具有每次获取字符/单词/句子的方法,

我想找到一个用于NLP/文本处理的库,它提供了一个用于访问最常见文本格式文本的通用接口:

  • Microsoft Word
    .doc
    和可能的
    .docx
  • RTF
  • HTML
  • “纯文本”
我想要的是忽略文档中除文本以外的几乎所有信息的内容,但它应该统一以下功能:

  • 内联与块格式(块类似于段落,但忽略内联样式更改)
  • 所有字符编码、实体等,UTF都应该是相同的(可能是UTF-8或UTF-16)
  • 可配置各种纯文本格式,例如用于换行的纯文本格式与具有硬编码换行符的纯文本格式
  • 具有每次获取字符/单词/句子的方法,无论底层文档格式如何,都具有相同的语义
  • 注意歧义,例如行尾的连字符、句点,这些句点可能是首字母缩略词的一部分,也可能是句子的结尾
我仍然很高兴,如果它只支持任何两种格式和我上面的一些功能

谷歌搜索并不成功,但如果不存在这样的东西,我会感到惊讶。NLP用户将使用什么来处理大量的真实文本?任何平台/编程语言都可以,因为这很难找到。开源让我可以贡献是最好的



(如果这被认为是离题且已结束,我至少希望您能推荐其他什么Stack Exchange站点或其他什么论坛来提出这样的问题。)

您可能需要两个步骤:从文件中取出内容,然后使用一些NLP工具包对其进行分析。第一步可以通过以下步骤完成。对于步骤2,最著名的备选方案可能是,和。请注意,可能存在一些重叠,例如UIMA可能已经有一个使用Tika的组件。

是的,我想我希望能够从现有NLP工具或我自己的工具访问原始数据。一直以来,多种文件格式和对纯文本的有损转换让我望而却步。正在查看这些链接。。。很惊讶我没有在搜索中找到Tika-可能是我想要的,谢谢!