Html 提供多种常见文档格式的纯文本访问/迭代的库?
我想找到一个用于NLP/文本处理的库,它提供了一个用于访问最常见文本格式文本的通用接口:Html 提供多种常见文档格式的纯文本访问/迭代的库?,html,nlp,rtf,text-processing,doc,Html,Nlp,Rtf,Text Processing,Doc,我想找到一个用于NLP/文本处理的库,它提供了一个用于访问最常见文本格式文本的通用接口: Microsoft Word.doc和可能的.docx RTF HTML “纯文本” 我想要的是忽略文档中除文本以外的几乎所有信息的内容,但它应该统一以下功能: 内联与块格式(块类似于段落,但忽略内联样式更改) 所有字符编码、实体等,UTF都应该是相同的(可能是UTF-8或UTF-16) 可配置各种纯文本格式,例如用于换行的纯文本格式与具有硬编码换行符的纯文本格式 具有每次获取字符/单词/句子的方法,
- Microsoft Word
和可能的.doc
.docx
- RTF
- HTML
- “纯文本”
- 内联与块格式(块类似于段落,但忽略内联样式更改)
- 所有字符编码、实体等,UTF都应该是相同的(可能是UTF-8或UTF-16)
- 可配置各种纯文本格式,例如用于换行的纯文本格式与具有硬编码换行符的纯文本格式
- 具有每次获取字符/单词/句子的方法,无论底层文档格式如何,都具有相同的语义
- 注意歧义,例如行尾的连字符、句点,这些句点可能是首字母缩略词的一部分,也可能是句子的结尾
(如果这被认为是离题且已结束,我至少希望您能推荐其他什么Stack Exchange站点或其他什么论坛来提出这样的问题。)您可能需要两个步骤:从文件中取出内容,然后使用一些NLP工具包对其进行分析。第一步可以通过以下步骤完成。对于步骤2,最著名的备选方案可能是,和。请注意,可能存在一些重叠,例如UIMA可能已经有一个使用Tika的组件。是的,我想我希望能够从现有NLP工具或我自己的工具访问原始数据。一直以来,多种文件格式和对纯文本的有损转换让我望而却步。正在查看这些链接。。。很惊讶我没有在搜索中找到Tika-可能是我想要的,谢谢!