Algorithm 文档特征向量表示
我正在构建一个文档分类器来对文档进行分类 因此,第一步是将每个文档表示为“特征向量”,以便进行培训 经过一些研究,我发现我可以使用单词袋方法或N-gram方法将文档表示为向量 使用OCR检索每个文档(扫描的PDF和图像)中的文本,因此某些单词包含错误。我以前不知道这些文档中使用的语言(不能使用词干) 据我所知,我必须使用n-gram方法。还是有其他方法来表示文档? 如果有人能将我与N-Gram指南联系起来,以便更清楚地了解其工作原理,我也将不胜感激。 提前谢谢Algorithm 文档特征向量表示,algorithm,machine-learning,document-classification,feature-extraction,Algorithm,Machine Learning,Document Classification,Feature Extraction,我正在构建一个文档分类器来对文档进行分类 因此,第一步是将每个文档表示为“特征向量”,以便进行培训 经过一些研究,我发现我可以使用单词袋方法或N-gram方法将文档表示为向量 使用OCR检索每个文档(扫描的PDF和图像)中的文本,因此某些单词包含错误。我以前不知道这些文档中使用的语言(不能使用词干) 据我所知,我必须使用n-gram方法。还是有其他方法来表示文档? 如果有人能将我与N-Gram指南联系起来,以便更清楚地了解其工作原理,我也将不胜感激。 提前谢谢 使用语言检测获取文档的语言(我最喜
分类过程本身与任何其他领域相同 @ffriend,对不起,我有点困惑。。。雪球分析仪和Lucene分析仪有什么区别?因为我下载了Lucene核心库,但它不包括任何雪球分析器@TeFa,Lucene是整个库的名称,因此该库中的任何分析器都是“Lucene analyzer”。SnowBallaAnalyzer是一种流行的分析器,可以通过将语言字符串传递给构造函数为不同的语言进行配置。您可以在名为a-la“lucene-snowball-3.1.1.jar”或类似名称的罐子中找到此分析器。然而,目前SnowBallaAnalyzer正在使用中,建议使用模块/分析中的特定于语言的分析器。另请参阅问题,了解分析器的工作原理及其组成部分。是的,我刚刚注意到SnowBallaAnalyzer已被弃用,我应该在contrib/分析器中使用分析器。语言检测和词干分析现在正在为我工作:)。。。我还发现了一个非常好的语言检测库,因为你建议的那个库给了我不正确的结果,不确定我是否做错了什么,或者到底是什么。但是非常感谢。没有你的帮助我不能走这么远。。。