Nlp Smalltalk和tf-idf算法

Nlp Smalltalk和tf-idf算法,nlp,smalltalk,ranking,tf-idf,Nlp,Smalltalk,Ranking,Tf Idf,有人能在Smalltalk中为自然语言处理演示tf idf算法的简单实现或使用示例吗? 我在一个名为的包中找到了一个实现,但它对于我的需要来说似乎太复杂了。Python中的一个简单实现如下所示 我注意到中还有另一个tf idf,但它似乎与软件系统词汇表的分析有关,我没有找到如何使用它的示例。是一个基于自然语言的模式解析和匹配系统。它没有提供您所要求的,但扩展模型以计算词频应该不会太困难。我是Visualworks原始Hapax软件包的作者。Hapax是一个通用信息检索包,它应该能够处理任何类型的

有人能在Smalltalk中为自然语言处理演示tf idf算法的简单实现或使用示例吗? 我在一个名为的包中找到了一个实现,但它对于我的需要来说似乎太复杂了。Python中的一个简单实现如下所示


我注意到中还有另一个tf idf,但它似乎与软件系统词汇表的分析有关,我没有找到如何使用它的示例。

是一个基于自然语言的模式解析和匹配系统。它没有提供您所要求的,但扩展模型以计算词频应该不会太困难。

我是Visualworks原始Hapax软件包的作者。Hapax是一个通用信息检索包,它应该能够处理任何类型的文本文件。我只是碰巧用它来分析源代码文件

您要查找的类是
TermDocumentMatrix
,应该有两种方法
globalWeighting:
localWeighting:
,您可以根据需要向它们传递
InverseDocumentFrequency
LogTermFrequency
的实例。通常,当提到tfidf时,人们的意思是包括对数术语频率

应该有最好的测试使用一个小的示例语料库来演示TDM类。如果测试没有移植到Squeak,请让我知道,以便我可以为您提供一个示例