Java 查找哈希集中每个单词在文本文档中出现的次数

Java 查找哈希集中每个单词在文本文档中出现的次数,java,text,classification,bayesian,Java,Text,Classification,Bayesian,我正在用Java实现一个朴素的Bayes文本分类算法 到目前为止,我所做的是,声明一个名为词汇表的哈希集,它存储给定文本文件(测试文件)中的所有唯一单词 算法中的一个步骤是将测试文件的所有成员连接到一个文本文件中。这是一个相当大的文件,每个文件中都有单词 现在,我必须用连接的文本文件计算词汇表中每个单词出现的次数。我的第一个猜测是保持一种数组结构,其中包含每个单词的频率。但话说回来,我会有太多的条目 有谁能给我更好的建议吗 使用字典(HashMap),其中单词是键,值是出现的次数。如果HashS

我正在用Java实现一个朴素的Bayes文本分类算法

到目前为止,我所做的是,声明一个名为词汇表的哈希集,它存储给定文本文件(测试文件)中的所有唯一单词

算法中的一个步骤是将测试文件的所有成员连接到一个文本文件中。这是一个相当大的文件,每个文件中都有单词

现在,我必须用连接的文本文件计算词汇表中每个单词出现的次数。我的第一个猜测是保持一种数组结构,其中包含每个单词的频率。但话说回来,我会有太多的条目


有谁能给我更好的建议吗

使用字典(HashMap),其中单词是键,值是出现的次数。如果HashSet适合内存,HashMap也应该使用。

使用字典(HashMap),其中单词是键,值是出现的次数。如果HashSet适合内存,HashMap也应该适合。

您可以尝试使用trys,叶节点可以存储单词的频率

您可以尝试使用trys,叶节点可以存储单词的频率