C++ 用于C+的文字袋方法/工具/库+;?

C++ 用于C+的文字袋方法/工具/库+;?,c++,machine-learning,text-processing,text-extraction,lda,C++,Machine Learning,Text Processing,Text Extraction,Lda,我有一个文件夹,里面有很多旅游评论的.txt文件。我想用单词包的方法把它们转换成某种机器学习的数字表示(C++中的潜狄利克雷分配-LDA),以训练系统识别每个文档的主题。p> 但不知何故,我不知道如何处理Bag of Word算法,我听到了一些工具,如Scikit learn。但是Scikit可以在python环境中学习工作。我想知道,是否有一些推荐工具/库可以帮助我解决我的文字袋模块?或者C++上有一个C++工具包,用于C++? 我已经到了一个我不知道该做什么的地步,希望能得到一些指导。谢谢你

我有一个文件夹,里面有很多旅游评论的.txt文件。我想用单词包的方法把它们转换成某种机器学习的数字表示(C++中的潜狄利克雷分配-LDA),以训练系统识别每个文档的主题。p> 但不知何故,我不知道如何处理Bag of Word算法,我听到了一些工具,如Scikit learn。但是Scikit可以在python环境中学习工作。我想知道,是否有一些推荐工具/库可以帮助我解决我的文字袋模块?或者C++上有一个C++工具包,用于C++?
我已经到了一个我不知道该做什么的地步,希望能得到一些指导。谢谢你:

< p>你可以为C++。< /p> < p>当然,编写代码应该很容易吧

最愚蠢但保证有效的方法是在所有文档上迭代两次。在第一次迭代期间,创建单词的hashmap和唯一索引(类似hashmap的结构),在第二次迭代期间,执行表格查找并打印单词的索引,以创建数据的数字表示

如果您想要一个单词包表示,在第二次迭代中,您可以在每次看到新文档时创建一个hashmap(hashmap),并增加每个单词索引的计数,一旦到达文档末尾,就读取计数并打印它们