C++ 用于C+的文字袋方法/工具/库+；？_C++_Machine Learning_Text Processing_Text Extraction_Lda

C++ 用于C+的文字袋方法/工具/库+；？

c++ machine-learning

C++ 用于C+的文字袋方法/工具/库+；？,c++,machine-learning,text-processing,text-extraction,lda,C++,Machine Learning,Text Processing,Text Extraction,Lda,我有一个文件夹，里面有很多旅游评论的.txt文件。我想用单词包的方法把它们转换成某种机器学习的数字表示（C++中的潜狄利克雷分配-LDA），以训练系统识别每个文档的主题。p> 但不知何故，我不知道如何处理Bag of Word算法，我听到了一些工具，如Scikit learn。但是Scikit可以在python环境中学习工作。我想知道，是否有一些推荐工具/库可以帮助我解决我的文字袋模块？或者C++上有一个C++工具包，用于C++？我已经到了一个我不知道该做什么的地步，希望能得到一些指导。谢谢你

我有一个文件夹，里面有很多旅游评论的.txt文件。我想用单词包的方法把它们转换成某种机器学习的数字表示（C++中的潜狄利克雷分配-LDA），以训练系统识别每个文档的主题。p> 但不知何故，我不知道如何处理Bag of Word算法，我听到了一些工具，如Scikit learn。但是Scikit可以在python环境中学习工作。我想知道，是否有一些推荐工具/库可以帮助我解决我的文字袋模块？或者C++上有一个C++工具包，用于C++？

我已经到了一个我不知道该做什么的地步，希望能得到一些指导。谢谢你：

< p>你可以为C++。< /p> < p>当然，编写代码应该很容易吧

最愚蠢但保证有效的方法是在所有文档上迭代两次。在第一次迭代期间，创建单词的hashmap和唯一索引（类似hashmap的结构），在第二次迭代期间，执行表格查找并打印单词的索引，以创建数据的数字表示

如果您想要一个单词包表示，在第二次迭代中，您可以在每次看到新文档时创建一个hashmap（hashmap），并增加每个单词索引的计数，一旦到达文档末尾，就读取计数并打印它们