Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/345.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/email/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何通过监督学习将.txt文档分类为其他.txt类别_Python_Machine Learning_Supervised Learning_Document Classification - Fatal编程技术网

Python 如何通过监督学习将.txt文档分类为其他.txt类别

Python 如何通过监督学习将.txt文档分类为其他.txt类别,python,machine-learning,supervised-learning,document-classification,Python,Machine Learning,Supervised Learning,Document Classification,我有大约数千个txt文档存储在8个不同的文件夹中,这些文件夹都标有主题类别(实际上,它们是类1、2、3…)。我还有80个txt文档还没有分类。我正试图找到最好的分类方法 我已经完成了文本分割并删除了英文字母(因为它们是中文文本)。接下来我该怎么做 我可以得到TF-IDF值最高的单词,但不知道下一步该怎么做。似乎我应该将这些文本转化为向量并训练分类器,但我不知道该怎么做。您可以使用gensim等工具,而不是实现自己的单词包模型。它提供了很难与您自己的实现相匹配的优异性能。您可以在分层softmax

我有大约数千个txt文档存储在8个不同的文件夹中,这些文件夹都标有主题类别(实际上,它们是类1、2、3…)。我还有80个txt文档还没有分类。我正试图找到最好的分类方法

我已经完成了文本分割并删除了英文字母(因为它们是中文文本)。接下来我该怎么做


我可以得到TF-IDF值最高的单词,但不知道下一步该怎么做。似乎我应该将这些文本转化为向量并训练分类器,但我不知道该怎么做。

您可以使用gensim等工具,而不是实现自己的单词包模型。它提供了很难与您自己的实现相匹配的优异性能。您可以在分层softmax或负采样之间进行选择。

请考虑查看