Python 基于支持向量机的web文本分类数据获取
我将从web上获取文本数据,使用svm创建文本分类模型。在对模型进行培训和测试之后,模型应该能够自动理解每个文本类别 web抓取后,数据将以json格式存储 我使用的是监督学习算法,所以标签应该在每个文本类别的json文件中。我可以手动操作,但我的问题是,是将所有类别的数据放在单个文件中,还是将每个文本类别放在单独的文件中 我问这个问题是因为我使用这些文本数据进行模型训练和测试。我想了解为什么我们为每个文本类别创建单独的文件?Python 基于支持向量机的web文本分类数据获取,python,json,web-scraping,svm,Python,Json,Web Scraping,Svm,我将从web上获取文本数据,使用svm创建文本分类模型。在对模型进行培训和测试之后,模型应该能够自动理解每个文本类别 web抓取后,数据将以json格式存储 我使用的是监督学习算法,所以标签应该在每个文本类别的json文件中。我可以手动操作,但我的问题是,是将所有类别的数据放在单个文件中,还是将每个文本类别放在单独的文件中 我问这个问题是因为我使用这些文本数据进行模型训练和测试。我想了解为什么我们为每个文本类别创建单独的文件? 我尝试使用php和python抓取来获取过去的web数据。但这并不是
我尝试使用php和python抓取来获取过去的web数据。但这并不是成功。如果不使用API,是否有一种方法可以获取过去的web数据?为什么您认为我们需要“为每个文本类别创建单独的文件”?是的,我在阅读了更多的研究论文后理解了。在对文本数据进行分类之前,无需创建单独的文件。分类之后,我需要为每个类别创建单独的文件。我说得对吗?感谢杰克·弗利廷的支持。