Machine learning 如何使用Rapidminer处理XML文件进行分类_Machine Learning_Classification_Rapidminer

Machine learning 如何使用Rapidminer处理XML文件进行分类

machine-learning

Machine learning 如何使用Rapidminer处理XML文件进行分类,machine-learning,classification,rapidminer,Machine Learning,Classification,Rapidminer,我是个新手。我有很多XML文件，我想根据关键字手动分类这些文件。然后我想在这些数据上训练一个分类器，比如Naive Bayer和SVM，并使用交叉验证器计算它们的性能你能告诉我这方面的不同步骤吗我是否需要使用标记化、TFIDF等文本处理活动？步骤如下所示循环文件-即迭代文件夹中的所有文件并依次读取每个文件。对于每个文件把它当作文件读进去。使用诸如Extract Information（提取信息）或Cut Document（包含合适的XPath查询）之类的运算符对其进行标记，以输出与文

我是个新手。我有很多XML文件，我想根据关键字手动分类这些文件。然后我想在这些数据上训练一个分类器，比如Naive Bayer和SVM，并使用交叉验证器计算它们的性能

你能告诉我这方面的不同步骤吗

我是否需要使用标记化、TFIDF等文本处理活动？

步骤如下所示

循环文件-即迭代文件夹中的所有文件并依次读取每个文件。对于每个文件把它当作文件读进去。使用诸如Extract Information（提取信息）或Cut Document（包含合适的XPath查询）之类的运算符对其进行标记，以输出与文档中提取的信息相对应的行。创建包含所有行的文档向量。这就是TF-IDF或其他方法将被使用的地方。选择取决于手边的问题，TF-IDF是一种常见的选择，在这种情况下，重要的是对经常出现在相对较少的文档中的令牌给予更多的权重。建立模型，并使用交叉验证来估计未看到数据的性能。我已经包括了一个流程的一部分，您可以将其用作此过程的基础。它读取包含XML文件的RapidMiner存储库，因此是使用文本处理技术处理XML文档的一个很好的示例。显然，您必须对您的案例进行一些大的修改

希望能有所帮助。

也许现在回复已经太晚了。但它可以帮助其他人。有一个名为“文本挖掘扩展”的扩展，我使用的是6.1.0版。因此，您可以转到RapidMiner>帮助>更新并安装此扩展。它将从一个目录中获取所有文件。它有各种可以使用的文本挖掘算法

此外，我还发现了这段教程视频，它也可能对您有所帮助