Machine learning 如何在Python中组合不同的稀疏矩阵?

Machine learning 如何在Python中组合不同的稀疏矩阵?,machine-learning,scikit-learn,deep-learning,feature-extraction,feature-detection,Machine Learning,Scikit Learn,Deep Learning,Feature Extraction,Feature Detection,我正在使用sci工具包构建机器学习模型。我的数据集是svm文件的数量。我已经用sklearn加载了这些文件。它以稀疏矩阵的形式返回数据,以numpy数组的形式返回目标。现在的问题是,不同的文件有不同的维度,因此不能连接在一起形成一个大矩阵 例如 对于一个文件-X是 对于其他文件(来自同一数据集)-X为 此数据集中有100多个文件。它们有不同数量的功能,该怎么办 谢谢。没有更多信息,无法回答此问题。它与稀疏数据结构也没有多大关系。您的任务是了解功能差异是如何存在的,以及这到底意味着什么。我们猜不到

我正在使用sci工具包构建机器学习模型。我的数据集是svm文件的数量。我已经用sklearn加载了这些文件。它以稀疏矩阵的形式返回数据,以numpy数组的形式返回目标。现在的问题是,不同的文件有不同的维度,因此不能连接在一起形成一个大矩阵

例如

对于一个文件-X是

对于其他文件(来自同一数据集)-X为

此数据集中有100多个文件。它们有不同数量的功能,该怎么办


谢谢。

没有更多信息,无法回答此问题。它与稀疏数据结构也没有多大关系。您的任务是了解功能差异是如何存在的,以及这到底意味着什么。我们猜不到。(当然,您可以从第二个功能中修剪最后6个功能,并可以使用scipy.sparse.vstack来合并这些功能;但是……没有人知道我们要扔掉什么)此外:修剪方法还假设在最后添加了功能。如果在开始时添加了这些功能,并且我们这样做了,那么大多数分类器都会失败,因为功能的顺序会被打破。感谢您提供的信息性评论。具体来说,我使用这些数据来分类给定的URL是否是恶意的。此数据集包含120个svmlight文件。如何将每个文件中的特征/目标存储到一个矩阵中?在修剪方法上,它不会失去一些重要的特性吗?上述数据仅来自两个文件。多个文件之间的许多功能可能存在较大差异。