Machine learning 如何在Python中组合不同的稀疏矩阵？_Machine Learning_Scikit Learn_Deep Learning_Feature Extraction_Feature Detection

Machine learning 如何在Python中组合不同的稀疏矩阵？

machine-learning scikit-learn deep-learning

Machine learning 如何在Python中组合不同的稀疏矩阵？,machine-learning,scikit-learn,deep-learning,feature-extraction,feature-detection,Machine Learning,Scikit Learn,Deep Learning,Feature Extraction,Feature Detection,我正在使用sci工具包构建机器学习模型。我的数据集是svm文件的数量。我已经用sklearn加载了这些文件。它以稀疏矩阵的形式返回数据，以numpy数组的形式返回目标。现在的问题是，不同的文件有不同的维度，因此不能连接在一起形成一个大矩阵例如对于一个文件-X是对于其他文件（来自同一数据集）-X为此数据集中有100多个文件。它们有不同数量的功能，该怎么办谢谢。没有更多信息，无法回答此问题。它与稀疏数据结构也没有多大关系。您的任务是了解功能差异是如何存在的，以及这到底意味着什么。我们猜不到

我正在使用sci工具包构建机器学习模型。我的数据集是svm文件的数量。我已经用sklearn加载了这些文件。它以稀疏矩阵的形式返回数据，以numpy数组的形式返回目标。现在的问题是，不同的文件有不同的维度，因此不能连接在一起形成一个大矩阵

例如

对于一个文件-X是

对于其他文件（来自同一数据集）-X为

此数据集中有100多个文件。它们有不同数量的功能，该怎么办

谢谢。

没有更多信息，无法回答此问题。它与稀疏数据结构也没有多大关系。您的任务是了解功能差异是如何存在的，以及这到底意味着什么。我们猜不到。（当然，您可以从第二个功能中修剪最后6个功能，并可以使用scipy.sparse.vstack来合并这些功能；但是……没有人知道我们要扔掉什么）此外：修剪方法还假设在最后添加了功能。如果在开始时添加了这些功能，并且我们这样做了，那么大多数分类器都会失败，因为功能的顺序会被打破。感谢您提供的信息性评论。具体来说，我使用这些数据来分类给定的URL是否是恶意的。此数据集包含120个svmlight文件。如何将每个文件中的特征/目标存储到一个矩阵中？在修剪方法上，它不会失去一些重要的特性吗？上述数据仅来自两个文件。多个文件之间的许多功能可能存在较大差异。