Machine learning 图像数据集的特征提取和交叉验证_Machine Learning_Feature Extraction_Cross Validation_Feature Selection

Machine learning 图像数据集的特征提取和交叉验证

machine-learning

Machine learning 图像数据集的特征提取和交叉验证,machine-learning,feature-extraction,cross-validation,feature-selection,Machine Learning,Feature Extraction,Cross Validation,Feature Selection,我有一个由功能磁共振图像组成的数据集。每个图像都属于一个类。数据集如下所示： Class 1: 9 images Class 2: 10 images Class 3: 6 images Class 4: 12 images 每个图像都是4D时间序列，即90x60x10x350，其中350是时间维度，即350个3D卷。我想在这些数据上训练一个分类器现在，我想先提取特征，然后应用PCA等方法进行特征选择，然后进行聚类，如《主特征分析：功能磁共振成像数据的多元特征选择方法》一文中所述。对于

我有一个由功能磁共振图像组成的数据集。每个图像都属于一个类。数据集如下所示：

Class 1: 9 images 
Class 2: 10 images 
Class 3: 6 images 
Class 4: 12 images

每个图像都是4D时间序列，即90x60x10x350，其中350是时间维度，即350个3D卷。我想在这些数据上训练一个分类器

现在，我想先提取特征，然后应用PCA等方法进行特征选择，然后进行聚类，如《主特征分析：功能磁共振成像数据的多元特征选择方法》一文中所述。对于特征提取，我看到了以下可能性：

每个体素是一个特征和每个体素时间序列的平均值有人拿走了。每个图像正好有一个尺寸为90*60*10=54'000的特征向量

每个体素是一个特征，每个时间点，即每个三维体积是一个数据点。每个图像有350个尺寸为90*60*10=54'000的特征向量

将图像整个时间序列的所有体素放入图像的一个特征向量中尺寸90*60*10*350=18'900'000。每个图像只有一个特征向量。将体素之间的相关性值作为特征值。但这是计算上不可行。我更喜欢2号。但我不确定这是否是个好主意

您将如何进行特征提取？以计算可行的方式基于相关性的方法如何工作

最后但并非最不重要的一点是，如何对数据集进行交叉验证？问题是不同的阶级是不平衡的

非常感谢您事先给出的答案。

斯皮尔曼、卡方检验和大多数相关计算都在进行中。如果你可以处理1900万的问题实例，我假设你可以，因为你建议了2和3，那么，卡方特征选择在计算上到底有什么是不可行的呢？至于如何进行交叉验证，一种通用的方法是使用分层的k倍CV，它保留了类别百分比。但是你的图片太少，而且太复杂了，我不知道从中能概括出什么来。@IVlad谢谢你的回答。关于相关性，我的意思是计算所有体素对之间的相关性值，并将每个值作为特征。这是一种好方法吗？计算成本不是很高吗？你认为2号和3号也是不错的选择吗？或者，您会建议哪些其他特征提取方法而不是特征选择？关于CV，如果我将做10倍的分层CV，那么当3班只有6张图片时，这是否有效？然后一些折叠将没有类3的图像…我担心，对于一个非常高维的数据集，标记的示例非常少，因此不清楚分类器的泛化效果如何。另一件事是，为了给你关于特征提取的建议，我们首先需要了解数据代表什么，特征提取不是一个黑箱过程。所以你应该详细说明产生这些数据的实验。@cfh这些数据代表功能磁共振成像图像。功能磁共振成像是一种显示大脑活动的脑部扫描。每个功能磁共振成像图像都是4D时间序列，因此每个体素代表一个激活，即具有一些值。在功能磁共振成像图像分析中，数据量很低而图像维数很高是很常见的。最后，我想训练一个分类器，例如SVM，它可以预测图像的类别标签。我猜了很多，但在时间上有多少变化？这些激活是因为盯着静态图像，还是有很多运动在进行？来自两个不同类别的图像是否可能具有非常相似的单个时间片，或者在任何固定时间片上的激活是否已经足以区分类别？