Machine learning 图像数据集的特征提取和交叉验证

Machine learning 图像数据集的特征提取和交叉验证,machine-learning,feature-extraction,cross-validation,feature-selection,Machine Learning,Feature Extraction,Cross Validation,Feature Selection,我有一个由功能磁共振图像组成的数据集。每个图像都属于一个类。数据集如下所示: Class 1: 9 images Class 2: 10 images Class 3: 6 images Class 4: 12 images 每个图像都是4D时间序列,即90x60x10x350,其中350是时间维度,即350个3D卷。我想在这些数据上训练一个分类器 现在,我想先提取特征,然后应用PCA等方法进行特征选择,然后进行聚类,如《主特征分析:功能磁共振成像数据的多元特征选择方法》一文中所述。对于

我有一个由功能磁共振图像组成的数据集。每个图像都属于一个类。数据集如下所示:

Class 1: 9 images 
Class 2: 10 images 
Class 3: 6 images 
Class 4: 12 images
每个图像都是4D时间序列,即90x60x10x350,其中350是时间维度,即350个3D卷。我想在这些数据上训练一个分类器

现在,我想先提取特征,然后应用PCA等方法进行特征选择,然后进行聚类,如《主特征分析:功能磁共振成像数据的多元特征选择方法》一文中所述。对于特征提取,我看到了以下可能性:

每个体素是一个特征和每个体素时间序列的平均值 有人拿走了。每个图像正好有一个尺寸为90*60*10=54'000的特征向量

每个体素是一个特征,每个时间点,即每个三维体积是一个数据点。每个图像有350个尺寸为90*60*10=54'000的特征向量

将图像整个时间序列的所有体素放入图像的一个特征向量中 尺寸90*60*10*350=18'900'000。每个图像只有一个特征向量。 将体素之间的相关性值作为特征值。但这是 计算上不可行。 我更喜欢2号。但我不确定这是否是个好主意

您将如何进行特征提取?以计算可行的方式基于相关性的方法如何工作

最后但并非最不重要的一点是,如何对数据集进行交叉验证?问题是不同的阶级是不平衡的


非常感谢您事先给出的答案。

斯皮尔曼、卡方检验和大多数相关计算都在进行中。如果你可以处理1900万的问题实例,我假设你可以,因为你建议了2和3,那么,卡方特征选择在计算上到底有什么是不可行的呢?至于如何进行交叉验证,一种通用的方法是使用分层的k倍CV,它保留了类别百分比。但是你的图片太少,而且太复杂了,我不知道从中能概括出什么来。@IVlad谢谢你的回答。关于相关性,我的意思是计算所有体素对之间的相关性值,并将每个值作为特征。这是一种好方法吗?计算成本不是很高吗?你认为2号和3号也是不错的选择吗?或者,您会建议哪些其他特征提取方法而不是特征选择?关于CV,如果我将做10倍的分层CV,那么当3班只有6张图片时,这是否有效?然后一些折叠将没有类3的图像…我担心,对于一个非常高维的数据集,标记的示例非常少,因此不清楚分类器的泛化效果如何。另一件事是,为了给你关于特征提取的建议,我们首先需要了解数据代表什么,特征提取不是一个黑箱过程。所以你应该详细说明产生这些数据的实验。@cfh这些数据代表功能磁共振成像图像。功能磁共振成像是一种显示大脑活动的脑部扫描。每个功能磁共振成像图像都是4D时间序列,因此每个体素代表一个激活,即具有一些值。在功能磁共振成像图像分析中,数据量很低而图像维数很高是很常见的。最后,我想训练一个分类器,例如SVM,它可以预测图像的类别标签。我猜了很多,但在时间上有多少变化?这些激活是因为盯着静态图像,还是有很多运动在进行?来自两个不同类别的图像是否可能具有非常相似的单个时间片,或者在任何固定时间片上的激活是否已经足以区分类别?