Statistics 如何度量一个特征向量的不同实例数之间的可分性

Statistics 如何度量一个特征向量的不同实例数之间的可分性,statistics,machine-learning,pattern-matching,gaussian,Statistics,Machine Learning,Pattern Matching,Gaussian,如何度量一个特征向量的不同实例数之间的可分性? 例如,主向量为V=[1 1 2 3 4 5 7 8 10 100 1000 99 999 54],并且使用不同的样本长度进行不同的组合 t1=[1 1 2 3 99 1000]或t2=[1 10 1000]或t3=[2 3 4 10 100 99 999 54] 哪一个更容易分离,信息量更大? 如果我把它放在GMM中,样本较少的向量有更好的概率,这是不公平的 train=[1 2 1 2 1 2 100 101 102 99 100 101 100

如何度量一个特征向量的不同实例数之间的可分性? 例如,主向量为V=[1 1 2 3 4 5 7 8 10 100 1000 99 999 54],并且使用不同的样本长度进行不同的组合 t1=[1 1 2 3 99 1000]或t2=[1 10 1000]或t3=[2 3 4 10 100 99 999 54] 哪一个更容易分离,信息量更大? 如果我把它放在GMM中,样本较少的向量有更好的概率,这是不公平的

train=[1 2 1 2 1 2 100 101 102 99 100 101 1000 1001 999 1003]; 
No_of_Iterations=10;
No_of_Clusters=3;
[mm,vv,ww]=gaussmix(train,[],No_of_Iterations,No_of_Clusters);
test1=[1 1 1 2 2 2 100 100 100 101 1000 1000 1000];
test2=[1 1 2 2 100 99 1000 999];
test3=[1 100 1000];
[lp,rp,kh,kp]=gaussmixp(test1,mm,vv,ww);
sum(lp)
[lp,rp,kh,kp]=gaussmixp(test2,mm,vv,ww);
sum(lp)
[lp,rp,kh,kp]=gaussmixp(test3,mm,vv,ww);
sum(lp)
结果如下:

ans=

-8.0912e+05

ans=

-8.1782e+05

ans=

-5.0381e+05

如果你能帮助我,我将非常感激

如何度量一个特征向量的不同实例数之间的可分性

“可分性”的概念并不严格。如果数据是线性可分离的,则可以将边距大小定义为“可分离性”,但如果数据不是线性可分离的,则即使对于“分离此数据有多容易”的问题,也有明确的答案,由于它是高度依赖于模型的问题-如果你想用带有局部核的SVM将其分离,答案将完全不同,如果你想使用决策树等,答案将完全不同。。此类分析有许多可能的概率、几何和统计方法,但这不是问答现场,这是由熟练的研究人员执行的艰难而持久的od数据分析过程

哪一个更容易分离,信息量更大

取决于可分性和信息性的确切定义。这不是一个可以用问答方式回答的问题,这是一个研究课题,不是一个需要解决的问题

如果我把它放在GMM中,样本较少的向量有更好的概率,这是不公平的

train=[1 2 1 2 1 2 100 101 102 99 100 101 1000 1001 999 1003]; 
No_of_Iterations=10;
No_of_Clusters=3;
[mm,vv,ww]=gaussmix(train,[],No_of_Iterations,No_of_Clusters);
test1=[1 1 1 2 2 2 100 100 100 101 1000 1000 1000];
test2=[1 1 2 2 100 99 1000 999];
test3=[1 100 1000];
[lp,rp,kh,kp]=gaussmixp(test1,mm,vv,ww);
sum(lp)
[lp,rp,kh,kp]=gaussmixp(test2,mm,vv,ww);
sum(lp)
[lp,rp,kh,kp]=gaussmixp(test3,mm,vv,ww);
sum(lp)
你已经问了这个问题,并得到了答案,说明为什么它是“公平的”


你可以试着继续提问,但你会听到类似的答案——“这取决于”并且“手工”回答这样的问题是不可能的。

谢谢你的回答。你能介绍一种方法或技术来测量高斯混合模型中的可分性吗?例如,我用10个样本测量向量的可分性,用20个样本测量向量的可分性。然后我可以得出结论,因为10个样本(更少或更多)与20个样本相比(好或坏)?