Statistics 如何度量一个特征向量的不同实例数之间的可分性_Statistics_Machine Learning_Pattern Matching_Gaussian

Statistics 如何度量一个特征向量的不同实例数之间的可分性

statistics machine-learning

Statistics 如何度量一个特征向量的不同实例数之间的可分性,statistics,machine-learning,pattern-matching,gaussian,Statistics,Machine Learning,Pattern Matching,Gaussian,如何度量一个特征向量的不同实例数之间的可分性？例如，主向量为V=[1 1 2 3 4 5 7 8 10 100 1000 99 999 54]，并且使用不同的样本长度进行不同的组合 t1=[1 1 2 3 99 1000]或t2=[1 10 1000]或t3=[2 3 4 10 100 99 999 54] 哪一个更容易分离，信息量更大？如果我把它放在GMM中，样本较少的向量有更好的概率，这是不公平的 train=[1 2 1 2 1 2 100 101 102 99 100 101 100

如何度量一个特征向量的不同实例数之间的可分性？例如，主向量为V=[1 1 2 3 4 5 7 8 10 100 1000 99 999 54]，并且使用不同的样本长度进行不同的组合 t1=[1 1 2 3 99 1000]或t2=[1 10 1000]或t3=[2 3 4 10 100 99 999 54] 哪一个更容易分离，信息量更大？如果我把它放在GMM中，样本较少的向量有更好的概率，这是不公平的

train=[1 2 1 2 1 2 100 101 102 99 100 101 1000 1001 999 1003]; 
No_of_Iterations=10;
No_of_Clusters=3;
[mm,vv,ww]=gaussmix(train,[],No_of_Iterations,No_of_Clusters);
test1=[1 1 1 2 2 2 100 100 100 101 1000 1000 1000];
test2=[1 1 2 2 100 99 1000 999];
test3=[1 100 1000];
[lp,rp,kh,kp]=gaussmixp(test1,mm,vv,ww);
sum(lp)
[lp,rp,kh,kp]=gaussmixp(test2,mm,vv,ww);
sum(lp)
[lp,rp,kh,kp]=gaussmixp(test3,mm,vv,ww);
sum(lp)

结果如下：

ans=

-8.0912e+05

ans=

-8.1782e+05

ans=

-5.0381e+05

如果你能帮助我，我将非常感激

如何度量一个特征向量的不同实例数之间的可分性

“可分性”的概念并不严格。如果数据是线性可分离的，则可以将边距大小定义为“可分离性”，但如果数据不是线性可分离的，则即使对于“分离此数据有多容易”的问题，也有明确的答案，由于它是高度依赖于模型的问题-如果你想用带有局部核的SVM将其分离，答案将完全不同，如果你想使用决策树等，答案将完全不同。。此类分析有许多可能的概率、几何和统计方法，但这不是问答现场，这是由熟练的研究人员执行的艰难而持久的od数据分析过程

哪一个更容易分离，信息量更大

取决于可分性和信息性的确切定义。这不是一个可以用问答方式回答的问题，这是一个研究课题，不是一个需要解决的问题

如果我把它放在GMM中，样本较少的向量有更好的概率，这是不公平的

train=[1 2 1 2 1 2 100 101 102 99 100 101 1000 1001 999 1003]; 
No_of_Iterations=10;
No_of_Clusters=3;
[mm,vv,ww]=gaussmix(train,[],No_of_Iterations,No_of_Clusters);
test1=[1 1 1 2 2 2 100 100 100 101 1000 1000 1000];
test2=[1 1 2 2 100 99 1000 999];
test3=[1 100 1000];
[lp,rp,kh,kp]=gaussmixp(test1,mm,vv,ww);
sum(lp)
[lp,rp,kh,kp]=gaussmixp(test2,mm,vv,ww);
sum(lp)
[lp,rp,kh,kp]=gaussmixp(test3,mm,vv,ww);
sum(lp)

你已经问了这个问题，并得到了答案，说明为什么它是“公平的”

你可以试着继续提问，但你会听到类似的答案——“这取决于”并且“手工”回答这样的问题是不可能的。

谢谢你的回答。你能介绍一种方法或技术来测量高斯混合模型中的可分性吗？例如，我用10个样本测量向量的可分性，用20个样本测量向量的可分性。然后我可以得出结论，因为10个样本（更少或更多）与20个样本相比（好或坏）？