Machine learning 有没有一种机器学习算法可以用成对的整数集进行训练?

Machine learning 有没有一种机器学习算法可以用成对的整数集进行训练?,machine-learning,integer,set,Machine Learning,Integer,Set,[编辑注意:请将此问题移至交叉验证社区] 例如,训练集由积极的例子组成 (s1,s2),其中s1是一个整数集,s2是另一个整数集。 s1和s2可能具有不同的基数。 反面的例子是相似的:整数集的成对(s3,s4)。似乎主要的问题是从输入数据中实际提取特征。一旦您将成对的集合编码为向量,您几乎可以使用任何您想要的算法 最明显的方法是使用整数作为单词的方法(具体来说,似乎适合分别对两个集合进行编码,然后将它们的术语频率矩阵串联起来) 当然,您必须接受要么在开始时给出可能的整数范围,要么某些整数没有被编

[编辑注意:请将此问题移至交叉验证社区]

例如,训练集由积极的例子组成 (s1,s2),其中s1是一个整数集,s2是另一个整数集。 s1和s2可能具有不同的基数。
反面的例子是相似的:整数集的成对(s3,s4)。

似乎主要的问题是从输入数据中实际提取特征。一旦您将成对的集合编码为向量,您几乎可以使用任何您想要的算法

最明显的方法是使用整数作为单词的方法(具体来说,似乎适合分别对两个集合进行编码,然后将它们的术语频率矩阵串联起来)

当然,您必须接受要么在开始时给出可能的整数范围,要么某些整数没有被编码


如果你想练习弓形模型,我建议你试试。例如,您可以使用scikit learn解决此问题-其文档包含有关的教程。

人类如何区分正面和负面示例?正面示例将从数据集中提取。从数据集中提取正面示例,消极的例子可以通过一些随机化来构造,这样可以避免产生任何积极的例子。有可能对同一个任务使用支持向量机吗?就像在svm_序列(s1,s2,好)和svm_序列(s1,s3,坏)中一样,我描述的技术只提取特征。您可以在提取的数据集上运行机器学习算法;不是关于特征提取。因为我怀疑大多数机器学习算法在稀疏且非常长的向量上是否能很好地工作。这就是为什么我要求一个可以直接处理整数集的算法。编辑们注意:这个问题可以转移到“交叉验证”社区吗?谢谢好的,我明白了。问题是,在机器学习中,几乎所有的阿尔及尔算法都使用向量,而不是整数集。正如我所说,BoW模型用于文本挖掘,它通常会给出长度达到数十万的向量。但有些分类器能够处理这些数据。此外,您还可以尝试特征选择/降维以减少已使用特征的数量。