Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/apache-flex/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 如何估计功能的总数?_Machine Learning_Weka_Text Classification - Fatal编程技术网

Machine learning 如何估计功能的总数?

Machine learning 如何估计功能的总数?,machine-learning,weka,text-classification,Machine Learning,Weka,Text Classification,如果我有1000个令牌(我假设令牌是预处理数据集后的特性),那么1000个令牌(单词)将生成多少个bigram特性?是否每个标记都会与词汇表中的所有其他标记有一个二元组合 我问这个问题是因为我必须预先填写单词的数量以保留在weka的词汇表中你不能仅仅根据标记的数量预先计算。Bigram是并排出现的标记对(它是n-gram模型中的一个术语,您在其中有序列的概念)。所以,为了计算bigram的数量,您必须在数据中滑动一个2-token窗口,并检查您找到了多少不同的对 如果你有N个来自某个数据X的记号

如果我有1000个令牌(我假设令牌是预处理数据集后的特性),那么1000个令牌(单词)将生成多少个bigram特性?是否每个标记都会与词汇表中的所有其他标记有一个二元组合


我问这个问题是因为我必须预先填写单词的数量以保留在weka的词汇表中

你不能仅仅根据标记的数量预先计算。Bigram是并排出现的标记对(它是n-gram模型中的一个术语,您在其中有序列的概念)。所以,为了计算bigram的数量,您必须在数据中滑动一个2-token窗口,并检查您找到了多少不同的对


如果你有N个来自某个数据X的记号,你只能说,bigrams B的数量有如下界限:
N是的,我昨天计算出来了,发现它不是我想的单格(记号)的平方。我将rapid miner用于一个数据集,该数据集由12170个符号组成,用于unigram和Bigram,结果是48546维词汇表,但我想知道为什么rapid miner不要求我预先填充词汇表中要保留的词汇数,而weka在StringToWordVector的方法setWordStokep()中要求它。。