Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/xcode/7.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scikit learn 使用SMOTE对tweet进行上采样_Scikit Learn_Oversampling_Smote - Fatal编程技术网

Scikit learn 使用SMOTE对tweet进行上采样

Scikit learn 使用SMOTE对tweet进行上采样,scikit-learn,oversampling,smote,Scikit Learn,Oversampling,Smote,我有一个不平衡的tweet数据集,标记为-1,0,+1。 我想通过上采样来平衡数字。我收到以下错误: tweet_train=tweet_train.reshape(-1, 1) X_train_upsample, y_train_upsample = SMOTE(random_state=42).fit_sample(tweet_train, y_train) 无法将字符串转换为浮浮式:无法将字符串转换为浮式:无法将字符串转换为浮式:无法将字符串转换为浮式:无法将151575日日日日日方方方

我有一个不平衡的tweet数据集,标记为-1,0,+1。 我想通过上采样来平衡数字。我收到以下错误:

tweet_train=tweet_train.reshape(-1, 1)
X_train_upsample, y_train_upsample = SMOTE(random_state=42).fit_sample(tweet_train, y_train)
无法将字符串转换为浮浮式:无法将字符串转换为浮式:无法将字符串转换为浮式:无法将字符串转换为浮式:无法将151575日日日日日方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方在各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各㶪㶪硂硂硂硂硂硂硂硂硂硂硂硂硂硂硂各各半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半半ثبتکه

为什么它要尝试将字符串转换为float


注:在重塑之前,tweet_train和y_train是numpy数组,shape=(n,)

您需要首先对数据进行矢量化:例如,您可以通过与词汇表中的单词数相同大小的向量来表示tweet。这些值是单词(=列)在文档中出现的次数。

这会起作用,但我认为这不是最正确的方法。我可能会导致过度装配MOTE需要实值向量作为输入来生成新实例。我只把单词袋方法作为矢量化的一个例子。还有其他几种文本矢量化方法,例如段落矢量嵌入。但是你不能输入字符串,因为SMOTE不知道如何处理它们(从你得到的错误来看,
tweet\u train
包含字符串)。我理解你的观点。但我是说我们的弓形表示在过度采样后会发生变化。如果我们先做弓,然后再做样品,它就不会那么准确了。有解决这个问题的方法吗?我从未尝试将SMOTE应用于文本数据。也许最好只是复制少数群体的tweet,而不生成合成tweet。