Python 使用n-grams制作CSV文件进行分类的标准方法

Python 使用n-grams制作CSV文件进行分类的标准方法,python,csv,nlp,sentiment-analysis,n-gram,Python,Csv,Nlp,Sentiment Analysis,N Gram,我想从n克推文中创建一个CSV文件,其中包含0/1标签,用于二进制分类。CSV文件的最佳标准结构是什么 你同意下面的示例结构吗 pos_tweet = 'I love you' neg_tweet = 'I hate you' CSV文件: bigram, label I love, 1 love you, 1 I hate, 0 hate you, 0 我不认为有一个标准的方法可以做到这一点,但你提出的方法看起来是完全可行的。@maarten我不确定,但我认为既然克属于同一条推特,它们不应

我想从n克推文中创建一个CSV文件,其中包含0/1标签,用于二进制分类。CSV文件的最佳标准结构是什么

你同意下面的示例结构吗

pos_tweet = 'I love you'
neg_tweet = 'I hate you'
CSV文件:

bigram, label
I love, 1
love you, 1
I hate, 0
hate you, 0

我不认为有一个标准的方法可以做到这一点,但你提出的方法看起来是完全可行的。@maarten我不确定,但我认为既然克属于同一条推特,它们不应该写在不同的行中。你不这么认为吗?这完全取决于你想对它做什么样的分析。如果你的目标是对一条推文进行单一的正/负分类,那么你可以采用n-gram分类法,并使用推文中的所有n-gram进行多数投票。如果您的目标是采用更高级的方法,那么您可能希望保留tweet ID以及tweet中n-gram的顺序。@ECubDevs不会将您的数据相乘。您有两个条目。使用任何适合您的标记化方案(2-3-n gram,n-chars等)对它们进行标记化,如果您愿意,可以将它们写成逗号分隔的列表或矩阵(BOW)。您也可以查看
sklearn
,在那里您可以找到所有您需要的答案