Python 单个单词的Sci工具包学习和tf idf分数？_Python_Scikit Learn_Tf Idf

Python 单个单词的Sci工具包学习和tf idf分数？

python scikit-learn

Python 单个单词的Sci工具包学习和tf idf分数？,python,scikit-learn,tf-idf,Python,Scikit Learn,Tf Idf,我有一个pandas数据框架，它由两个字符串和每个条目一个关键字组成。看起来是这样的： \n 05 Temmuz 2016 17:59 \ 0 Suriyelilere vatandaşlığa neden karşı çıkılıyor 1 Selin Girit Kendi ülkesinde savaştan

我有一个pandas数据框架，它由两个字符串和每个条目一个关键字组成。看起来是这样的：

    \n  05 Temmuz 2016 17:59                                  \
    0  Suriyelilere vatandaşlığa neden karşı çıkılıyor                                           
    1  Selin Girit Kendi ülkesinde savaştan kaçacak s...                                           

    \n 10 Temmuz 2016 09:01                                  \
    0  Öteki Suriyeliler: Türkiye vatandaşı olursak a...                                           
    1  Cumhurbaşkanı Tayyip Erdoğan Suriyelilere vata...

    (0, 1)  0.520040083208
    (0, 8)  0.307144050546
    (0, 5)  0.307144050546
    (0, 4)  0.520040083208
    (0, 7)  0.520040083208
    (1, 8)  0.326309521953
    (1, 5)  0.326309521953
    (1, 3)  0.420182921489
    (1, 2)  0.552490047084
    (1, 0)  0.552490047084
    (2, 8)  0.294893556078
    (2, 5)  0.294893556078
    (2, 3)  0.759458290886
    (2, 6)  0.499298193039

我想做的是使用sci kit learn获取第二个字符串中每个单词的tf idf，并将其与一般单词的语料库进行比较。但我真的不知道该怎么做。如果我使用tfidfVectorize（），我会得到如下结果：

    \n  05 Temmuz 2016 17:59                                  \
    0  Suriyelilere vatandaşlığa neden karşı çıkılıyor                                           
    1  Selin Girit Kendi ülkesinde savaştan kaçacak s...                                           

    \n 10 Temmuz 2016 09:01                                  \
    0  Öteki Suriyeliler: Türkiye vatandaşı olursak a...                                           
    1  Cumhurbaşkanı Tayyip Erdoğan Suriyelilere vata...

    (0, 1)  0.520040083208
    (0, 8)  0.307144050546
    (0, 5)  0.307144050546
    (0, 4)  0.520040083208
    (0, 7)  0.520040083208
    (1, 8)  0.326309521953
    (1, 5)  0.326309521953
    (1, 3)  0.420182921489
    (1, 2)  0.552490047084
    (1, 0)  0.552490047084
    (2, 8)  0.294893556078
    (2, 5)  0.294893556078
    (2, 3)  0.759458290886
    (2, 6)  0.499298193039

但这个输出并不是针对每个单词的，它是字典中单词之间的比较，而不是一般的语料库。。。我不知道该怎么做我想要的，我希望有人能给我一些建议，因为Sci工具包的学习文档不是很清楚

你能把数据帧的格式设置得更好一点吗？很难解释什么是索引，什么是列标题，什么是data@Grr是的，对不起！我想这部分是我感到困惑的原因。我以前从未使用过熊猫，所以数据帧的格式本身对我来说仍然很奇怪。。。我已经更清楚地格式化了，所以您现在可以看到每个条目有三行，第一行是键，在本例中是日期，第二行是字符串。我感兴趣的是第二个字符串的文本，在本例中是一篇报纸文章的内容，输出的不是单词之间的比较。它是数组的稀疏输出（仅显示那些具有非零值的元素，其中（i，j）是该元素的行和列。请参见我的相关内容。可以使用tfidf.get\u feature\u names（）返回计算它的单词）.除此之外，我不清楚您想做什么。请详细描述输入和所需输出。