python中的Tf-Idf计算_Python_List_Tf Idf

python中的Tf-Idf计算

python list

python中的Tf-Idf计算,python,list,tf-idf,Python,List,Tf Idf,我是python新手，我想编写一个函数，在给定两个参数的情况下计算术语频率逆文档频率参数：文档……列表列表，其中每个子列表包含一个文档的标记。文档频率…从一个术语到另一个文档的频率（在一个特定术语中有多少文档）期望输出： index = create_tfidf_index([['a', 'b', 'a'], ['a']], {'a': 2., 'b': 1., 'c': 1.}) index['a'] [[0, 0.0], [1, 0.0]] index['b'] [[0, 0.3

我是python新手，我想编写一个函数，在给定两个参数的情况下计算术语频率逆文档频率

参数：文档……列表列表，其中每个子列表包含一个文档的标记。文档频率…从一个术语到另一个文档的频率（在一个特定术语中有多少文档）

期望输出：

index = create_tfidf_index([['a', 'b', 'a'], ['a']], {'a': 2., 'b': 1., 'c': 1.})
index['a']
[[0, 0.0], [1, 0.0]]
index['b']  
[[0, 0.301...]]

查找doc_freq的我的代码（tfidf函数中的第二个参数）

现在，有谁能帮助我如何使用我上面描述的这两个参数计算tf idf，并生成如我所示的输出

请帮助大家

除非你必须为考试自己编写函数，否则我会用

这是一张像样的支票

这方面的官方文件也很好。它证明了这一点

希望这有助于一些。

你考虑过使用ScKIT学习吗？

def count_doc_frequencies(docs):
    tmp = []
    lst = {}
    for item in docs: tmp += set(item)
    for key in tmp: lst[key] = lst.get(key, 0) + 1
    return lst

res = Index().count_doc_frequencies([['a', 'b', 'a'], ['a', 'b', 'c'], ['a']])
res['a']
3