Python 如何评估我的技术?

Python 如何评估我的技术?,python,machine-learning,nlp,nltk,Python,Machine Learning,Nlp,Nltk,我正在处理一个文本摘要问题,即给定一大块文本,我希望找到最具代表性的“主题”或文本主题。为此,我使用了各种信息论方法,如TF-IDF、剩余IDF和逐点互信息,为我的语料库创建了一个“词典”。这本词典收录了课文中提到的重要词汇 我手动筛选了按照TFIDF标准排序的整个50000个短语列表,并手工挑选了2000个短语(我知道!我花了15个小时来做这件事…),这是基本事实,也就是说,这些确实很重要。现在,当我把它作为一本字典,对我的文本进行简单的频率分析,并提取出前k个短语时,我基本上看到了主题是什么

我正在处理一个文本摘要问题,即给定一大块文本,我希望找到最具代表性的“主题”或文本主题。为此,我使用了各种信息论方法,如TF-IDF、剩余IDF和逐点互信息,为我的语料库创建了一个“词典”。这本词典收录了课文中提到的重要词汇

我手动筛选了按照TFIDF标准排序的整个50000个短语列表,并手工挑选了2000个短语(我知道!我花了15个小时来做这件事…),这是基本事实,也就是说,这些确实很重要。现在,当我把它作为一本字典,对我的文本进行简单的频率分析,并提取出前k个短语时,我基本上看到了主题是什么,我同意我所看到的


现在我如何评估这种方法?这里不涉及机器学习或分类。基本上,我使用了一些NLP技术来创建一个字典,并且单独使用字典来做简单的频率分析给了我想要的主题。但是,我可以对我的系统进行正式的分析,以衡量其准确性或其他方面吗?

我不是机器学习专家,但我会使用。如果您使用1000页文本来“训练”算法(有一个“人在循环中”,但没有问题),那么您可以再进行几百页测试,并使用您的“top-k短语算法”来查找这些算法的“主题”或“主题”。您同意算法结果的测试页面比率为您提供了一个(有点主观的)衡量方法性能的指标

我不是机器学习专家,但我会使用。如果您使用1000页文本来“训练”算法(有一个“人在循环中”,但没有问题),那么您可以再进行几百页测试,并使用您的“top-k短语算法”来查找这些算法的“主题”或“主题”。您同意算法结果的测试页面比率为您提供了一个(有点主观的)衡量方法性能的指标

如果我没弄错的话,你有一个软件,可以对一个文本页面进行频率分析,并给你关键词——这意味着你有一个算法:)插入几百个页面,收集每个页面的关键词集。然后阅读每一页,确定关键字集是否正确描述了文本的主题。为了避免你的个人偏见,让志愿者用1到10的量表来评估关键词集的优点。你也可以把文本和它们的关键词放到网上,然后使用众包!现在唯一的问题是找到志愿者来做这件事,因为这是一个非常特定于领域的问题(医学),所以基本的众包可能很难合作,因为很难找到志愿者。我们会找到一些好的众包方法。谢谢你抽出时间。是的。现在肯定要走这条路。:)如果我没弄错的话,你有一个软件,可以对一个文本页面进行频率分析,并给你关键词——这意味着你有一个算法:)插入几百个页面,收集每个页面的关键词集。然后阅读每一页,确定关键字集是否正确描述了文本的主题。为了避免你的个人偏见,让志愿者用1到10的量表来评估关键词集的优点。你也可以把文本和它们的关键词放到网上,然后使用众包!现在唯一的问题是找到志愿者来做这件事,因为这是一个非常特定于领域的问题(医学),所以基本的众包可能很难合作,因为很难找到志愿者。我们会找到一些好的众包方法。谢谢你抽出时间。是的。现在肯定要走这条路。:)