获取标题java库中的重要单词
是否有任何java库可以通过给定的文本(标题)获取其中重要单词的集合获取标题java库中的重要单词,java,text-analysis,Java,Text Analysis,是否有任何java库可以通过给定的文本(标题)获取其中重要单词的集合 编辑:我所说的“重要”是指定义了句子主旨的那个。 谢谢。您可能想看看 您可能还想阅读更多关于这方面的内容,这些内容通常用于与您描述的案例类似的案例 编辑:有关Tf Idf型号的更多信息: tf idf模型基本上说明了两件事: 如果一个术语在您的数据中多次出现,它可能很重要。[tf] 如果一个术语在世界上出现过多次,那么它会出现在您的数据中——然而,如果它很少出现在您的数据中——这表明它是一个非常“重要的”[idf] tf id
编辑:我所说的“重要”是指定义了句子主旨的那个。
谢谢。您可能想看看 您可能还想阅读更多关于这方面的内容,这些内容通常用于与您描述的案例类似的案例 编辑:有关Tf Idf型号的更多信息: tf idf模型基本上说明了两件事:
要查找idf值,您可能需要为集合编制索引或使用一些搜索引擎API,并根据结果的数量估计每个术语的通用程度[请注意,引擎返回的数字并不准确,但可能用作粗略估计]尝试对文档(或文档集合)执行此操作。我怀疑你能否用一个句子做很多事情 您可以尝试使用语义解析器(eg)来获取主要的主语/对象/等,但它仍然没有那么简单
你正在尝试做的一些例子会有所帮助。“定义主要思想”仍然很模糊-你在处理什么类型的句子?考虑到你只处理标题,我想几乎任何不是的单词都很重要 也许您只是在寻找一个基本的停止字删除算法,而不是一个完整的文本分析算法
这取决于你需要这个东西有多复杂或“聪明”。定义“重要”。我所说的重要是指定义句子主旨的那一个。我得到rss科学新闻标题,并想确定哪些词可以识别标题。