Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/heroku/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
获取标题java库中的重要单词_Java_Text Analysis - Fatal编程技术网

获取标题java库中的重要单词

获取标题java库中的重要单词,java,text-analysis,Java,Text Analysis,是否有任何java库可以通过给定的文本(标题)获取其中重要单词的集合 编辑:我所说的“重要”是指定义了句子主旨的那个。 谢谢。您可能想看看 您可能还想阅读更多关于这方面的内容,这些内容通常用于与您描述的案例类似的案例 编辑:有关Tf Idf型号的更多信息: tf idf模型基本上说明了两件事: 如果一个术语在您的数据中多次出现,它可能很重要。[tf] 如果一个术语在世界上出现过多次,那么它会出现在您的数据中——然而,如果它很少出现在您的数据中——这表明它是一个非常“重要的”[idf] tf id

是否有任何java库可以通过给定的文本(标题)获取其中重要单词的集合

编辑:我所说的“重要”是指定义了句子主旨的那个。
谢谢。

您可能想看看

您可能还想阅读更多关于这方面的内容,这些内容通常用于与您描述的案例类似的案例

编辑:有关Tf Idf型号的更多信息:

tf idf模型基本上说明了两件事:

  • 如果一个术语在您的数据中多次出现,它可能很重要。[tf]
  • 如果一个术语在世界上出现过多次,那么它会出现在您的数据中——然而,如果它很少出现在您的数据中——这表明它是一个非常“重要的”[idf]
  • tf idf模型利用这一假设,并根据tf、idf值对每个术语进行评级。
    要查找idf值,您可能需要为集合编制索引或使用一些搜索引擎API,并根据结果的数量估计每个术语的通用程度[请注意,引擎返回的数字并不准确,但可能用作粗略估计]

    尝试对文档(或文档集合)执行此操作。我怀疑你能否用一个句子做很多事情

    您可以尝试使用语义解析器(eg)来获取主要的主语/对象/等,但它仍然没有那么简单


    你正在尝试做的一些例子会有所帮助。“定义主要思想”仍然很模糊-你在处理什么类型的句子?

    考虑到你只处理标题,我想几乎任何不是的单词都很重要

    也许您只是在寻找一个基本的停止字删除算法,而不是一个完整的文本分析算法


    这取决于你需要这个东西有多复杂或“聪明”。

    定义“重要”。我所说的重要是指定义句子主旨的那一个。我得到rss科学新闻标题,并想确定哪些词可以识别标题。