Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/363.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 使用KEA或其他python库提取关键字_Java_Python_Machine Learning_Keyword Search - Fatal编程技术网

Java 使用KEA或其他python库提取关键字

Java 使用KEA或其他python库提取关键字,java,python,machine-learning,keyword-search,Java,Python,Machine Learning,Keyword Search,我现在为一个关键词提取项目工作。基本上,我使用python来实现这一点。 让我先谈谈我的项目是什么。 我在这个项目中的目标是从一个段落或网页中找出关键词(关键词不是那么好) 我假设我可以从一个网站抓取一个非常好的内容结构 假设我有很多段落,所有段落都来自同一行业。以下是示例段落之一: 关于我们 我们是世界上最大的银行,提供世界上最安全的服务。我行提供外汇、证券交易和储蓄服务。在过去几年中,我们成功地建立了可靠的声誉 第二,我在其他章节中标记了这些段落中的关键词,以建立监督学习模型 最后,我尝试使

我现在为一个关键词提取项目工作。基本上,我使用python来实现这一点。 让我先谈谈我的项目是什么。 我在这个项目中的目标是从一个段落或网页中找出关键词(关键词不是那么好)

我假设我可以从一个网站抓取一个非常好的内容结构

假设我有很多段落,所有段落都来自同一行业。以下是示例段落之一:

关于我们

我们是世界上最大的银行,提供世界上最安全的服务。我行提供外汇、证券交易和储蓄服务。在过去几年中,我们成功地建立了可靠的声誉

第二,我在其他章节中标记了这些段落中的关键词,以建立监督学习模型

最后,我尝试使用KEA,这是一个JAVA程序(我使用python调用JAVA程序),来创建一个模型

然而,结果最终是糟糕透顶的。准确率仅为15%左右。这意味着,如果我给我的KEA程序一个段落,KEA将向我输出10个关键字,几乎85%的人认为所有这些关键字实际上都不是一个理想的关键字

这里我有几个问题:

  • 这个问题是关于KEA的准备材料。关键字是否应该包含在培训数据的.txt文件中?或者我应该把它从段落中删除?因为它在KEA的自述文件中很混乱:
  • '从这些文档中删除作者指定的关键短语 并将它们放入单独的“.key”文件中。例如,如果 您的文档文件名为doc1.txt,请移动关键短语 放入名为“doc1.key”的新文件中。重要的是 你把每个关键词放在这个文件中的一行

    假设我有最后一个训练数据示例段,并假设“安全”和“可靠”。我应该从段落中删除这两个词吗

  • 由于KEA可以应用SKOS词汇表,这是否意味着如果我在某类主题(比如金融行业)中使用适当的SKOS词汇表,我的模型结果会更好?如果是,我在哪里可以找到这些SKOS词汇表,例如,我想要有关金融业的SKOS词汇表

  • 在本主题中,python中是否有强大的建议库?有人能和我分享吗


  • 非常感谢。

    实际上,我尝试使用这个()kaggle示例来实现这一点。然而,这太简单了


    不知怎的,我想知道更多的练习案例。比如netfix或facebook如何检测人们的评论。有人能告诉我更多关于这个文本挖掘的信息吗?

    实际上,我试着用这个()kaggle例子来做这件事。然而,这太简单了

    不知怎的,我想知道更多的练习案例。比如netfix或facebook如何检测人们的评论。有谁能告诉我更多关于这个文本挖掘的信息吗