Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/sorting/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Sorting 如何对文本进行数据挖掘?_Sorting_Text_Data Mining - Fatal编程技术网

Sorting 如何对文本进行数据挖掘?

Sorting 如何对文本进行数据挖掘?,sorting,text,data-mining,Sorting,Text,Data Mining,问题出在这里。我有一堆大的文本文件,里面有一段又一段的书面内容。每个段落都包含对几个人(姓名)的引用,并记录了几个主题(地点、对象) 我如何挖掘这堆数据来组装分类库。。。一般来说,有两件事 我不知道我在寻找什么,以获得最常用的单词/多个单词(“雅各布·史密斯”或“蓝水客栈”或“箭头”) 然后知道关键字,我需要一个程序来帮助我搜索相关的段落,然后排序和优化结果(手动) 看起来你在尝试创建索引 我认为学习Perl有关于在文本文件中查找单词频率的信息,所以这不是一个特别困难的问题 但是你真的想知道“t

问题出在这里。我有一堆大的文本文件,里面有一段又一段的书面内容。每个段落都包含对几个人(姓名)的引用,并记录了几个主题(地点、对象)

我如何挖掘这堆数据来组装分类库。。。一般来说,有两件事

  • 我不知道我在寻找什么,以获得最常用的单词/多个单词(“雅各布·史密斯”或“蓝水客栈”或“箭头”)

  • 然后知道关键字,我需要一个程序来帮助我搜索相关的段落,然后排序和优化结果(手动)


  • 看起来你在尝试创建索引

    我认为学习Perl有关于在文本文件中查找单词频率的信息,所以这不是一个特别困难的问题

    但是你真的想知道“the”或“a”是最常见的词吗

    如果你在寻找某种主题索引,那么你真正关心的单词可能会在列表的下方,夹杂着更多你不关心的单词

    你可以先去掉列表前面的“停止词”来过滤你的结果,但是没有什么比关联关键词更能反映段落的主题,这需要上下文


    不管怎么说,我可能会离开基地,但你来了

    看起来您正在尝试创建索引

    我认为学习Perl有关于在文本文件中查找单词频率的信息,所以这不是一个特别困难的问题

    但是你真的想知道“the”或“a”是最常见的词吗

    如果你在寻找某种主题索引,那么你真正关心的单词可能会在列表的下方,夹杂着更多你不关心的单词

    你可以先去掉列表前面的“停止词”来过滤你的结果,但是没有什么比关联关键词更能反映段落的主题,这需要上下文


    不管怎么说,我可能会离开基地,但你来了

    你问的问题是你不知道你在找什么。如果你有一些你关心的术语的加权列表,那么你的状态会很好

    从语义上讲,问题有两个方面:

    • 一般来说,最常用的词是最不相关的。即使你使用一个stopwords文件,也会有很多杂碎残留
    • 一般来说,使用最少的词是最相关的。例如,“蓝水客栈”可能并不常见
    让我们假设你做了一些你想做的事情,并且生成了一个清晰的列表,列出了文本中出现的所有关键词。这样的关键词将有数千个。在1000个术语的列表中查找“bluewater inn”实际上比在段落中查找“bluewater inn”要困难(假设你不知道你在找什么),因为你可以浏览文本,你会找到包含“bluewater inn”的段落,因为它的上下文,但你无法在列表中找到它,因为列表没有上下文


    你为什么不多谈谈你的申请和流程,然后也许我们可以更好地帮助你呢?

    你问的问题是你不知道你在找什么。如果你有一些你关心的术语的加权列表,那么你的状态会很好

    从语义上讲,问题有两个方面:

    • 一般来说,最常用的词是最不相关的。即使你使用一个stopwords文件,也会有很多杂碎残留
    • 一般来说,使用最少的词是最相关的。例如,“蓝水客栈”可能并不常见
    让我们假设你做了一些你想做的事情,并且生成了一个清晰的列表,列出了文本中出现的所有关键词。这样的关键词将有数千个。在1000个术语的列表中查找“bluewater inn”实际上比在段落中查找“bluewater inn”要困难(假设你不知道你在找什么),因为你可以浏览文本,你会找到包含“bluewater inn”的段落,因为它的上下文,但你无法在列表中找到它,因为列表没有上下文


    你为什么不多谈谈你的申请和流程,然后也许我们可以更好地帮助你呢???

    我想你想做的就是把它叫做“”。这篇维基百科文章有一个很好的概述和一个应用程序列表,包括开源应用程序。我曾经在列表中的一个商业工具上工作,但没有编程能力,因此我无法在这方面帮助您。

    我认为您想要做的就是所谓的“”。这篇维基百科文章有一个很好的概述和一个应用程序列表,包括开源应用程序。我曾经在列表中的一个商业工具上工作,但没有编程能力,因此我无法在这方面帮助您。

    您的问题有点开放:) 很可能,您会在以下目录中找到您想要进行的任何分析的模块:

    非结构化信息管理应用程序是分析大量非结构化信息以发现与最终用户相关的知识的软件系统。示例UIM应用程序可能接收纯文本并识别实体,例如人员、地点、组织;或关系,如为工作或位于。 UIMA由许多东西组成

    UIMA允许将应用程序分解为组件,例如“语言识别”=>“语言特定分段”=>“句子边界检测”=>“实体检测(人名/地名等)”。每个组件实现框架定义的接口,并通过XML描述符文件提供自描述元数据。该框架管理这些组件以及它们之间的数据流。组件用java或C++编写;组件之间的数据流是为这些语言之间的高效映射而设计的

    您还可以找到用于文本分析的有用API;取决于您的文档堆有多大