Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/spring/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 如何评价(擦伤的)句子的质量?_Python 3.x_Parsing_Nlp_Nltk - Fatal编程技术网

Python 3.x 如何评价(擦伤的)句子的质量?

Python 3.x 如何评价(擦伤的)句子的质量?,python-3.x,parsing,nlp,nltk,Python 3.x,Parsing,Nlp,Nltk,我在Python3中运行一个scrape和process例程,但是我得到的一些句子是垃圾。我想拒绝这些,但不知道怎么做 我在NLTK中使用词性标记和组块,但这似乎不能帮助我识别无效的句子。在一个垃圾“句子”中,NN、VBs等的数量似乎与一个好的句子没有什么不同 我想我只是在寻找一种简单的方法来给一个句子的语法评分,并拒绝那些有太多“错误”的句子。我尝试使用语法检查,但AWS Lambda不喜欢运行它。当我初始化它时,我立即收到“连接被拒绝”错误。(为了在AWS Lambda上运行,NLTK也需要

我在Python3中运行一个scrape和process例程,但是我得到的一些句子是垃圾。我想拒绝这些,但不知道怎么做

我在NLTK中使用词性标记和组块,但这似乎不能帮助我识别无效的句子。在一个垃圾“句子”中,NN、VBs等的数量似乎与一个好的句子没有什么不同

我想我只是在寻找一种简单的方法来给一个句子的语法评分,并拒绝那些有太多“错误”的句子。我尝试使用语法检查,但AWS Lambda不喜欢运行它。当我初始化它时,我立即收到“连接被拒绝”错误。(为了在AWS Lambda上运行,NLTK也需要被“欺骗”,但我发现了如何做到这一点)

示例: 好消息:曼联主帅何塞·穆里尼奥已经告诉他的球员们要“成长起来”,以便在复出战胜纽卡斯尔·伯恩茅斯和尤文图斯后,在比赛初期停止失利


垃圾:[最近42场平局8场埃提哈德体育场曼彻斯特老特拉福德曼彻斯特埃提哈德体育场曼彻斯特老特拉福德曼彻斯特埃提哈德体育场曼彻斯特老特拉福德曼彻斯特埃提哈德体育场曼彻斯特无内容可用曼城德比获胜后恢复训练外环城市平局巴塞尔在ucl第16轮外环报告:曼联1-2城外环nal link city赢得激动人心的德比以11分移动

对此我有一个初步的答案,但这不是一个简单或直接的“像这样做”食谱

我试图更详细地研究出的方法相当于对格式良好的句子表达出许多约束。你无法列举语料库中所有可能的噪声类型,但你可以使用特定类型的过滤器去除特定类型的噪声,其中许多过滤器非常简单,易于理解和实现

例如:

  • 丢弃熵非常低的样本
  • 丢弃字符或字符序列超出正常英语曲目范围的样本
  • 丢弃有许多重复单词的样本
  • 丢弃带有许多限定动词的示例
    • 我只看了你的一个例子就编造了最后两个例子,但当然,如果没有更多的样本,或者你的整个语料库,就无法判断这在一般情况下是否有效
这种方法的一个原型是(有益的是,在一个宽松的许可下发布):但是提交的内容被限制在最多四页,因此这篇文章必然是一个非常简短的概述。我的实际材料和脚本都在Github上:;但我使用的语料库不可再发布,因此缺少一部分


概述了建议约束的简要目录。

你能给出一些“好”和“垃圾”句子的例子吗?谢谢你的回答。我编辑了我的原始问题以包括一些例子。不幸的是,一个非常简短的例子可能只会带来非常具体的建议。这个特别的例子似乎展示了一个重要的意义重复的t;所有的“垃圾”都是这样吗?根据示例,您可以查看单词+词性标记的顺序。例如,在正常句子中,一行5个NN是相当少见的。从每页刮下的文本似乎是随机的,而且段落文本可能会随每个网站的不同而变化。网站也会发生变化。关于顺序,您提出了一个很好的观点但对于其他的“垃圾”,这可能不是真的。我正在寻找一个简单的语法检查,希望它能在语法检查程序中对“垃圾”进行如此糟糕的评分,但可能会被拒绝。