Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/326.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 正则表达式占用的时间太长;有人对加快这一进程有什么建议吗?_Python_Regex_Iteration - Fatal编程技术网

Python 正则表达式占用的时间太长;有人对加快这一进程有什么建议吗?

Python 正则表达式占用的时间太长;有人对加快这一进程有什么建议吗?,python,regex,iteration,Python,Regex,Iteration,所以我尝试将正则表达式与段落匹配,以便进行情绪分析,但TQM表示这可能需要300小时。我想知道是否有人对我能做些什么来改善我的工作方式提出批评 我试图在分析中把词干结尾和否定词匹配起来。下面是匹配表达式的一个小片段。我只展示了一个小片段,因为整个表达式包含大约2800个术语,整个表达式的设置都是完全相同的,因此使用了省略号 (2)屠宰场)第(124)号(Ab)的,(,(Abbebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebe

所以我尝试将正则表达式与段落匹配,以便进行情绪分析,但TQM表示这可能需要300小时。我想知道是否有人对我能做些什么来改善我的工作方式提出批评

我试图在分析中把词干结尾和否定词匹配起来。下面是匹配表达式的一个小片段。我只展示了一个小片段,因为整个表达式包含大约2800个术语,整个表达式的设置都是完全相同的,因此使用了省略号

(2)屠宰场)第(124)号(Ab)的,(,(Abbebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebebenenenenenenenenenenenenenene(((bebebebebebebebebebebebebebe)))))))))))nenenenebebebebebebebebe之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以之所以| | | | | | | | | | | | | | | | | | | | | | | | | | 124|(通奸);(通奸);(反对);(矫揉造作);(矫揉造作);(矫揉造作的方式);(折磨);(震惊)…)

下面是我用来匹配段落中的词干的函数

def neg_stems(paragraph):
    stem_list = []
    i = " ".join(paragraph)
    for n in re.finditer(regex_neg, i):
        if n.group():
            stem_list.append(n.group())
    return json.dumps(stem_list)
最后,这里是我得到的一般输出

neg_stems(["the king abdicated the throne in an argument where he was angry, but his son was pretty happy about it","I hate cats but love hedgehogs"])

> ["abdicat", "argument", "anger", "hate"]
我只是想计算一下
regex_neg
中语义词典定义的否定词的数量,但是~300小时太长了,即使如此,这也只是一个估计

有没有人对我能做些什么来加快这个过程提出建议


提前谢谢!

我不能把它作为一个答案,因为答案本身太宽了,但是这里考虑的一个选项是加载你的文本。进入支持全文搜索的数据库。然后,使用FTS查找文本中的词干。Python可能不如数据库更适合这种类型的操作。对我来说,Python看起来像纯文本搜索,你确定需要正则表达式吗?我不确定正则表达式是否适合此问题。正则表达式作为标记器很好,但就匹配而言tems,价值字典(或
集合
)也许这是最好的选择。看,好了,谢谢输入的家伙!我真的不需要使用它作为正则表达式,所以我将用纯文本匹配来看看它是如何发展的!我不能把它作为一个答案,因为答案本身太宽了,但是这里考虑的一个选项是加载你的文本。进入支持全文搜索的数据库。然后,使用FTS查找文本中的词干。Python可能不如数据库更适合这种类型的操作。对我来说,Python看起来像纯文本搜索,你确定需要正则表达式吗?我不确定正则表达式是否适合此问题。正则表达式作为标记器很好,但就匹配而言tems,一个值字典(或一个
集合
)可能是最好的选择,这里很可能就是答案。看。好的,谢谢你们的输入!我真的不需要将它用作正则表达式,所以我将继续使用纯文本匹配,看看它是如何进行的!