python中基于正则表达式条件的句子抽取

python中基于正则表达式条件的句子抽取,python,regex,for-loop,spacy,Python,Regex,For Loop,Spacy,我有一个包含9000个句子的数据集,根据某些条件,我需要20/20的语句。但是,当我尝试匹配这些条件时,要么输出句子,要么不满足条件。前20个句子应该包含一个动词 对于第二部分,我想让句子包含两个以上的动词 现在我有下面的代码来检查动词的数量是否少于2 import re import spacy import en_core_web_md nlp=en_core_web_md.load() test = "This sentence has just 1 verb" test2 = "I h

我有一个包含9000个句子的数据集,根据某些条件,我需要20/20的语句。但是,当我尝试匹配这些条件时,要么输出句子,要么不满足条件。前20个句子应该包含一个动词

对于第二部分,我想让句子包含两个以上的动词

现在我有下面的代码来检查动词的数量是否少于2

import re
import spacy
import en_core_web_md
nlp=en_core_web_md.load()

test = "This sentence has just 1 verb"
test2 = "I have put multiple verbs in this sentence because it is possible and I want it"

doc1 = nlp(test)
doc2 = nlp(test2)

empt = []
for item in doc1.sents:
    verbs = 0
    for token in item:
        if token.pos_ == "VERB":
            verbs += 1
            if verbs < 2:
                empt.append(item)
重新导入
进口空间
导入en_core_web_md
nlp=en_core_web_md.load()
test=“这个句子只有一个动词”
test2=“我在这句话中放了多个动词,因为这是可能的,我想要它”
doc1=nlp(测试)
doc2=nlp(测试2)
清空=[]
对于doc1.sents中的项目:
动词=0
对于项目中的令牌:
如果token.pos=动词:
动词+=1
如果动词<2:
empty.append(项目)
然而,我最终得到了一个空列表


有人能告诉我我做错了什么,这样我就可以根据每个附加条件调整代码了吗?

您只需要将最后两行向后拉两个缩进级别。您只需在考虑了所有标记后检查整个句子中动词的数量。

谢谢!真不敢相信我错过了