python中基于正则表达式条件的句子抽取
我有一个包含9000个句子的数据集,根据某些条件,我需要20/20的语句。但是,当我尝试匹配这些条件时,要么输出句子,要么不满足条件。前20个句子应该包含一个动词 对于第二部分,我想让句子包含两个以上的动词 现在我有下面的代码来检查动词的数量是否少于2python中基于正则表达式条件的句子抽取,python,regex,for-loop,spacy,Python,Regex,For Loop,Spacy,我有一个包含9000个句子的数据集,根据某些条件,我需要20/20的语句。但是,当我尝试匹配这些条件时,要么输出句子,要么不满足条件。前20个句子应该包含一个动词 对于第二部分,我想让句子包含两个以上的动词 现在我有下面的代码来检查动词的数量是否少于2 import re import spacy import en_core_web_md nlp=en_core_web_md.load() test = "This sentence has just 1 verb" test2 = "I h
import re
import spacy
import en_core_web_md
nlp=en_core_web_md.load()
test = "This sentence has just 1 verb"
test2 = "I have put multiple verbs in this sentence because it is possible and I want it"
doc1 = nlp(test)
doc2 = nlp(test2)
empt = []
for item in doc1.sents:
verbs = 0
for token in item:
if token.pos_ == "VERB":
verbs += 1
if verbs < 2:
empt.append(item)
重新导入
进口空间
导入en_core_web_md
nlp=en_core_web_md.load()
test=“这个句子只有一个动词”
test2=“我在这句话中放了多个动词,因为这是可能的,我想要它”
doc1=nlp(测试)
doc2=nlp(测试2)
清空=[]
对于doc1.sents中的项目:
动词=0
对于项目中的令牌:
如果token.pos=动词:
动词+=1
如果动词<2:
empty.append(项目)
然而,我最终得到了一个空列表
有人能告诉我我做错了什么,这样我就可以根据每个附加条件调整代码了吗?您只需要将最后两行向后拉两个缩进级别。您只需在考虑了所有标记后检查整个句子中动词的数量。谢谢!真不敢相信我错过了