Pandas NLP:基于分隔符创建空间文档对象或组合多个文档对象以形成单个对象

Pandas NLP:基于分隔符创建空间文档对象或组合多个文档对象以形成单个对象,pandas,nlp,spacy,ner,Pandas,Nlp,Spacy,Ner,我正在尝试使用make_Doc()函数创建一个spaCy Doc对象(spaCy.tokens.Doc.Doc)。这就是我所做的: import spacy nlp = spacy.load('en') a = nlp.make_doc("Sam, Software Engineer") print(list(a)) # [Sam, ,, Software, Engineer] 但我期望的结果是: print(list(a)) # [Sam, Software Engin

我正在尝试使用make_Doc()函数创建一个spaCy Doc对象(spaCy.tokens.Doc.Doc)。这就是我所做的:

import spacy
nlp = spacy.load('en')

a = nlp.make_doc("Sam, Software Engineer")
print(list(a)) # [Sam, ,, Software, Engineer]
但我期望的结果是:

print(list(a)) # [Sam, Software Engineer]
有没有一种方法可以基于分隔符(在我的例子中是逗号)创建spacy Doc对象?或者有没有一种方法可以将两个spaCy文档对象合并为一个对象?例如:

a = nlp.make_doc("Sam")
b = nlp.make_doc("Software Engineer")
c = Combine a and b into single Doc object c
print(list(c)) # [Sam, Software Engineer]

在用逗号拆分字符串后,可以使用
Doc
类生成文档:

import spacy

nlp = spacy.load("en_core_web_sm")
text = "Sam, Software Engineer"

tokens = text.split(',')
words_t = [t.strip() for t in tokens]
whitespaces_t = [x[0].isspace() for x in tokens]
a = spacy.tokens.Doc(nlp.vocab, words=words_t, spaces=whitespaces_t)
print(list(a))
# => [Sam, Software Engineer]

words\u t=[t.strip()表示令牌中的t]
部分获取单词和
whitespaces\u t=[x[0].isspace()表示令牌中的x]
创建一个布尔值列表,表示在单词之前存在空格。

这正是我需要的!非常感谢你!