Python 如何使用spaCy'反序列化标记数据;s新的DocBin()类

Python 如何使用spaCy'反序列化标记数据;s新的DocBin()类,python,serialization,nlp,spacy,Python,Serialization,Nlp,Spacy,我正在尝试使用spacy中的新DocBin()类将文档数据和属性保存为二进制文件 我以前使用pickle保存过数据,但我正在寻找一种更有效的方法 def将_序列化到_磁盘(): def从磁盘()反序列化磁盘: 当我调用doc.is_对反序列化列表进行解析时,它返回False。在序列化之前,这将返回True仅当依赖项解析(HEAD和/或DEP)的属性包含在属性列表中时,才会将其标记为已解析被解析仅用于依赖项解析,而不是整个分析。如果你想找的话,还有一个标签是is\u taged doc_bin =

我正在尝试使用spacy中的新DocBin()类将文档数据和属性保存为二进制文件

我以前使用pickle保存过数据,但我正在寻找一种更有效的方法

def将_序列化到_磁盘():

def从磁盘()反序列化磁盘:


当我调用doc.is_对反序列化列表进行解析时,它返回False。在序列化之前,这将返回True

仅当依赖项解析(
HEAD
和/或
DEP
)的属性包含在属性列表中时,才会将其标记为已解析<代码>被解析仅用于依赖项解析,而不是整个分析。如果你想找的话,还有一个标签是
is\u taged

doc_bin = DocBin(attrs=["LEMMA", "ENT_IOB", "ENT_TYPE", "POS", "TAG"], store_user_data=True)
for doc in nlp.pipe(ff):
    # print(doc.is_parsed) this DOES produce parsed docs
    doc_bin.add(doc)
bytes_data = doc_bin.to_bytes()
print(type(bytes_data))
with open("bytes/test", "wb") as binary_file:
    binary_file.write(bytes_data)
nlp = spacy.blank("en")
with open("bytes/test", "rb") as f:
    data = f.read()
doc_bin = DocBin().from_bytes(data)
docs = list(doc_bin.get_docs(nlp.vocab))
# this list does not have the tag data. Why?
return docs