Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/fortran/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Spacy BILOU格式到Spacy json格式_Python_Spacy_Spacy Pytorch Transformers - Fatal编程技术网

Python Spacy BILOU格式到Spacy json格式

Python Spacy BILOU格式到Spacy json格式,python,spacy,spacy-pytorch-transformers,Python,Spacy,Spacy Pytorch Transformers,我正在尝试升级我的spacy版本到nightly,特别是使用spacy transformers 所以我转换了spacy简单的火车数据集,格式如下 td=[“谁是沙卡·汗?”,{“实体”:[(7,17,“朋友”)],“我喜欢伦敦,{“实体”:[(7,13,“LOC”)],] 高于 [{head:0,“dep”:“tag”:“or”:“Who”,“ner”:“O”,“id”:0},{“head:0”,“dep”:“tag”:“or”:“is”,“ner”:“O”,“id”:1},{“head”:0

我正在尝试升级我的spacy版本到nightly,特别是使用spacy transformers

所以我转换了spacy简单的火车数据集,格式如下

td=[“谁是沙卡·汗?”,{“实体”:[(7,17,“朋友”)],“我喜欢伦敦,{“实体”:[(7,13,“LOC”)],]

高于

[{head:0,“dep”:“tag”:“or”:“Who”,“ner”:“O”,“id”:0},{“head:0”,“dep”:“tag”:“or”:“is”,“ner”:“O”,“id”:1},{“head”:0,“dep”:“tag”:“th”:“Shaka”,“ner”:“B-FRIENDS”,“id”:2},{“head:0”,“dep”:“tag”:“tag”:“th”:“Khan”,“ner”:“L-FRIENDS”,“id”:3},{“head”:0,“dep”:“tag,“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”、“或”

使用以下脚本

sentences = []
for t in td:
    doc = nlp(t[0])
    tags = offsets_to_biluo_tags(doc, t[1]['entities'])
    ner_info = list(zip(doc, tags))
    tokens = []
    for n, i in enumerate(ner_info):
        token = {"head" : 0,
        "dep" : "",
        "tag" : "",
        "orth" : i[0].orth_,
        "ner" : i[1],
        "id" : n}
        tokens.append(token)
    sentences.append(tokens)



with open("train_data.json","w") as js:
    json.dump(sentences,js)```


then i tried to convert this train_data.json using 
spacy's convert command

```python -m spacy convert train_data.json converted/```


but the result in converted folder is

```✔ Generated output file (0 documents): converted/train_data.spacy``` 

which means it doesn't created dataset

can anybody help on what i am missing

i am trying to do this with spacy-nightly

您可以跳过中间JSON步骤,直接将注释转换为
DocBin

导入空间
从spacy.training导入示例
从spacy.tokens导入DocBin
td=[“谁是沙卡·汗?”,{“实体”:[(7,17,“朋友”)],“我喜欢伦敦。”,{“实体”:[(7,13,“LOC”)],]
nlp=空间空白(“en”)
db=DocBin()
对于文本,td中的注释:
示例=示例。来自目录(nlp.make文档(文本),注释)
db.add(example.reference)
数据库到磁盘(“td.spacy”)
见:


(如果您确实想使用中间JSON格式,以下是规范:。您可以只在
标记中包含
ORH
ner
,而不包含其他功能,但是您需要这种包含
段落
原始
句子的结构。这里有一个示例:)

您可以跳过中间JSON步骤,直接将注释转换为
DocBin

导入空间
从spacy.training导入示例
从spacy.tokens导入DocBin
td=[“谁是沙卡·汗?”,{“实体”:[(7,17,“朋友”)],“我喜欢伦敦。”,{“实体”:[(7,13,“LOC”)],]
nlp=空间空白(“en”)
db=DocBin()
对于文本,td中的注释:
示例=示例。来自目录(nlp.make文档(文本),注释)
db.add(example.reference)
数据库到磁盘(“td.spacy”)
见:


(如果您确实想使用中间JSON格式,以下是规范:。您可以只在
标记中包含
ORH
ner
,而不包含其他功能,但是您需要这种包含
段落
原始
句子的结构。这里有一个示例:)

@abb感谢您的回复,但当我打印(示例参考)时,我有一个疑问,我只能看到“谁是沙卡·汗?”?我喜欢伦敦。但是它不是预期的,或者是有什么错误的
示例。reference
是一个
Doc
,所以
print(Doc)
只显示
Doc.text
。查看
doc.ents
以查看实体。@abb感谢您的报告,但当我打印(示例.参考)时我有一个疑问,我只能看到“谁是沙卡·汗?我喜欢伦敦。但这不是预期的情况,或者是有什么问题
示例。参考
文档
,所以
打印(doc)
只显示
doc.text
。查看
doc.ents
查看实体。