Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/json/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 可以在spaCy IOB转换器生成的JSON中检索整个句子吗?_Python_Json_Spacy_Spacy 3 - Fatal编程技术网

Python 可以在spaCy IOB转换器生成的JSON中检索整个句子吗?

Python 可以在spaCy IOB转换器生成的JSON中检索整个句子吗?,python,json,spacy,spacy-3,Python,Json,Spacy,Spacy 3,按照以下步骤将IOB格式的数据转换为spaCy兼容的JSON;应该表示句子的值在我的JSON中显示为“null” 以下是我的数据摘录(test.iob): 然后,我输入命令: python -m spacy convert -c auto -s -n 1 -t json ./test.iob . --lang fr 最后,在输出中,我得到了以下JSON,但没有“raw”值: [ { "id":0, "paragraphs":[

按照以下步骤将IOB格式的数据转换为spaCy兼容的JSON;应该表示句子的值在我的JSON中显示为“null”

以下是我的数据摘录(
test.iob
):

然后,我输入命令:

python -m spacy convert -c auto -s -n 1 -t json ./test.iob . --lang fr 
最后,在输出中,我得到了以下JSON,但没有
“raw”
值:

[
  {
    "id":0,
    "paragraphs":[
      {
        "raw":null,
        "sentences":[
          {
            "tokens":[
              {
                "id":0,
                "orth":"GRIMALTE",
                "space":" ",
                "tag":"-",
                "ner":"U-PERS"
              },
              {
                "id":1,
                "orth":"AMANT",
                "space":" ",
                "tag":"-",
                "ner":"O"
              },
              {
                "id":2,
                "orth":"DE",
                "space":" ",
                "tag":"-",
                "ner":"O"
              },
              {
                "id":3,
                "orth":"LA",
                "space":" ",
                "tag":"-",
                "ner":"O"
              },

... continue

我真的很想检索这句话(在“raw”值中),以便能够从JSON的实体创建一个训练集,如下所示:

[
("GRIMALTE AMANT DE LA dame Gradisse narre sommairement Les amoureux regredz de Flamete , qui furent occasion qu' il cherchast moyen d' y remedier Chapitre premier ", {'entities': [(0, 8, 'PERS'), (21, 25, 'PERS'), (26, 34, 'PERS'), (78, 85, 'PERS')]})
... continue
]
这可能是因为我的IOB文件不包含句子之间的空格吗?(因为查看文档似乎不会影响iob到json的转换)


如果您对此问题有任何线索,请提前感谢。

由于此格式的原始语料库不包含空格信息,您无法生成原始/正确的
原始
句子,因此将其保留为
null
<代码>空格训练
将在训练和评估时考虑是否有空格信息,因此可以使用或不使用
原始
,或使用和不使用
原始
的混合文档进行训练

如果您正在使用spacy进行培训,则不希望将此数据转换为具有文本字符串和字符偏移量的格式。如果您有像
l'
这样的标记,则会导致问题,如果有以下空格,则标记将不正确。您应该能够使用JSON格式中带有
“ner”
标记的
spacy train

[
("GRIMALTE AMANT DE LA dame Gradisse narre sommairement Les amoureux regredz de Flamete , qui furent occasion qu' il cherchast moyen d' y remedier Chapitre premier ", {'entities': [(0, 8, 'PERS'), (21, 25, 'PERS'), (26, 34, 'PERS'), (78, 85, 'PERS')]})
... continue
]