Python ATIS(航空旅行信息系统)数据集的结构是什么

Python ATIS(航空旅行信息系统)数据集的结构是什么,python,dataset,text-mining,recurrent-neural-network,Python,Dataset,Text Mining,Recurrent Neural Network,当我使用ATIS(航空旅行信息系统)dataset()对递归神经网络进行研究时。我对它的结构感到困惑 例如,在使用data=pickle.load(open(“/dataset/atis.fold0.pkl”,“rb”),encoding='iso-8859-1')加载atis.fold0.pkl之后,我使用打印(np.shape(data_train))来获得(4,)。我认为数据[0]是训练集,数据[1]是有效集,数据[2]是测试集,数据[3]是dict 但是当我使用print(np.shap

当我使用ATIS(航空旅行信息系统)dataset()对递归神经网络进行研究时。我对它的结构感到困惑

例如,在使用
data=pickle.load(open(“/dataset/atis.fold0.pkl”,“rb”),encoding='iso-8859-1')
加载atis.fold0.pkl之后,我使用
打印(np.shape(data_train))
来获得
(4,)
。我认为数据[0]是训练集,数据[1]是有效集,数据[2]是测试集,数据[3]是dict

但是当我使用
print(np.shape(数据[0])
时,我得到
(33983)
。我想知道为什么我在里面有三行?这三排有什么区别

文件atis.fold0.pkl、atis.fold1.pkl、atis.fold2.pkl、atis.fold3.pkl、atis.fold4.pkl之间有什么区别

f = gzip.open(filename, 'rb')
try:
    train_set, valid_set, test_set, dicts = pickle.load(f, encoding='latin1')
except:
    train_set, valid_set, test_set, dicts = pickle.load(f)


print np.shape(train_set)
每个pickle都可以分为培训、验证、测试及其字典。当您看到字典元素时,它们包含单词2idx
表2Idx
标签2idx

现在测试以下代码

对于列车组中的i:
打印长度(i[0])

它将返回相同长度的文件。 所以第一个元素是单词,第二个是表2idx,第三个是插槽填充的最终结果(labels2idx)


使用dict来谴责id,你就会明白它的意思

这个数据集中包括这些意图吗?我不知道。但我从未在这个数据集中看到过意图。你能检查一下吗?没有,没有意图-但是在github.com/Microsoft/CNTK/Examples/ATIS/Data上有一些