Python ATIS(航空旅行信息系统)数据集的结构是什么
当我使用ATIS(航空旅行信息系统)dataset()对递归神经网络进行研究时。我对它的结构感到困惑 例如,在使用Python ATIS(航空旅行信息系统)数据集的结构是什么,python,dataset,text-mining,recurrent-neural-network,Python,Dataset,Text Mining,Recurrent Neural Network,当我使用ATIS(航空旅行信息系统)dataset()对递归神经网络进行研究时。我对它的结构感到困惑 例如,在使用data=pickle.load(open(“/dataset/atis.fold0.pkl”,“rb”),encoding='iso-8859-1')加载atis.fold0.pkl之后,我使用打印(np.shape(data_train))来获得(4,)。我认为数据[0]是训练集,数据[1]是有效集,数据[2]是测试集,数据[3]是dict 但是当我使用print(np.shap
data=pickle.load(open(“/dataset/atis.fold0.pkl”,“rb”),encoding='iso-8859-1')
加载atis.fold0.pkl之后,我使用打印(np.shape(data_train))
来获得(4,)
。我认为数据[0]是训练集,数据[1]是有效集,数据[2]是测试集,数据[3]是dict
但是当我使用print(np.shape(数据[0])
时,我得到(33983)
。我想知道为什么我在里面有三行?这三排有什么区别
文件atis.fold0.pkl、atis.fold1.pkl、atis.fold2.pkl、atis.fold3.pkl、atis.fold4.pkl之间有什么区别
f = gzip.open(filename, 'rb')
try:
train_set, valid_set, test_set, dicts = pickle.load(f, encoding='latin1')
except:
train_set, valid_set, test_set, dicts = pickle.load(f)
print np.shape(train_set)
每个pickle都可以分为培训、验证、测试及其字典。当您看到字典元素时,它们包含单词2idx表2Idx
标签2idx
现在测试以下代码
对于列车组中的i:
打印长度(i[0])
它将返回相同长度的文件。
所以第一个元素是单词,第二个是表2idx,第三个是插槽填充的最终结果(labels2idx)
使用dict来谴责id,你就会明白它的意思 这个数据集中包括这些意图吗?我不知道。但我从未在这个数据集中看到过意图。你能检查一下吗?没有,没有意图-但是在github.com/Microsoft/CNTK/Examples/ATIS/Data上有一些