Tensorflow数据集api

Tensorflow数据集api,tensorflow,tensorflow-datasets,Tensorflow,Tensorflow Datasets,我正在使用tf.contrib.data.make\u CSV\u数据集(CSV\u路径)读取CSV文件,CSV有两列,即查看和评级。阅读后,我想在review列上执行的标记化 dataset = tf.contrib.data.make_csv_dataset(csv_file, batch_size=2) 创建数据集后,我希望下面的映射方法为review列创建数据集: def create_tokens(sentence): return tf.string_split([sen

我正在使用
tf.contrib.data.make\u CSV\u数据集(CSV\u路径)
读取CSV文件,CSV有两列,即查看评级。阅读后,我想在review列上执行的标记化

 dataset = tf.contrib.data.make_csv_dataset(csv_file, batch_size=2)
创建数据集后,我希望下面的映射方法为review列创建数据集:

def create_tokens(sentence):
    return tf.string_split([sentence).values

我被困在这里。

关于这个示例数据:

review, rating
Best film ever, 5
rather meh, 2
您应该能够使用tensorflow 1.10中解释的tf.data.map()

def create_tokens(sentence):
    return tf.string_split(sentence['review'])

dataset = tf.contrib.data.make_csv_dataset('test.csv', batch_size=2)
dataset = dataset.map(create_tokens)

做了同样的事情,但低于错误类型错误:预期字符串,改为获取类型为“dict”的{'otheral':,'reviewText':}。我面临的问题是数据集包含两列作为字典,映射函数无法映射reviewText列以创建\u标记方法。您是否可以尝试在函数中解析dict:tf.string\u split([句子['reviewText'])。valuesTried并获得此错误ValueError:对于输入形状为[1、]、[]的“StringSplit”(op:'StringSplit'),形状必须为秩1,但为秩2。我在TF 1.10中添加了适用于我的示例数据。您的数据是这样的吗?此外,您是否考虑过使用:或其他标记器?