如何将特征（稀疏矩阵）和标签（数组矩阵）存储到TFRecordDataset-Tensorflow中_Tensorflow_Deep Learning_Tfidfvectorizer

如何将特征（稀疏矩阵）和标签（数组矩阵）存储到TFRecordDataset-Tensorflow中

tensorflow deep-learning

如何将特征（稀疏矩阵）和标签（数组矩阵）存储到TFRecordDataset-Tensorflow中,tensorflow,deep-learning,tfidfvectorizer,Tensorflow,Deep Learning,Tfidfvectorizer,应用TF-IDF并将每个文档转换为1*2000（特征），因此我的文档总数为10824，稀疏矩阵为10824*2000，相关标签的形状为10824*35（35个标签中的每个标签为0或1个）谁能帮助我，如何将它们存储到TFRecordDataset（功能和标签）中您可以使用tensorflow.Example存储功能和标签。对于一个具体示例，文档应如下所示： features: { feature: { key : "features" value: { byt

应用TF-IDF并将每个文档转换为1*2000（特征），因此我的文档总数为10824，稀疏矩阵为10824*2000，相关标签的形状为10824*35（35个标签中的每个标签为0或1个）

谁能帮助我，如何将它们存储到TFRecordDataset（功能和标签）中

您可以使用

tensorflow.Example

存储功能和标签。对于一个具体示例，文档应如下所示：

features: {
  feature: {
    key  : "features"
    value: {
      bytes_list: {
        value: ["this", "is", "an", "example", "of", "your", "features"]
      }
    }
  }
  feature: {
    key  : "labels"
    value: {
      bytes_list: {
        # Assume "news" and "sports" are two of your 35 labels.
        value: ["news", "sports"]
      }
    }
  }
}

d = tf.data.TFRecordDataset(FLAGS.input_file)
d = d.map(parser_fn)

（如果已经将字符串转换为整数（ID），则可以使用

int64\u list

而不是

bytes\u list

，以后不需要使用词汇表文件。）

现在，您的整个数据集是一个

TFRecordDataset

的

tensorflow.Example

protos。您可以使用进行如下读取和分析：

features: {
  feature: {
    key  : "features"
    value: {
      bytes_list: {
        value: ["this", "is", "an", "example", "of", "your", "features"]
      }
    }
  }
  feature: {
    key  : "labels"
    value: {
      bytes_list: {
        # Assume "news" and "sports" are two of your 35 labels.
        value: ["news", "sports"]
      }
    }
  }
}

d = tf.data.TFRecordDataset(FLAGS.input_file)
d = d.map(parser_fn)

您只需要使用编写一个

解析器。您的功能\u spec
将如下所示：
feature_spec = {
  "token":  tf.VarLenFeature(tf.string),
  "labels": tf.VarLenFeature(tf.string),
}

由于功能和标签的稀疏性，您可能需要使用分类词汇表列或嵌入列来表示它们。有关更多详细信息，请参阅