Python 使用tensorflow2/keras在imdb数据集上进行训练会得到奇怪的结果

Python 使用tensorflow2/keras在imdb数据集上进行训练会得到奇怪的结果,python,tensorflow,keras,tensorflow2.0,tf.keras,Python,Tensorflow,Keras,Tensorflow2.0,Tf.keras,我是tensorflow2/keras的新手。我在tensorflow网站上关注了这一点。我没有将文本数据下载到目录中,而是使用tensorflow_数据集将imdb数据集直接加载到tensors/numpy数组中。下面是我的代码 import os import re import string import pandas as pd import numpy as np import tensorflow as tf import tensorflow_hub as hub import t

我是tensorflow2/keras的新手。我在tensorflow网站上关注了这一点。我没有将文本数据下载到目录中,而是使用
tensorflow_数据集
将imdb数据集直接加载到tensors/numpy数组中。下面是我的代码

import os
import re
import string
import pandas as pd
import numpy as np
import tensorflow as tf
import tensorflow_hub as hub
import tensorflow_datasets as tfds

import matplotlib.pyplot as plt
from tensorflow.keras import layers
from tensorflow.keras.layers.experimental.preprocessing import TextVectorization

print("Version: ", tf.__version__)
print("Eager mode: ", tf.executing_eagerly())
print("Hub version: ", hub.__version__)
print("GPU is", "available" if tf.config.list_physical_devices('GPU') else "NOT AVAILABLE")

train_data, test_data = tfds.load(name="imdb_reviews", split=["train", "test"], 
                                  batch_size=-1, as_supervised=True)

X_train, y_train = tfds.as_numpy(train_data)
X_test, y_test = tfds.as_numpy(test_data)

# process text
def custom_standardization(input_data):
  lowercase = tf.strings.lower(input_data)
  stripped_html = tf.strings.regex_replace(lowercase, '<br />', ' ')
  return tf.strings.regex_replace(stripped_html,
                                  '[%s]' % re.escape(string.punctuation),
                                  '')
max_features = 1000
sequence_length = 50

vectorize_layer = TextVectorization(
    standardize=custom_standardization,
    max_tokens=max_features,
    output_mode='int',
    output_sequence_length=sequence_length)
# Make a text-only dataset (without labels), then call adapt
vectorize_layer.adapt(X_train)

def vectorize_text(text):
  text = tf.expand_dims(text, -1)
  return vectorize_layer(text)

#check data
first_review, first_label = X_train[0], y_train[0]
print("Review", first_review)
print("Vectorized review", vectorize_text(first_review))
print("11 ---> ",vectorize_layer.get_vocabulary()[11])
print(" 44 ---> ",vectorize_layer.get_vocabulary()[44])
print('Vocabulary size: {}'.format(len(vectorize_layer.get_vocabulary())))


# vectorize both train and test text data
X_train = vectorize_text(X_train)
X_test = vectorize_text(X_test)


embedding_dim = 16
#define and compile model
model = tf.keras.Sequential([
  layers.Embedding(max_features + 1, embedding_dim),
  layers.GlobalAveragePooling1D(),
  layers.Dropout(0.2),
  layers.Dense(256, activation='relu'),
  layers.Dropout(0.2),
  layers.Dense(1)])
model.summary()
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
# fit the model
history = model.fit(X_train, y_train, epochs=5, batch_size=32, verbose=2, validation_data=(X_test, y_test))
准确率都是50%!出了点问题。我不明白为什么会这样?我遵循教程,从头开始训练嵌入层。花了几个小时想弄清楚原因。
有人知道为什么会出错吗?谢谢

你的致密层是
线性的
,这意味着你没有任何激活传递给它。有几种解决方案,正如您正在进行的
二进制\u分类

如果您想按原样使用密集(1),则应将损耗函数更改为:

model.compile(optimizer='adam', loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
              metrics=['accuracy'])
或者您可以使用密集(1,activation=tf.nn.sigmoid),那么您的损失函数应该是:

model.compile(optimizer='adam', loss='binary_crossentropy',
              metrics=['accuracy'])
或者另一种解决方案如果您的标签是热编码的,您可以设置
densite(2,activation=tf.nn.softmax)
然后丢失函数可以是:

model.compile(optimizer='adam', loss='categorical_crossentropy',
              metrics=['accuracy'])
我复制了你的确切代码,并进行了更改:

  layers.Dense(1, activation = tf.nn.sigmoid)])
  model.compile(optimizer='adam', loss='binary_crossentropy', metrics= 
                                   ['accuracy'])
得到:

编辑2:
sigmoid
将输出压缩到[0,1]范围内。例如,要获得预测,您需要进行所有
x\u测试
<代码>X_测试[0]将搞乱预测,因为它只包含第一句话。使用以下命令获取预测:

y_hat = model.predict(X_test)
y_hat

array([[0.8105568 ],
       [0.6332975 ],
       [0.20526059],
       ...,
       [0.03132877],
       [0.5318063 ],
       [0.8626927 ]], dtype=float32)
现在设置一个阈值并将其转换为0和1。这可以通过以下方式实现:

y_pred = [1 * (x[0]>=0.5) for x in y_hat]

y_pred
将包含0和1。请注意,这里的阈值为0.5,这意味着如果sigmoid的输出大于0.5,则属于二级。

这是否回答了您的问题?准确率始终为50%,因为当您使用带有1个神经元的
softmax
时,您的网络每次都会输出1个。谢谢您的帮助。我删除了
activation='softmax'
它仍然输出相同的结果!我编辑了我的问题。非常感谢你的帮助。然而,我尝试并使用
activation=tf.nn.sigmoid
,仍然得到了相同的结果。可能还有别的问题。请运行代码,看看是否可以复制输出?thx@FrighteraI复制并获得了预期输出,也许您忘记了更改损失函数?谢谢!我刚才也转载了。我不小心把“绝对熵”作为损失。应该是“二进制交叉熵”。我有一个后续问题:希望你不介意。我做了预测
yhat=model.predict(X_检验[0])
。结果似乎是一个形状的numpy数组(50,1)。yhat应该是0还是1?我很困惑。。。。非常感谢你的帮助@FrighteraI现在已经添加并解释了如何将它们转换为0和1。如果你接受并投票表决,我会很高兴的。我知道了。非常感谢。
y_hat = model.predict(X_test)
y_hat

array([[0.8105568 ],
       [0.6332975 ],
       [0.20526059],
       ...,
       [0.03132877],
       [0.5318063 ],
       [0.8626927 ]], dtype=float32)
y_pred = [1 * (x[0]>=0.5) for x in y_hat]