Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/326.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何使用KERA确定类别?_Python_Machine Learning_Keras_Nlp_Classification - Fatal编程技术网

Python 如何使用KERA确定类别?

Python 如何使用KERA确定类别?,python,machine-learning,keras,nlp,classification,Python,Machine Learning,Keras,Nlp,Classification,我正在研究一种使用Keras对邮件进行分类的方法。我阅读已经分类的邮件,标记它们以创建一个链接到文件夹的字典 所以我用熊猫创建了一个数据框: data = pd.DataFrame(list(zip(lst, lst2)), columns=['text', 'folder']) 文本列是电子邮件中存在的所有单词所在的位置,文件夹列是电子邮件所属的类(路径) 正因为如此,我创建了我的模型,该模型给出了这些结果: 3018/3018[===============================

我正在研究一种使用Keras对邮件进行分类的方法。我阅读已经分类的邮件,标记它们以创建一个链接到文件夹的字典

所以我用熊猫创建了一个数据框:

data = pd.DataFrame(list(zip(lst, lst2)), columns=['text', 'folder'])
文本列是电子邮件中存在的所有单词所在的位置,文件夹列是电子邮件所属的类(路径)

正因为如此,我创建了我的模型,该模型给出了这些结果:

3018/3018[=======================================-0s 74us/步-损耗:0.0325-附件:0.9950-val_损耗:0.0317-val_附件:0.9950

百年纪元

对我的模型的评价

755/755[=================================]-0s 28U/步 测试分数:0.0316697002592071 测试精度:0.995000006268356

所以我需要做的最后一件事是预测随机邮件的类,但是
model.predict\u classes(numpy.array)
调用会给我一个充满整数的2D数组,但我仍然不知道它属于哪个“文件夹/类”

这是我的密码:

#lst contains all the words in the mail
#lst2 the class/path of lst
data = pd.DataFrame(list(zip(lst, lst2)), columns=['text', 'folder'])

train_size = int(len(data) * .8)
train_posts = data['text'][:train_size]
train_tags = data['folder'][:train_size]

test_posts = data['text'][train_size:]
test_tags = data['folder'][train_size:]

num_labels = 200 #The numbers of total classes

#the way I tokenize and encode my data
tokenizer = Tokenizer(num_words=len(lst))
tokenizer.fit_on_texts(pd.concat([train_posts, test_posts], axis = 1))

x_train = tokenizer.texts_to_matrix(train_posts, mode=TOKENISER_MODE)
x_test = tokenizer.texts_to_matrix(test_posts, mode=TOKENISER_MODE)

encoder = preprocessing.LabelBinarizer()
encoder.fit(train_tags)
y_train = encoder.transform(train_tags)
y_test = encoder.transform(test_tags)

#my model, vocab_size = len(lst) = number of the words present in the mails
model = Sequential()
model.add(Dense(16, input_shape=(vocab_size,)))
model.add(Activation('elu'))
model.add(Dropout(0.2))
model.add(Dense(32))
model.add(Activation('elu'))
model.add(Dropout(0.2))
model.add(Dense(16))
model.add(Activation('elu'))
model.add(Dropout(0.2))
model.add(Dense(num_labels))
model.add(Activation('sigmoid'))
model.summary()

#compile training and evaluate
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
history = model.fit(x_train, y_train, batch_size=batch_size, epochs=100, verbose=1, validation_data=(x_test, y_test))
score = model.evaluate(x_test, y_test, batch_size=batch_size, verbose=1)
print('Test score:', score[0])
print('Test accuracy:', score[1])

#read the random file
sentences = read_files("mail.eml")
sentences = ' '.join(sentences)
sentences = sentences.lower()
salut = unidecode.unidecode(sentences)

#predict
pred = model.predict_classes(salut, batch_size=batch_size, verbose=1)
print(pred)
pred
的实际输出:



我不知道为什么,但每次启动时,输出总是充满相同的数字。我想要的结果是:

['medecine/AIDS/',help/,project/classification/]

按正确的概率排序。
read\u files
调用只是一个函数,它读取邮件并返回邮件中所有单词的列表

有没有一种方法可以通过
model.predict\u classes()
获得邮件的类别,或者我需要使用其他的方法

有没有一种方法可以通过model.predict_classes()获取邮件的类,还是需要使用其他方法

可以说,您的代码存在更严重的问题,因为从输出
pred
中就可以看出这一点


对于初学者,假设您处于多类别设置中(每个样本只能属于一个类别),而不是model.add(Activation('softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
# this gives probability values, an array of shape (n_samples, n_labels)
preds_prob = model.predict(salut)

# this gives the name of classes with prob > 0.5
preds_cls = encoder.inverse_transform(preds_prob, 0.5)