Java 我应该如何在我的神经网络中建模训练集?

Java 我应该如何在我的神经网络中建模训练集?,java,neural-network,classification,spam,training-data,Java,Neural Network,Classification,Spam,Training Data,我有一个愚蠢的困惑,但它是困扰我很多。我必须做一个用于垃圾邮件检测的ANN。到目前为止,我已经开发了用于开发邮件tfidf向量和分别计算该矩阵的PCA的模块。 问题是我的邮件直接从收件箱中读取。 在培训中,我希望使用我的垃圾邮件箱,然后使用与开发未读邮件向量相同的类。我如何将它们标记为垃圾邮件 我应该开发这样的东西吗 HashMap<HashMap<String,Double>,Integer> trainingSet; HashMap训练集; 第一个参数是通过

我有一个愚蠢的困惑,但它是困扰我很多。我必须做一个用于垃圾邮件检测的ANN。到目前为止,我已经开发了用于开发邮件tfidf向量和分别计算该矩阵的PCA的模块。 问题是我的邮件直接从收件箱中读取。 在培训中,我希望使用我的垃圾邮件箱,然后使用与开发未读邮件向量相同的类。我如何将它们标记为垃圾邮件

我应该开发这样的东西吗

   HashMap<HashMap<String,Double>,Integer> trainingSet;
HashMap训练集;
第一个参数是通过PCA降维的邮件向量,整数是标签1-Spam,0表示非Spam,然后将向量写入文件并从中读取? 或者我应该让我的代码更灵活,这样就不用直接从收件箱中读取,而是从已经存在的一组在线火腿和垃圾邮件中读取,然后将它们建模为邮件对象[我有一个MailMessage类,它为邮件定义了主题、正文、mailvector等成员,然后用它来构建术语索引,最后是向量],形成向量,然后形成一个训练集,训练后我可以让他们阅读我的收件箱


如果您有任何见解,我们将不胜感激。

我将诚实地告诉您。坦率地说,英语中没有那么多单词。如果您有非常大的输入向量(比如数万个),您可能会获得最有效的性能。事实上,您甚至可以在没有隐藏层的情况下购买


对于图像识别等,拥有数千个点的输入向量并不少见。

谢谢你解决了这个问题!抱歉,我刚刚看到了你的答案!:)很高兴听到你成功了