Python 3.x 对大文本使用LSTM
我有一个数据集,用来检测从kaggle那里得到的假新闻。 我想使用LSTM进行分类 一篇文章的平均字长约为750字。我试着删除标点符号,停止单词,删除数字。对文本进行预处理也需要很长时间Python 3.x 对大文本使用LSTM,python-3.x,deep-learning,nlp,lstm,kaggle,Python 3.x,Deep Learning,Nlp,Lstm,Kaggle,我有一个数据集,用来检测从kaggle那里得到的假新闻。 我想使用LSTM进行分类 一篇文章的平均字长约为750字。我试着删除标点符号,停止单词,删除数字。对文本进行预处理也需要很长时间 我想要一种使用keras将大文本输入LSTM的方法。我应该做些什么来减少计算时间,同时又不会损失很多精度。有一些事情可以尝试加快速度: 1.使用CUDNN版本的LSTM 通常速度更快,请检查可用层keras.layers.CuDNNLSTM就是您想要的 2.使用Conv1d创建要素 您可以使用一维卷积,内核大小
我想要一种使用keras将大文本输入LSTM的方法。我应该做些什么来减少计算时间,同时又不会损失很多精度。有一些事情可以尝试加快速度: 1.使用CUDNN版本的LSTM 通常速度更快,请检查可用层keras.layers.CuDNNLSTM就是您想要的 2.使用Conv1d创建要素 您可以使用一维卷积,内核大小指定应考虑多少字,跨步指定移动窗口的跳转。对于kernel_size=3和stride=3,padding=SAME,它会将维度降低三次 您可以堆叠更多卷积层 除此之外,您仍然可以正常使用LSTM 3.完全放弃LSTM 您可以使用1d卷积和池进行分类,RNN不是唯一的方法 好的一面是:你不会遇到消失的梯度,双向LSTM也可以减轻一点
缺点:你将失去单词之间的严格依赖性,尽管这对于二进制分类来说应该不是什么大问题,我想这是你的目标。谢谢:。我尝试了conv+lstm,但精确度很低,尽管只有使用CNN才能获得很好的精确度。