Algorithm 语言检测

Algorithm 语言检测,algorithm,artificial-intelligence,neural-network,Algorithm,Artificial Intelligence,Neural Network,我试图重新创建谷歌的算法来测试我的网络。我从同一个地方得到了训练样本 由于我不希望您关注上述链接,简而言之,关于“Hello Prediction”: 这是一个谷歌预测API的“hello world”示例,基本上是一个培训示例 ANN有一个由西班牙语、英语和法语文本字符串组成的大型训练集。 到本练习结束时,网络应该能够检测到这3种语言中的每一种 现在我面临着将数据输入网络的问题 我如何操作可变长度的文本字符串,将其输入到固定大小的网络输入中 我看到了两种考虑词序的解决方案: 使网络输入足够

我试图重新创建谷歌的算法来测试我的网络。我从同一个地方得到了训练样本


由于我不希望您关注上述链接,简而言之,关于“Hello Prediction”: 这是一个谷歌预测API的“hello world”示例,基本上是一个培训示例 ANN有一个由西班牙语、英语和法语文本字符串组成的大型训练集。 到本练习结束时,网络应该能够检测到这3种语言中的每一种


现在我面临着将数据输入网络的问题

我如何操作可变长度的文本字符串,将其输入到固定大小的网络输入中

我看到了两种考虑词序的解决方案:

  • 使网络输入足够大以适合整个句子。这是最现实的,但也是浪费的方法。我相信谷歌已经想出了一个更好的方法

  • 将句子分成固定大小(n)个字符的子字符串,如下所示: 如果n=2,“abcde”变为[“ab”、“bc”、“cd”、“de”]

  • 有人成功地解决了这个问题吗?2比1好吗?还有第三种解决方案吗


    谢谢。

    为什么不尝试一些特征提取?tf_idf在NLP中很常用,我想你可以找到一些其他有用的数字特征。

    我对“Hello Prediction”一无所知,所以要理解这里发生的事情有些困难(我们不必去阅读,帖子应该尽量独立),但是,据我所见,#1不起作用,因为要获得足够的数据以获得足够好的培训是非常不切实际的。#2听起来像是在实践中常用的。@Dukeling我更新了我的问题,以反映您的意见,谢谢。