Dictionary 谷歌Ngram浏览器-英语一百万

Dictionary 谷歌Ngram浏览器-英语一百万,dictionary,nlp,words,n-gram,pytorch,Dictionary,Nlp,Words,N Gram,Pytorch,我正在用PyTorch培训一个语言模型,我需要最常用的一百万个英语单词作为字典 据我所知,(1-gram)可能适合此任务,但在下载此数据集的每个部分(0-9)并使用tail检查它们是否是我所认为的,我发现此数据集的任何部分都不包含F字母以外的单词 据我所知,任何版本1的文件都有按字母顺序和年代顺序排列的Ngram,我担心最常见的一百万个单词是否可能不超过F 或者我没有抓住这个数据集的要点,它不是最常见的一百万个单词吗?尝试shuf进行随机排序,您将看到数据包含所有字母。您在文件末尾看到的不是f,

我正在用PyTorch培训一个语言模型,我需要最常用的一百万个英语单词作为字典

据我所知,(1-gram)可能适合此任务,但在下载此数据集的每个部分(0-9)并使用
tail
检查它们是否是我所认为的,我发现此数据集的任何部分都不包含F字母以外的单词

据我所知,任何版本1的文件都有按字母顺序和年代顺序排列的Ngram,我担心最常见的一百万个单词是否可能不超过F

或者我没有抓住这个数据集的要点,它不是最常见的一百万个单词吗?

尝试
shuf
进行随机排序,您将看到数据包含所有字母。您在文件末尾看到的不是
f
,而是连字
fl