Google bigquery BigQuery和公共数据集似乎都没有所有的Bigram

Google bigquery BigQuery和公共数据集似乎都没有所有的Bigram,google-bigquery,n-gram,Google Bigquery,N Gram,小结:我所要做的就是找出在n-gram查看器中可以看到的数据的下载位置,因为原始数据和BigQuery的结果似乎都不如查看器那么多 因此,在我尝试下载所有bigram而不手动打开每个文件(从可用的原始数据)的过程中,我转向BigQuery,试图将trigram数据转换为bigram,但意识到,由于trigram是如何构造的,有很多bigram没有包含在内 于是我采用了老式的方法,作为测试,从可用的原始数据下载了st文件。这是一个巨大的文件,但出于某种原因,它没有包含明显的bigram stay

小结:我所要做的就是找出在n-gram查看器中可以看到的数据的下载位置,因为原始数据和BigQuery的结果似乎都不如查看器那么多

因此,在我尝试下载所有bigram而不手动打开每个文件(从可用的原始数据)的过程中,我转向BigQuery,试图将trigram数据转换为bigram,但意识到,由于trigram是如何构造的,有很多bigram没有包含在内


于是我采用了老式的方法,作为测试,从可用的原始数据下载了st文件。这是一个巨大的文件,但出于某种原因,它没有包含明显的bigram stay here,即使ngram查看器有它。另一个例子是系好安全带。查看器将向您显示这两个短语的图形,但是st文件(我希望它包含该数据)没有显示。有人知道我为什么以及我能做些什么来获得这些数据吗?我认为,如果可以通过n-gram viewer下载,一定有办法下载它?

从您链接到的文档中,可以下载的nGram数据集是及时的快照。最近一次发布于2012年7月。我相信nGram查看器本身正在与更新的数据进行对比


我知道在BigQuery的例子中,trigram数据是nGram数据的一个旧快照,可以追溯到BigQuery首次启动时。请注意,我们的快照不包括trigrams数据集,部分原因是快照的使用时间有多长。

Hi,感谢您的澄清。你知道我在哪里可以得到更新的数据吗?因为数据不仅在ngram viewer上看起来更新,而且更全面。它们的词组很少出现,而可下载的数据集似乎有一定的限制,它们只是不包含那些不经常出现的词组(例如“待在这里”或“系好安全带”)。您需要下载原始数据并将其加载到BigQuery中,除非其他人执行此任务并共享其数据集。也许你就是那个人!