Google bigquery 以大量数据作为输入构建BigQuery

Google bigquery 以大量数据作为输入构建BigQuery,google-bigquery,Google Bigquery,我感兴趣的是通过BigQuery的“查找三叉数据”功能获得与特定单词最频繁的单词关联。例如,当使用谷歌的时,我可以输入great*,这将给我提供“great”之后最常用的关联词,如“great deal”,然后是“great and”和“great many”。我的目标是对大量单词进行查询,这样我就可以用word1*一直查询到word10000* 在讨论完这一点之后,我被引导到BigQuery的公开可用的三元数据。在这一点上,我似乎不知道如何使用这个服务来输入一个单词数组,或者作为文件输入,或者

我感兴趣的是通过BigQuery的“查找三叉数据”功能获得与特定单词最频繁的单词关联。例如,当使用谷歌的时,我可以输入
great*
,这将给我提供“great”之后最常用的关联词,如“great deal”,然后是“great and”和“great many”。我的目标是对大量单词进行查询,这样我就可以用
word1*
一直查询到
word10000*


在讨论完这一点之后,我被引导到BigQuery的公开可用的三元数据。在这一点上,我似乎不知道如何使用这个服务来输入一个单词数组,或者作为文件输入,或者作为粘贴它们的方式。非常感谢您的帮助-谢谢

以下是“伟大”之后最常用的10个词:

这导致

second     total     
------------------
deal       3048832   
and        1689911   
,          1576341   
a          1019511   
number     984993    
many       875974    
importance 805215    
part       739409    
.          700694    
as         628978
如果您想限制特定年份(比如1820年到1840年之间),那么还可以限制cell.value(即出版年份)


太棒了,谢谢Mosha,它成功了。作为后续问题,是否可以将多个单词加载到
first
,这样我就可以为(理想情况下)100个单词生成一个列表?我尝试了一些语法,比如“棒极了,棒极了,…”或“棒极了”,“棒极了”,“棒极了”。。。但到目前为止,它们都不起作用。谢谢你的帮助!尝试在中使用
。也就是说,
第一名在哪里(“很棒”、“不错”、“棒球”)
。如果你这样做的话,你可能还想按
第一个
分组,这样你就可以看到第一个单词和第二个单词是什么。谢谢@JordanTigani的帮助。在
中使用
可以产生三个单词的组合结果。我想知道如何执行查询,以便它查找单个单词并提供一个汇总列表——换句话说,结果中的列数将是我用来查找的单词数的2倍。使用“great”、“good”和“Basketball”将得到一个6列的表格。获得2倍的列数更为棘手,但您可以使用第一个和第二个单词作为分组键来近似您的要求:从[publicdata:samples.trigrams]中选择first、second、SUM(cell.page_count)total,其中first=“great”按1分组,2按1排序,2描述限制10如果这还不够,请再次询问,我将为您提供更复杂的解决方案。感谢@DanDelorey的帮助!我尝试了建议的代码并对其进行了修改,但未能获得所需的解决方案。我在这个问题中解释得更详细了:-感谢你的帮助!
second     total     
------------------
deal       3048832   
and        1689911   
,          1576341   
a          1019511   
number     984993    
many       875974    
importance 805215    
part       739409    
.          700694    
as         628978
SELECT second, SUM(cell.page_count) total FROM [publicdata:samples.trigrams] 
WHERE first = "great" and cell.value between '1820' and '1840'
group by 1
order by 2 desc
limit 10