Google bigquery 将数据加载到bigquery时遇到太多错误[无效]_Google Bigquery

Google bigquery 将数据加载到bigquery时遇到太多错误[无效]

google-bigquery

Google bigquery 将数据加载到bigquery时遇到太多错误[无效],google-bigquery,Google Bigquery,我用LIWC（语言查询和字数统计）的数据丰富了reddit评论的公共数据集。我有60个600mb的文件。现在的想法是上传到BigQuery，将它们聚集在一起并分析结果。唉，我遇到了一些问题对于第一个测试，我有一个200行114列的测试样本我先问了一下，FHOFA提供了一个非常好的答案。问题似乎在于body_raw列中的换行符（/n），因为Redditor经常将它们包含在文本中。似乎BigQuery无法处理它们我试图将原始数据（我已将其传输到存储器）传输回BigQuery，未经编辑，未被触及

我用LIWC（语言查询和字数统计）的数据丰富了reddit评论的公共数据集。我有60个600mb的文件。现在的想法是上传到BigQuery，将它们聚集在一起并分析结果。唉，我遇到了一些问题

对于第一个测试，我有一个200行114列的测试样本

我先问了一下，FHOFA提供了一个非常好的答案。问题似乎在于body_raw列中的换行符（/n），因为Redditor经常将它们包含在文本中。似乎BigQuery无法处理它们

我试图将原始数据（我已将其传输到存储器）传输回BigQuery，未经编辑，未被触及，但问题相同。BigQuery甚至无法处理来自BigQuery的原始数据

无论如何，我可以在其他程序（如R）中打开csv而不会出现问题，这意味着csv本身没有损坏或模式不一致。所以FHOFA的命令应该把它处理掉

bq load --allow_quoted_newlines --allow_jagged_rows --skip_leading_rows=1 tt.delete_201607a myproject.newtablename gs://my_testbucket/dat2.csv body_raw,score_hidden,archived,name,author,author_flair_text,downs,created_utc,subreddit_id,link_id,parent_id,score,retrieved_on,controversiality,gilded,id,subreddit,ups,distinguished,author_flair_css_class,WC,Analytic,Clout,Authentic,Tone,WPS,Sixltr,Dic,function,pronoun,ppron,i,we,you,shehe,they,ipron,article,prep,auxverb,adverb,conj,negate,verb,adj,compare,interrog,number,quant,affect,posemo,negemo,anx,anger,sad,social,family,friend,female,male,cogproc,insight,cause,discrep,tentat,certain,differ,percept,see,hear,feel,bio,body,health,sexual,ingest,drives,affiliation,achieve,power,reward,risk,focuspast,focuspresent,focusfuture,relativ,motion,space,time,work,leisure,home,money,relig,death,informal,swear,netspeak,assent,nonflu,filler,AllPunc,Period,Comma,Colon,SemiC,QMark,Exclam,Dash,Quote,Apostro,Parenth,OtherP

结果是：

Too many positional args, still have ['body_raw,score_h...]

如果我从命令中去掉“tt.delete_201607a”，我会得到现在经常看到的错误消息：

BigQuery error in load operation: Error processing job 'xx': Too many errors encountered.

所以我不知道在这里该怎么办。我应该用Python去掉/n吗？这可能需要几天时间（虽然我不确定，我不是程序员），因为我的完整数据集大约有5500万行。

或者你还有其他想法吗？

我再次检查，我可以毫无问题地加载你留在dropbox上的文件

首先，我确保下载您的原始文件：

wget https://www.dropbox.com/s/5eqrit7mx9sp3vh/dat2.csv?dl=0

然后运行以下命令：

bq load --allow_quoted_newlines --allow_jagged_rows --skip_leading_rows=1 \
   tt.delete_201607b dat2.csv\?dl\=0 \
   body_raw,score_hidden,archived,name,author,author_flair_text,downs,created_utc,subreddit_id,link_id,parent_id,score,retrieved_on,controversiality,gilded,id,subreddit,ups,distinguished,author_flair_css_class,WC,Analytic,Clout,Authentic,Tone,WPS,Sixltr,Dic,function,pronoun,ppron,i,we,you,shehe,they,ipron,article,prep,auxverb,adverb,conj,negate,verb,adj,compare,interrog,number,quant,affect,posemo,negemo,anx,anger,sad,social,family,friend,female,male,cogproc,insight,cause,discrep,tentat,certain,differ,percept,see,hear,feel,bio,body,health,sexual,ingest,drives,affiliation,achieve,power,reward,risk,focuspast,focuspresent,focusfuture,relativ,motion,space,time,work,leisure,home,money,relig,death,informal,swear,netspeak,assent,nonflu,filler,AllPunc,Period,Comma,Colon,SemiC,QMark,Exclam,Dash,Quote,Apostro,Parenth,OtherP,oops

如reddit中所述，您需要以下选项：

```
--允许新行
```
：某些字符串中有新行，因此CSV不严格以新行分隔
```
——允许锯齿行
```
：并非每行的列数都相同
```
，oops
```
：某些行中有一个额外的列。我将此列添加到列列表中

当它说“位置参数太多”时，是因为您的命令说：

tt.delete_201607a myproject.newtablename

嗯，

tt.delete_201607a

是我命名表的方式

myproject.newtablename

是表的命名方式。选择一个，而不是两个

您确定无法加载留在dropbox上的示例文件吗？或者您在该文件中找不到的行中出现错误？

啊，好的！！在你的帮助下，它现在起作用了，谢谢你！