Google bigquery 将数据加载到bigquery时遇到太多错误[无效]

Google bigquery 将数据加载到bigquery时遇到太多错误[无效],google-bigquery,Google Bigquery,我用LIWC(语言查询和字数统计)的数据丰富了reddit评论的公共数据集。我有60个600mb的文件。现在的想法是上传到BigQuery,将它们聚集在一起并分析结果。唉,我遇到了一些问题 对于第一个测试,我有一个200行114列的测试样本 我先问了一下,FHOFA提供了一个非常好的答案。问题似乎在于body_raw列中的换行符(/n),因为Redditor经常将它们包含在文本中。似乎BigQuery无法处理它们 我试图将原始数据(我已将其传输到存储器)传输回BigQuery,未经编辑,未被触及

我用LIWC(语言查询和字数统计)的数据丰富了reddit评论的公共数据集。我有60个600mb的文件。现在的想法是上传到BigQuery,将它们聚集在一起并分析结果。唉,我遇到了一些问题

对于第一个测试,我有一个200行114列的测试样本

我先问了一下,FHOFA提供了一个非常好的答案。问题似乎在于body_raw列中的换行符(/n),因为Redditor经常将它们包含在文本中。似乎BigQuery无法处理它们

我试图将原始数据(我已将其传输到存储器)传输回BigQuery,未经编辑,未被触及,但问题相同。BigQuery甚至无法处理来自BigQuery的原始数据

无论如何,我可以在其他程序(如R)中打开csv而不会出现问题,这意味着csv本身没有损坏或模式不一致。所以FHOFA的命令应该把它处理掉

bq load --allow_quoted_newlines --allow_jagged_rows --skip_leading_rows=1 tt.delete_201607a myproject.newtablename gs://my_testbucket/dat2.csv body_raw,score_hidden,archived,name,author,author_flair_text,downs,created_utc,subreddit_id,link_id,parent_id,score,retrieved_on,controversiality,gilded,id,subreddit,ups,distinguished,author_flair_css_class,WC,Analytic,Clout,Authentic,Tone,WPS,Sixltr,Dic,function,pronoun,ppron,i,we,you,shehe,they,ipron,article,prep,auxverb,adverb,conj,negate,verb,adj,compare,interrog,number,quant,affect,posemo,negemo,anx,anger,sad,social,family,friend,female,male,cogproc,insight,cause,discrep,tentat,certain,differ,percept,see,hear,feel,bio,body,health,sexual,ingest,drives,affiliation,achieve,power,reward,risk,focuspast,focuspresent,focusfuture,relativ,motion,space,time,work,leisure,home,money,relig,death,informal,swear,netspeak,assent,nonflu,filler,AllPunc,Period,Comma,Colon,SemiC,QMark,Exclam,Dash,Quote,Apostro,Parenth,OtherP
结果是:

Too many positional args, still have ['body_raw,score_h...]
如果我从命令中去掉“tt.delete_201607a”,我会得到现在经常看到的错误消息:

BigQuery error in load operation: Error processing job 'xx': Too many errors encountered.
所以我不知道在这里该怎么办。我应该用Python去掉/n吗?这可能需要几天时间(虽然我不确定,我不是程序员),因为我的完整数据集大约有5500万行。
或者你还有其他想法吗?

我再次检查,我可以毫无问题地加载你留在dropbox上的文件

首先,我确保下载您的原始文件:

wget https://www.dropbox.com/s/5eqrit7mx9sp3vh/dat2.csv?dl=0
然后运行以下命令:

bq load --allow_quoted_newlines --allow_jagged_rows --skip_leading_rows=1 \
   tt.delete_201607b dat2.csv\?dl\=0 \
   body_raw,score_hidden,archived,name,author,author_flair_text,downs,created_utc,subreddit_id,link_id,parent_id,score,retrieved_on,controversiality,gilded,id,subreddit,ups,distinguished,author_flair_css_class,WC,Analytic,Clout,Authentic,Tone,WPS,Sixltr,Dic,function,pronoun,ppron,i,we,you,shehe,they,ipron,article,prep,auxverb,adverb,conj,negate,verb,adj,compare,interrog,number,quant,affect,posemo,negemo,anx,anger,sad,social,family,friend,female,male,cogproc,insight,cause,discrep,tentat,certain,differ,percept,see,hear,feel,bio,body,health,sexual,ingest,drives,affiliation,achieve,power,reward,risk,focuspast,focuspresent,focusfuture,relativ,motion,space,time,work,leisure,home,money,relig,death,informal,swear,netspeak,assent,nonflu,filler,AllPunc,Period,Comma,Colon,SemiC,QMark,Exclam,Dash,Quote,Apostro,Parenth,OtherP,oops
如reddit中所述,您需要以下选项:

  • --允许新行
    :某些字符串中有新行,因此CSV不严格以新行分隔
  • ——允许锯齿行
    :并非每行的列数都相同
  • ,oops
    :某些行中有一个额外的列。我将此列添加到列列表中
当它说“位置参数太多”时,是因为您的命令说:

tt.delete_201607a myproject.newtablename
嗯,
tt.delete_201607a
是我命名表的方式
myproject.newtablename
是表的命名方式。选择一个,而不是两个


您确定无法加载留在dropbox上的示例文件吗?或者您在该文件中找不到的行中出现错误?

啊,好的!!在你的帮助下,它现在起作用了,谢谢你!