Data cleaning 当选项卡太多时,如何修复以选项卡分隔的文件?

Data cleaning 当选项卡太多时,如何修复以选项卡分隔的文件?,data-cleaning,Data Cleaning,我有一个文本文件,应该是以制表符分隔的,除了在几个字段中,有制表符而不是空格,这使得我很难提取所需的数据。它太大,无法手动修复,所以我需要任何解决方案 这些列应该如下所示: A\tB\tC\tsome info\tGO:123\t 但有时我会这样: A\tB\tC\tsome\tinfo\tGO:123\t “一些信息”栏可以是任何数量的东西,所以我不能只是替换。应该是什么第5列总是以“GO:”开头,第1、2和3列总是正确的。正是这第四专栏让事情变得艰难。 有什么想法吗?正则表达式: (A)

我有一个文本文件,应该是以制表符分隔的,除了在几个字段中,有制表符而不是空格,这使得我很难提取所需的数据。它太大,无法手动修复,所以我需要任何解决方案

这些列应该如下所示:

A\tB\tC\tsome info\tGO:123\t
但有时我会这样:

A\tB\tC\tsome\tinfo\tGO:123\t
“一些信息”栏可以是任何数量的东西,所以我不能只是替换。应该是什么第5列总是以“GO:”开头,第1、2和3列总是正确的。正是这第四专栏让事情变得艰难。 有什么想法吗?

正则表达式:

(A)\\t(B)\\t(C)\\t(.*)?\\t(GO:123)\\t
获取第1、2、3、4组。在第4组中,您有带和不带选项卡的
一些数据