需要解析来自大型linux文本文件(约2000万行)的数据上的字符串并转换为csv
我有一个大文件(20M行),每行的格式如下:需要解析来自大型linux文本文件(约2000万行)的数据上的字符串并转换为csv,linux,csv,unix,sed,grep,Linux,Csv,Unix,Sed,Grep,我有一个大文件(20M行),每行的格式如下: (5859785,7410375) (5859799,7410377) LAYER_ACT stringofdatathatislateronrow (58597,74103) (58597,74103) LAYER_ACT2 stringofdatathatislateronrowmillion 我需要一个csv输出,即: X Y 5859785 7410375 58597 74103 我知道u
(5859785,7410375) (5859799,7410377) LAYER_ACT stringofdatathatislateronrow
(58597,74103) (58597,74103) LAYER_ACT2 stringofdatathatislateronrowmillion
我需要一个csv输出,即:
X Y
5859785 7410375
58597 74103
我知道unix上的“sed”命令可以用来抓取东西,但我无法让它工作以获得正确的格式。您有更好的解决方案来获得此输出吗?使用(
,)
和,
作为带有awk的输入字段分隔符:
awk -F '[(),]' 'BEGIN{OFS="\t"; print "X","Y"} {print $2,$3}' file
输出:
X Y
5859785 7410375
58597 74103
xy
5859785 7410375
58597 74103
根据需要更改输出字段分隔符(OFS)