Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/276.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何在保持对齐的同时拆分平行语料库?_Python_Pandas_Unix_Scikit Learn_Dataset - Fatal编程技术网

Python 如何在保持对齐的同时拆分平行语料库?

Python 如何在保持对齐的同时拆分平行语料库?,python,pandas,unix,scikit-learn,dataset,Python,Pandas,Unix,Scikit Learn,Dataset,我有两个文本文件,其中包含两种语言的并行文本(可能有数百万行)。我正试图从单个文件生成随机训练/验证/测试文件,就像train\u test\u split在sklearn中所做的那样。但是,当我尝试使用read\u csv将其导入pandas时,由于其中的数据错误,我从许多行中得到错误,并且尝试修复断开的行会花费太多的工作。如果我尝试设置error\u bad\u lines=false,那么它将跳过其中一个文件中的某些行,可能不会跳过另一个,这会破坏对齐。如果我使用unixsplit手动拆分

我有两个文本文件,其中包含两种语言的并行文本(可能有数百万行)。我正试图从单个文件生成随机训练/验证/测试文件,就像
train\u test\u split
sklearn
中所做的那样。但是,当我尝试使用
read\u csv
将其导入pandas时,由于其中的数据错误,我从许多行中得到错误,并且尝试修复断开的行会花费太多的工作。如果我尝试设置
error\u bad\u lines=false
,那么它将跳过其中一个文件中的某些行,可能不会跳过另一个,这会破坏对齐。如果我使用unix
split
手动拆分它,它可以很好地满足我的需要,尽管我不关心清理它,但返回的数据不是随机的。
如何将此数据集拆分为训练/验证/测试集?

我正在使用python,但如果更简单的话,我也可以使用linux命令。

我发现我可以在带有
random source
参数的文件上使用
shuf-full.txt-o tgt-fullshuf.txt--random source=tgt full.txt
命令