Python 如何在保持对齐的同时拆分平行语料库？_Python_Pandas_Unix_Scikit Learn_Dataset

Python 如何在保持对齐的同时拆分平行语料库？

python pandas unix scikit-learn

Python 如何在保持对齐的同时拆分平行语料库？,python,pandas,unix,scikit-learn,dataset,Python,Pandas,Unix,Scikit Learn,Dataset,我有两个文本文件，其中包含两种语言的并行文本（可能有数百万行）。我正试图从单个文件生成随机训练/验证/测试文件，就像train\u test\u split在sklearn中所做的那样。但是，当我尝试使用read\u csv将其导入pandas时，由于其中的数据错误，我从许多行中得到错误，并且尝试修复断开的行会花费太多的工作。如果我尝试设置error\u bad\u lines=false，那么它将跳过其中一个文件中的某些行，可能不会跳过另一个，这会破坏对齐。如果我使用unixsplit手动拆分

我有两个文本文件，其中包含两种语言的并行文本（可能有数百万行）。我正试图从单个文件生成随机训练/验证/测试文件，就像

train\u test\u split

在

sklearn

中所做的那样。但是，当我尝试使用

read\u csv

将其导入pandas时，由于其中的数据错误，我从许多行中得到错误，并且尝试修复断开的行会花费太多的工作。如果我尝试设置

error\u bad\u lines=false

，那么它将跳过其中一个文件中的某些行，可能不会跳过另一个，这会破坏对齐。如果我使用unix

split

手动拆分它，它可以很好地满足我的需要，尽管我不关心清理它，但返回的数据不是随机的。
如何将此数据集拆分为训练/验证/测试集？

我正在使用python，但如果更简单的话，我也可以使用linux命令。

我发现我可以在带有

random source

参数的文件上使用

shuf-full.txt-o tgt-fullshuf.txt--random source=tgt full.txt

命令