Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/276.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
错误zsh:运行加载txt文件的python程序时被杀死_Python_Scikit Learn_Zsh_Train Test Split - Fatal编程技术网

错误zsh:运行加载txt文件的python程序时被杀死

错误zsh:运行加载txt文件的python程序时被杀死,python,scikit-learn,zsh,train-test-split,Python,Scikit Learn,Zsh,Train Test Split,所以我需要将一个txt文件拆分为一个测试文件和一个培训文件(也是txt)。我已经为一个较小的数据集运行了下面的代码,它工作得非常好。但当我尝试加载完整的数据集(3gb)并得到一个zsh:killed时,它失败了。有没有办法避免这种情况 以下是数据集的外观: 写作技巧| Lorem ipsum door sit amet,奉献给精英们。 通信技能| Lorem ipsum Door sit amet,奉献给精英们。 MicrosoftExcel | Lorem ipsum dolor sit am

所以我需要将一个txt文件拆分为一个测试文件和一个培训文件(也是txt)。我已经为一个较小的数据集运行了下面的代码,它工作得非常好。但当我尝试加载完整的数据集(3gb)并得到一个zsh:killed时,它失败了。有没有办法避免这种情况

以下是数据集的外观:

写作技巧| Lorem ipsum door sit amet,奉献给精英们。
通信技能| Lorem ipsum Door sit amet,奉献给精英们。
MicrosoftExcel | Lorem ipsum dolor sit amet,Concertetur adipiscing Elite.
Python | Lorem ipsum dolor sit amet,是一位杰出的领导者

from sklearn.model_selection import train_test_split
import numpy


with open("/Users/luisguillermo/CGC-IBM/entity_mapping/ms-lstm/ms-lstm/textfile.txt", "r") as f:

    print ('starting...')
    
    data = f.read().split('\n')
    data = numpy.array(data)  #convert array to numpy type array

print ('text file in array')

x_train ,x_test = train_test_split(data,test_size=0.05)

del data

print ('data in arrays...')

# Remove empty fields in the list     
x_train = list(filter(None, x_train))
x_test = list(filter(None, x_test))

print ('writing to training file')

with open('textfile_train.txt', 'w') as train:
    train.write("\n".join(i for i in x_train))

print ('Training file Done')

print ('writing to test file')

with open('textfile_test.txt', 'w') as test:
    test.write("\n".join(i for i in x_test))
    
print ('Done')

此外,如果有人知道一个很好的提供商,我也在寻找是否可以在云中运行它。

数据看起来与您在那里共享的数据完全相同?如果是,为什么要使用NumPy数组?这可能是内存问题吗?@AMC解决了它。谢谢这就解决了问题。你做了什么?另外,您知道
train\u test\u split()
是否可以将迭代器作为输入?