如何在python中读取多个大型.jsonl文件

如何在python中读取多个大型.jsonl文件,python,pandas,classification,Python,Pandas,Classification,我正在构建一个ML分类器。为此,我有一个数据集,它被划分为6.jsonl文件。每一个都超过1.6GB。 首先,我尝试了以下代码: import pandas as pd data=pd.read_json("train_features_0.jsonl") 这给了我一个错误“trailingError” 所以我在“read_json”中使用了“chunksize”和“line” 给出了“pandas.io.json.json.json.JsonReader at 0x136bce302b0”

我正在构建一个ML分类器。为此,我有一个数据集,它被划分为6.jsonl文件。每一个都超过1.6GB。 首先,我尝试了以下代码:

import pandas as pd
data=pd.read_json("train_features_0.jsonl")
这给了我一个错误“trailingError”

所以我在“read_json”中使用了“chunksize”和“line”

给出了“pandas.io.json.json.json.JsonReader at 0x136bce302b0”

数据集包括:train_features_0.jsonl、train_features_1.jsonl、train_features_2.jsonl、train_features_3.jsonl、train_features_4.jsonl、train_features_5.jsonl

所以我的问题是如何使用所有这些.jsonl文件来训练我的分类器

另一个问题是如何在训练分类器时使用特定的“name:value”对。。?我的意思是我可以删除一些名称:值对以加快培训过程


请原谅,我是ML的新手。

您可以尝试回答中提到的解决方案:@stark9190我已经查看了您提供的链接。是的,每个“.jsonl”文件都包含多个json对象,这就是我使用“lines=True”的原因。如果我只传递参数“file\u path”和“lines”,而不使用“chunksize”,如:pd.read\u json(“train\u features\u 0.jsonl”,lines=True)或pd.read\u json(“train\u features\u 0.jsonl”,lines=True),那么我的系统就会停机。
import pandas as pd
data=pd.read_json("train_features_0.jsonl", chunksize=100,lines=True)