如何在python中读取多个大型.jsonl文件_Python_Pandas_Classification

如何在python中读取多个大型.jsonl文件

python pandas

如何在python中读取多个大型.jsonl文件,python,pandas,classification,Python,Pandas,Classification,我正在构建一个ML分类器。为此，我有一个数据集，它被划分为6.jsonl文件。每一个都超过1.6GB。首先，我尝试了以下代码： import pandas as pd data=pd.read_json("train_features_0.jsonl") 这给了我一个错误“trailingError” 所以我在“read_json”中使用了“chunksize”和“line” 给出了“pandas.io.json.json.json.JsonReader at 0x136bce302b0”

我正在构建一个ML分类器。为此，我有一个数据集，它被划分为6.jsonl文件。每一个都超过1.6GB。首先，我尝试了以下代码：

import pandas as pd
data=pd.read_json("train_features_0.jsonl")

这给了我一个错误“trailingError”

所以我在“read_json”中使用了“chunksize”和“line”

给出了“pandas.io.json.json.json.JsonReader at 0x136bce302b0”

数据集包括：train_features_0.jsonl、train_features_1.jsonl、train_features_2.jsonl、train_features_3.jsonl、train_features_4.jsonl、train_features_5.jsonl

所以我的问题是如何使用所有这些.jsonl文件来训练我的分类器

另一个问题是如何在训练分类器时使用特定的“name:value”对。。？我的意思是我可以删除一些名称：值对以加快培训过程

请原谅，我是ML的新手。

您可以尝试回答中提到的解决方案：@stark9190我已经查看了您提供的链接。是的，每个“.jsonl”文件都包含多个json对象，这就是我使用“lines=True”的原因。如果我只传递参数“file\u path”和“lines”，而不使用“chunksize”，如：pd.read\u json（“train\u features\u 0.jsonl”，lines=True）或pd.read\u json（“train\u features\u 0.jsonl”，lines=True），那么我的系统就会停机。

import pandas as pd
data=pd.read_json("train_features_0.jsonl", chunksize=100,lines=True)