用python从一行到另一行读取yelp数据集

用python从一行到另一行读取yelp数据集,python,indexing,bigdata,yelp,Python,Indexing,Bigdata,Yelp,我想把这个代码改为从1400001行到1450000行。什么是修改? 文件由单个对象类型组成,每行一个JSON对象。 我还想将输出保存到.csv文件。我该怎么办 revu=[] with open("review.json", 'r',encoding="utf8") as f: for line in f: revu = json.loads(line[1400001:1450000) 如果是每行JSON: revu=[] with open("review.jso

我想把这个代码改为从1400001行到1450000行。什么是修改?
文件由单个对象类型组成,每行一个JSON对象。 我还想将输出保存到.csv文件。我该怎么办

revu=[]
with open("review.json", 'r',encoding="utf8") as f:
      for line in f:
       revu = json.loads(line[1400001:1450000)

如果是每行JSON:

revu=[]
with open("review.json", 'r',encoding="utf8") as f:
    # expensive statement, depending on your filesize this might
    # let you run out of memory
    revu = [json.loads(s) for s in f.readlines()[1400001:1450000]]
如果您在/etc/passwd文件上进行测试,那么测试就很容易(当然没有json,所以忽略了这一点)

或者迭代所有行,避免内存问题:

revu = []
with open("...", 'r') as f:
    for i, line in enumerate(f):
        if i >= 1400001 and i <= 1450000:
            revu.append(json.loads(line))

# process revu   
revu=[]
以open(“…”,“r”)作为f:
对于i,枚举(f)中的行:

如果i>=1400001,i=_from,i revu=[],并将open(“review.json”,“r',encoding=“utf8”)作为f:for,则f:revu=json.loads(第[1400001:1450000行)中的行这是每行JSON还是整个文件JSON?文件由单个对象类型组成,每行一个JSON对象。非常感谢。这通过可忽略的修改对我有效:revu=[]打开(“review.JSON”,“r',encoding=“utf8”)作为f:for i,在枚举(f)中的行:如果我>=1400001,我想将输出保存到.csv文件中。我该怎么办?谢谢…就是你!最近我遇到了这个错误:没有定义名称“json”!!尽管安装了ijson Think命令行,但这在过去运行得很好!!现在发生了什么???添加导入:导入json,应该可以完成这项工作。你可以告诉我们安装cjson:pip安装python cjson并导入:将cjson作为json导入,并通过将加载(…)替换为解码(…)来更改代码。对于ijson,我目前没有答案
revu = []
with open("...", 'r') as f:
    for i, line in enumerate(f):
        if i >= 1400001 and i <= 1450000:
            revu.append(json.loads(line))

# process revu   
import pandas as pd
import json

def mylines(filename, _from, _to):
    with open(filename, encoding="utf8") as f:
        for i, line in enumerate(f):
            if i >= _from and i <= _to:
                yield json.loads(line)

df = pd.DataFrame([r for r in mylines("review.json", 1400001, 1450000)])
df.to_csv("/tmp/whatever.csv")