Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/334.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 加载带有中断的数据集_Python_Csv_Line Breaks - Fatal编程技术网

Python 加载带有中断的数据集

Python 加载带有中断的数据集,python,csv,line-breaks,Python,Csv,Line Breaks,我正在尝试加载一个包含中断的数据集。我正试图找到一种聪明的方法来实现这一目标。我是从我包含的代码开始的 如您所见,发布在公共FTP站点上的文件中的数据从第11行开始,在第23818行结束,然后再次从23823开始,在45630结束 import pandas as pd import numpy as np from io import BytesIO from zipfile import ZipFile from urllib.request impo

我正在尝试加载一个包含中断的数据集。我正试图找到一种聪明的方法来实现这一目标。我是从我包含的代码开始的

如您所见,发布在公共FTP站点上的文件中的数据从第11行开始,在第23818行结束,然后再次从23823开始,在45630结束

    import pandas as pd
    import numpy as np
    from io import BytesIO
    from zipfile import ZipFile
    from urllib.request import urlopen

    url = urlopen("http://mba.tuck.dartmouth.edu/pages/faculty/ken.french/ftp/10_Portfolios_Prior_12_2_Daily_CSV.zip")
    #Download Zipfile and create pandas DataFrame
    zipfile = ZipFile(BytesIO(url.read()))
    df = pd.read_csv(zipfile.open('10_Portfolios_Prior_12_2_Daily.CSV'), header = 0, 
                        names = ['asof_dt','1','2','3','4','5','6','7','8','9','10'], skiprows=10).dropna()
    df['asof_dt'] = pd.to_datetime(df['asof_dt'], format = "%Y%m%d")
我希望第一套最好有一个版本号“1”,第二套最好有一个版本号“2”,等等


任何帮助都将不胜感激。谢谢。

除了开始时的最初几行之外,我没有看到此数据中有任何中断。请转到第22823行URL中的数据中没有中断。在前几行被扔掉后,直接读到pandas,没有任何抱怨。尝试类似于
awk'FNR>=22803&&FNRMy抱歉,我输入了错误的行号。23818和23822之间有一个间隙。我无法硬编码换行符,因为它们会定期在每个节中追加数据。非常感谢。