Python 加载带有中断的数据集
我正在尝试加载一个包含中断的数据集。我正试图找到一种聪明的方法来实现这一目标。我是从我包含的代码开始的 如您所见,发布在公共FTP站点上的文件中的数据从第11行开始,在第23818行结束,然后再次从23823开始,在45630结束Python 加载带有中断的数据集,python,csv,line-breaks,Python,Csv,Line Breaks,我正在尝试加载一个包含中断的数据集。我正试图找到一种聪明的方法来实现这一目标。我是从我包含的代码开始的 如您所见,发布在公共FTP站点上的文件中的数据从第11行开始,在第23818行结束,然后再次从23823开始,在45630结束 import pandas as pd import numpy as np from io import BytesIO from zipfile import ZipFile from urllib.request impo
import pandas as pd
import numpy as np
from io import BytesIO
from zipfile import ZipFile
from urllib.request import urlopen
url = urlopen("http://mba.tuck.dartmouth.edu/pages/faculty/ken.french/ftp/10_Portfolios_Prior_12_2_Daily_CSV.zip")
#Download Zipfile and create pandas DataFrame
zipfile = ZipFile(BytesIO(url.read()))
df = pd.read_csv(zipfile.open('10_Portfolios_Prior_12_2_Daily.CSV'), header = 0,
names = ['asof_dt','1','2','3','4','5','6','7','8','9','10'], skiprows=10).dropna()
df['asof_dt'] = pd.to_datetime(df['asof_dt'], format = "%Y%m%d")
我希望第一套最好有一个版本号“1”,第二套最好有一个版本号“2”,等等
任何帮助都将不胜感激。谢谢。除了开始时的最初几行之外,我没有看到此数据中有任何中断。请转到第22823行URL中的数据中没有中断。在前几行被扔掉后,直接读到pandas,没有任何抱怨。尝试类似于
awk'FNR>=22803&&FNRMy抱歉,我输入了错误的行号。23818和23822之间有一个间隙。我无法硬编码换行符,因为它们会定期在每个节中追加数据。非常感谢。