Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/powerbi/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 将Txt转换为数据帧,列几乎为空_Python_Pandas - Fatal编程技术网

Python 将Txt转换为数据帧,列几乎为空

Python 将Txt转换为数据帧,列几乎为空,python,pandas,Python,Pandas,我正在使用SEC提供的开源财务报表数据: 我计划尝试将这些数据与我掌握的其他数据进行数学建模。在此之前,我需要生成一个大数据帧,将每个季度的num.txt中的所有信息组合在一起 第一步是将单个num.txt(来自任何一个季度)作为一个数据读取。问题是,脚注栏通常是空的,核心栏通常是空的(但不总是空的),等等(据我所知,没有任何明确的标志发布——但请自己在网站上看看!)。有人能帮我处理这个问题吗?您需要使用制表符作为分隔符。FWIW,我读了其中一个文件,超过300万行。因此,在遇到内存错误之前,很

我正在使用SEC提供的开源财务报表数据:

我计划尝试将这些数据与我掌握的其他数据进行数学建模。在此之前,我需要生成一个大数据帧,将每个季度的
num.txt
中的所有信息组合在一起


第一步是将单个
num.txt
(来自任何一个季度)作为一个数据读取。问题是,
脚注
栏通常是空的,
核心
栏通常是空的(但不总是空的),等等(据我所知,没有任何明确的标志发布——但请自己在网站上看看!)。有人能帮我处理这个问题吗?

您需要使用制表符作为分隔符。FWIW,我读了其中一个文件,超过300万行。因此,在遇到内存错误之前,很可能无法将其中的多个与pd.concat()组合。可能还有其他方法来进行分析,但如果必须有一个非常大的表,则可以使用dask数据帧


您需要使用tab作为分隔符。FWIW,我读了其中一个文件,超过300万行。因此,在遇到内存错误之前,很可能无法将其中的多个与pd.concat()组合。可能还有其他方法来进行分析,但如果必须有一个非常大的表,则可以使用dask数据帧

df = pd.read_csv('num.txt', sep='\t')

print (df.head(5)) 

    adsh                    tag                         version    coreg ddate     qtrs uom value          footnote
0   0000070502-20-000004    DerivativeNotionalAmount    invest/2013 NaN 20191130    0   USD 1.043574e+10    NaN
1   0000070502-20-000004    DerivativeNotionalAmount    invest/2013 NaN 20190531    0   USD 1.084328e+10    NaN
2   0000080424-20-000017    DerivativeNotionalAmount    invest/2013 NaN 20190630    0   USD 1.730900e+10    NaN
3   0000080424-20-000017    DerivativeNotionalAmount    invest/2013 NaN 20191231    0   USD 1.618200e+10    NaN
4   0000038777-20-000011    DerivativeNotionalAmount    invest/2013 NaN 20191231    0   USD 6.000000e+07    NaN