Stata 在特定观察后加载所有数据
使用Statalist的优秀建议,我正在运行一个循环来读取60GB的Stata数据集,并在一些数据预处理之后将其保存成块 不幸的是,我不知道观察的总数,因此当请求读取比可用数据更多的数据时,use命令不会执行:Stata 在特定观察后加载所有数据,stata,Stata,使用Statalist的优秀建议,我正在运行一个循环来读取60GB的Stata数据集,并在一些数据预处理之后将其保存成块 不幸的是,我不知道观察的总数,因此当请求读取比可用数据更多的数据时,use命令不会执行: use `usevars' in 210000001/220000000 using "a_large_dta_file.dta", clear 数据集包含的观测值似乎不到220000000,但我不知道有多少。我正在寻找一个endoffile操作符或类似的东西来规避这个问题。我手动验证
use `usevars' in 210000001/220000000 using "a_large_dta_file.dta", clear
数据集包含的观测值似乎不到220000000,但我不知道有多少。我正在寻找一个endoffile操作符或类似的东西来规避这个问题。我手动验证了至少存在21001001,但这不会有多大帮助 使用Stata的auto toy数据集考虑以下可复制的示例:
sysuse auto, clear
display _N
74
使用descripe命令将获得您想要的:
findfile auto.dta
describe using "`r(fn)'" // or ask for only one variable e.g. describe rep78
display r(N)
74
Stata数据集始终为矩形,因此您也可以手动加载单个变量并计数:
use rep78 using "`r(fn)'", clear // load a variable which also contains missing data
display _N
74
或者,使用循环加载较小的块,并使用capture命令查看失败的地方