Stata 在特定观察后加载所有数据

Stata 在特定观察后加载所有数据,stata,Stata,使用Statalist的优秀建议,我正在运行一个循环来读取60GB的Stata数据集,并在一些数据预处理之后将其保存成块 不幸的是,我不知道观察的总数,因此当请求读取比可用数据更多的数据时,use命令不会执行: use `usevars' in 210000001/220000000 using "a_large_dta_file.dta", clear 数据集包含的观测值似乎不到220000000,但我不知道有多少。我正在寻找一个endoffile操作符或类似的东西来规避这个问题。我手动验证

使用Statalist的优秀建议,我正在运行一个循环来读取60GB的Stata数据集,并在一些数据预处理之后将其保存成块

不幸的是,我不知道观察的总数,因此当请求读取比可用数据更多的数据时,use命令不会执行:

use `usevars' in 210000001/220000000 using "a_large_dta_file.dta", clear

数据集包含的观测值似乎不到220000000,但我不知道有多少。我正在寻找一个endoffile操作符或类似的东西来规避这个问题。我手动验证了至少存在21001001,但这不会有多大帮助

使用Stata的auto toy数据集考虑以下可复制的示例:

sysuse auto, clear
display _N
74
使用descripe命令将获得您想要的:

findfile auto.dta

describe using "`r(fn)'" // or ask for only one variable e.g. describe rep78

display r(N)
74
Stata数据集始终为矩形,因此您也可以手动加载单个变量并计数:

use rep78 using "`r(fn)'", clear // load a variable which also contains missing data

display _N
74
或者,使用循环加载较小的块,并使用capture命令查看失败的地方