Stata 在特定观察后加载所有数据_Stata

Stata 在特定观察后加载所有数据

stata

Stata 在特定观察后加载所有数据,stata,Stata,使用Statalist的优秀建议，我正在运行一个循环来读取60GB的Stata数据集，并在一些数据预处理之后将其保存成块不幸的是，我不知道观察的总数，因此当请求读取比可用数据更多的数据时，use命令不会执行： use `usevars' in 210000001/220000000 using "a_large_dta_file.dta", clear 数据集包含的观测值似乎不到220000000，但我不知道有多少。我正在寻找一个endoffile操作符或类似的东西来规避这个问题。我手动验证

使用Statalist的优秀建议，我正在运行一个循环来读取60GB的Stata数据集，并在一些数据预处理之后将其保存成块

不幸的是，我不知道观察的总数，因此当请求读取比可用数据更多的数据时，use命令不会执行：

use `usevars' in 210000001/220000000 using "a_large_dta_file.dta", clear

数据集包含的观测值似乎不到220000000，但我不知道有多少。我正在寻找一个endoffile操作符或类似的东西来规避这个问题。我手动验证了至少存在21001001，但这不会有多大帮助

使用Stata的auto toy数据集考虑以下可复制的示例：

sysuse auto, clear
display _N
74

使用descripe命令将获得您想要的：

findfile auto.dta

describe using "`r(fn)'" // or ask for only one variable e.g. describe rep78

display r(N)
74

Stata数据集始终为矩形，因此您也可以手动加载单个变量并计数：

use rep78 using "`r(fn)'", clear // load a variable which also contains missing data

display _N
74

或者，使用循环加载较小的块，并使用capture命令查看失败的地方