Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/excel/26.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Excel 将数据刮入Stata_Excel_Scrape_Stata - Fatal编程技术网

Excel 将数据刮入Stata

Excel 将数据刮入Stata,excel,scrape,stata,Excel,Scrape,Stata,我有40000个HTML文件。每个文件都有一个包含特定公司损益表的表格 我想把所有这些数据拼凑成Stata。(或者,输入Excel/CSV文件)。最终产品应为Stata/Excel文件,其中包含所有公司的列表及其资产负债表的详细信息(收入、利润等) 我可以知道怎么做吗?我试过智谋,但似乎还不够好。Stata并不是这项工作的最佳工具。您必须使用低级file命令来读取输入文本文件,然后解析出相关表(同样,使用低级字符串处理)。将它们放入数据集中是最简单的部分;你也可以 expand 2 in

我有40000个HTML文件。每个文件都有一个包含特定公司损益表的表格

我想把所有这些数据拼凑成Stata。(或者,输入Excel/CSV文件)。最终产品应为Stata/Excel文件,其中包含所有公司的列表及其资产负债表的详细信息(收入、利润等)


我可以知道怎么做吗?我试过智谋,但似乎还不够好。

Stata并不是这项工作的最佳工具。您必须使用低级
file
命令来读取输入文本文件,然后解析出相关表(同样,使用低级字符串处理)。将它们放入数据集中是最简单的部分;你也可以

    expand 2 in l
    replace company = "parsed name" in l
    replace revenue = parsed_revenue in l

等等,或者使用
post
mechanism。如果运气好的话,你会发现一些软件包可能会使它更简单,但我不知道有任何软件包,而且
findit html
似乎没有带来任何可用的东西。

Stata并不是这项工作的最佳工具。您必须使用低级
file
命令来读取输入文本文件,然后解析出相关表(同样,使用低级字符串处理)。将它们放入数据集中是最简单的部分;你也可以

    expand 2 in l
    replace company = "parsed name" in l
    replace revenue = parsed_revenue in l

等等,或者使用
post
mechanism。如果运气好的话,您会发现一些软件包可能会使它更简单,但我不知道有任何软件包,而且
findit html
似乎没有带来任何可用的东西。

Stata不是这个工作的好工具。原则上这是可能的。就我个人而言,我已经做过类似的事情:将ascii文件读入Stata,解析它们并从中提取信息。我已使用将数据转储到Stata。然后我用Stata的方法处理了数据。这有点麻烦。这些文件的结构非常简单和清晰。我不想想象当文件具有更复杂的结构时会发生什么


我认为最好的策略是使用Python、Perl或Ruby等脚本语言。提取html表中包含的信息。结果可以轻松写入csv、Excel甚至Stata(.dta)文件

Stata不是这项工作的好工具。原则上这是可能的。就我个人而言,我已经做过类似的事情:将ascii文件读入Stata,解析它们并从中提取信息。我已使用将数据转储到Stata。然后我用Stata的方法处理了数据。这有点麻烦。这些文件的结构非常简单和清晰。我不想想象当文件具有更复杂的结构时会发生什么


我认为最好的策略是使用Python、Perl或Ruby等脚本语言。提取html表中包含的信息。结果可以轻松写入csv、Excel甚至Stata(.dta)文件

您应该使用Python beautifulsoup包。它在从HTML文件提取数据时非常方便。以下是链接

在文档中,有许多命令,但只有少数命令是重要的。以下是重要的命令:

from bs4 import BeautifulSoup

#read the file
fp=open(file_name,'r')
data=fp.read()
fp.close()


#pass the data to beautifulsoup
soup = BeautifulSoup(html_doc, 'html.parser')

#extract the html elements by id and write result into file

您应该使用Python beautifulsoup包。它在从HTML文件提取数据时非常方便。以下是链接

在文档中,有许多命令,但只有少数命令是重要的。以下是重要的命令:

from bs4 import BeautifulSoup

#read the file
fp=open(file_name,'r')
data=fp.read()
fp.close()


#pass the data to beautifulsoup
soup = BeautifulSoup(html_doc, 'html.parser')

#extract the html elements by id and write result into file

这里没有理由认为Stata天生不如脚本语言强大,当然也没有理由限制用于字符串函数的工具。没有一个程序能够在没有被提取意义的规范的情况下提取意义。这一点只能通过给出特定文件结构的示例并查看不同软件中的代码来解决。没有理由认为Stata天生不如脚本语言强大,当然也没有理由限制用于字符串函数的工具。没有一个程序能够在没有被提取意义的规范的情况下提取意义。这一点只能通过给出特定文件结构的示例并查看不同软件中的代码来解决。