- java/
- Java 如何使用Htmlunit对财务表进行数据挖掘?
Java 如何使用Htmlunit对财务表进行数据挖掘?
Java 如何使用Htmlunit对财务表进行数据挖掘?,java,web-scraping,htmlunit,Java,Web Scraping,Htmlunit,使用java/htmlunit,我想在网络上挖掘数据,搜集一些对冲基金SEC 13F文件。我不知道如何对SEC的.txt文件进行数据挖掘,例如。
表的布局看起来很干净,很有条理,但是我如何抓住带有相应的和的?此外,我如何在第3栏中仅获取公司名称和价值,以及在第4栏中获取股份金额
不确定我是否在正确的轨道上,但我使用了Bufferedreader,不确定下一步如何获取中的数据。。。以下是我目前掌握的情况:
import java.io.BufferedReader;
import java.io.
使用java/htmlunit,我想在网络上挖掘数据,搜集一些对冲基金SEC 13F文件。我不知道如何对SEC的.txt文件进行数据挖掘,例如。
表的布局看起来很干净,很有条理,但是我如何抓住带有相应的和的?此外,我如何在第3栏中仅获取公司名称和价值,以及在第4栏中获取股份金额
不确定我是否在正确的轨道上,但我使用了Bufferedreader,不确定下一步如何获取中的数据。。。以下是我目前掌握的情况:
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
public class BufferedReaderExample {
public static void main(String[] args) {
try {
// Create a URL for the desired page
URL url = new URL("http://www.sec.gov/Archives/edgar/data/1047644/000104746912006072/a2209520z13f-hr.txt");
BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));
String str;
while ((str = in.readLine()) != null) {
System.out.println(str);
}
in.close();
} catch (MalformedURLException e) {
} catch (IOException e) {
}
}
}
我不知道这个文档有什么格式,但它最多允许你从网上下载。您必须自己进行解析
现在,格式似乎不是XML、HTML或任何标准格式,至少从我所知道的少量内容来看。。。所以,我首先想到正则表达式,但经过第二次思考后,我意识到列的长度由破折号的数量表示-
您可以使用正则表达式获取标记之间的所有内容,然后使用任何编程语言将虚线拆分为字符串数组,然后将下面每行的文本按每个字符串的字符数进行剪切
就是这样:HtmlUnit对您没有帮助,因为页面不包含HTML,而是纯文本。谢谢您的回复。建议?我正计划通过大约200家对冲基金进行循环投资。如何在一个地址中对纯文本进行web抓取/数据挖掘,例如,以.txt结尾的web地址的正确术语是什么?这将适用于.txt文件?此外,许多SEC文件到处都是。有些使用-mark,有些使用直线,比如有没有一种有效的方法来创建更健壮的代码来处理这些不同的.txt格式?@ETD33如果语言没有标准化和文档化,你将无法找到一个解析器。我的猜测是,即使这种语言有很好的文档记录,也没有人花时间编写某种解析器。所以,再一次,你必须从头开始写。好的是,如果您这样做了,您可以发布您的解析器并帮助其他人解决相同的问题:我真的很想学习如何做到这一点。。。但是我不知道如何使用正则表达式来获取标记之间的所有内容,然后使用任何编程语言将虚线分割成一个字符串数组,然后根据每个字符串的字符数剪切下面每行的文本。你能给我指一下正确的方向吗?