Java 如何使用Htmlunit对财务表进行数据挖掘?

Java 如何使用Htmlunit对财务表进行数据挖掘?,java,web-scraping,htmlunit,Java,Web Scraping,Htmlunit,使用java/htmlunit,我想在网络上挖掘数据,搜集一些对冲基金SEC 13F文件。我不知道如何对SEC的.txt文件进行数据挖掘,例如。 表的布局看起来很干净,很有条理,但是我如何抓住带有相应的和的?此外,我如何在第3栏中仅获取公司名称和价值,以及在第4栏中获取股份金额 不确定我是否在正确的轨道上,但我使用了Bufferedreader,不确定下一步如何获取中的数据。。。以下是我目前掌握的情况: import java.io.BufferedReader; import java.io.

使用java/htmlunit,我想在网络上挖掘数据,搜集一些对冲基金SEC 13F文件。我不知道如何对SEC的.txt文件进行数据挖掘,例如。 表的布局看起来很干净,很有条理,但是我如何抓住带有相应的的?此外,我如何在第3栏中仅获取公司名称和价值,以及在第4栏中获取股份金额

不确定我是否在正确的轨道上,但我使用了Bufferedreader,不确定下一步如何获取
中的数据。。。以下是我目前掌握的情况:

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;

public class BufferedReaderExample {

public static void main(String[] args) {

    try {
        // Create a URL for the desired page
        URL url = new URL("http://www.sec.gov/Archives/edgar/data/1047644/000104746912006072/a2209520z13f-hr.txt");
        BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));
        String str;


        while ((str = in.readLine()) != null) {
            System.out.println(str);
        }
        in.close();
    } catch (MalformedURLException e) {
    } catch (IOException e) {
    }
}
}

我不知道这个文档有什么格式,但它最多允许你从网上下载。您必须自己进行解析

现在,格式似乎不是XML、HTML或任何标准格式,至少从我所知道的少量内容来看。。。所以,我首先想到正则表达式,但经过第二次思考后,我意识到列的长度由破折号的数量表示-

您可以使用正则表达式获取标记之间的所有内容,然后使用任何编程语言将虚线拆分为字符串数组,然后将下面每行的文本按每个字符串的字符数进行剪切


就是这样:

HtmlUnit对您没有帮助,因为页面不包含HTML,而是纯文本。谢谢您的回复。建议?我正计划通过大约200家对冲基金进行循环投资。如何在一个地址中对纯文本进行web抓取/数据挖掘,例如,以.txt结尾的web地址的正确术语是什么?这将适用于.txt文件?此外,许多SEC文件到处都是。有些使用-mark,有些使用直线,比如有没有一种有效的方法来创建更健壮的代码来处理这些不同的.txt格式?@ETD33如果语言没有标准化和文档化,你将无法找到一个解析器。我的猜测是,即使这种语言有很好的文档记录,也没有人花时间编写某种解析器。所以,再一次,你必须从头开始写。好的是,如果您这样做了,您可以发布您的解析器并帮助其他人解决相同的问题:我真的很想学习如何做到这一点。。。但是我不知道如何使用正则表达式来获取
标记之间的所有内容,然后使用任何编程语言将虚线分割成一个字符串数组,然后根据每个字符串的字符数剪切下面每行的文本。你能给我指一下正确的方向吗?