Java 如何使用Htmlunit对财务表进行数据挖掘？_Java_Web Scraping_Htmlunit

Java 如何使用Htmlunit对财务表进行数据挖掘？

java web-scraping

Java 如何使用Htmlunit对财务表进行数据挖掘？,java,web-scraping,htmlunit,Java,Web Scraping,Htmlunit,使用java/htmlunit，我想在网络上挖掘数据，搜集一些对冲基金SEC 13F文件。我不知道如何对SEC的.txt文件进行数据挖掘，例如。表的布局看起来很干净，很有条理，但是我如何抓住带有相应的和的？此外，我如何在第3栏中仅获取公司名称和价值，以及在第4栏中获取股份金额不确定我是否在正确的轨道上，但我使用了Bufferedreader，不确定下一步如何获取中的数据。。。以下是我目前掌握的情况： import java.io.BufferedReader; import java.io.

使用java/htmlunit，我想在网络上挖掘数据，搜集一些对冲基金SEC 13F文件。我不知道如何对SEC的.txt文件进行数据挖掘，例如。表的布局看起来很干净，很有条理，但是我如何抓住带有相应的和的？此外，我如何在第3栏中仅获取公司名称和价值，以及在第4栏中获取股份金额
不确定我是否在正确的轨道上，但我使用了Bufferedreader，不确定下一步如何获取
中的数据。。。以下是我目前掌握的情况：
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.MalformedURLException; import java.net.URL; public class BufferedReaderExample { public static void main(String[] args) { try { // Create a URL for the desired page URL url = new URL("http://www.sec.gov/Archives/edgar/data/1047644/000104746912006072/a2209520z13f-hr.txt"); BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream())); String str; while ((str = in.readLine()) != null) { System.out.println(str); } in.close(); } catch (MalformedURLException e) { } catch (IOException e) { } } }
我不知道这个文档有什么格式，但它最多允许你从网上下载。您必须自己进行解析
现在，格式似乎不是XML、HTML或任何标准格式，至少从我所知道的少量内容来看。。。所以，我首先想到正则表达式，但经过第二次思考后，我意识到列的长度由破折号的数量表示-
您可以使用正则表达式获取标记之间的所有内容，然后使用任何编程语言将虚线拆分为字符串数组，然后将下面每行的文本按每个字符串的字符数进行剪切
就是这样：
HtmlUnit对您没有帮助，因为页面不包含HTML，而是纯文本。谢谢您的回复。建议？我正计划通过大约200家对冲基金进行循环投资。如何在一个地址中对纯文本进行web抓取/数据挖掘，例如，以.txt结尾的web地址的正确术语是什么？这将适用于.txt文件？此外，许多SEC文件到处都是。有些使用-mark，有些使用直线，比如有没有一种有效的方法来创建更健壮的代码来处理这些不同的.txt格式？@ETD33如果语言没有标准化和文档化，你将无法找到一个解析器。我的猜测是，即使这种语言有很好的文档记录，也没有人花时间编写某种解析器。所以，再一次，你必须从头开始写。好的是，如果您这样做了，您可以发布您的解析器并帮助其他人解决相同的问题：我真的很想学习如何做到这一点。。。但是我不知道如何使用正则表达式来获取

标记之间的所有内容，然后使用任何编程语言将虚线分割成一个字符串数组，然后根据每个字符串的字符数剪切下面每行的文本。你能给我指一下正确的方向吗？

[web scraping]相关文章推荐

Web scraping 美化组不返回源 web-scraping

Web scraping 刮削服务有更好的价格吗？ web-scraping

Web scraping 爬行蜘蛛不遵循链接 web-scraping scrapy

Web scraping 用url抓取大量谷歌学者页面 web-scraping

Web scraping 挣扎与刮擦分页 web-scraping pagination scrapy

Web scraping 如何使用刮板板条箱获取元素的内部文本？ web-scraping rust

Web scraping 使用什么：在抓取Linkedin时使用Xpath或CSS选择器？ web-scraping

Web scraping 梦魇JS-如何在求值函数中使用梦魇实例 web-scraping

Web scraping 刮痧蜘蛛的防御性刮网技术 web-scraping scrapy

随机文章推荐

Facebook graph api 使用图形API php sdk创建页面选项卡-是否正确？ facebook-graph-api

Facebook graph api Facebook新闻。阅读行动 facebook-graph-api

Facebook graph api Facebook PHP SDK引发未经授权的源IP地址错误 facebook-graph-api oauth

Facebook graph api 为什么我不能为我的OpenGraph对象获取页面“访问令牌”？ facebook-graph-api

Facebook graph api Facebook graph api转换为Fql，并带有；其中； facebook-graph-api

Facebook graph api 有没有可能在不使用“insights access”的情况下获得facebook页面列表；管理“U页面”；许可？ facebook-graph-api

Facebook graph api facebook实时更新不起作用 facebook-graph-api

Facebook graph api facebook广告状态和广告群状态 facebook-graph-api

Facebook graph api 在MVC 4.0中找不到FacebookClient的Get方法 facebook-graph-api asp.net-mvc-4

Facebook graph api Facebook Graph API mutualfriends/我的应用程序失败'；访问令牌 facebook-graph-api

Facebook graph api 允许公共API进行某些修改的风险？ facebook-graph-api

Facebook graph api 从谷歌获得私人帖子+；使用API facebook-graph-api google-plus

Facebook graph api facebook画布url和安全画布url之间有什么区别 facebook-graph-api

Facebook graph api NFC摄影识别 facebook-graph-api

Facebook graph api 使用facebook api获取组成员数 facebook-graph-api

Facebook graph api 自己使用Facebook Graph API获取所有评论 facebook-graph-api

Facebook graph api 我怎样才能在推荐页面上获得所有评论？ facebook-graph-api

Facebook graph api facebook频道——机器人框架问题 facebook-graph-api botframework

Facebook graph api 我们如何使用Facebook graph API获取Instagram订阅源的缩略图？ facebook-graph-api instagram

Facebook graph api Facebook页面已被阻止通过Messenger平台发送消息。如何解锁？ facebook-graph-api

[java]相关推荐

Java 使用jsoup从url中提取适当的内容
Java

Java 书店信息亭不例外
Java

为什么PHP和JAVA中的输出不相等 import java.math.biginger；导入java.security.MessageDigest；导入java.security.NoSuchAlgorithmException；公共班机{ 公共静态void main（字符串[]args）{ 字符串xmlRequest=“46333hehe”；字符串结果=编码（xmlRequest）；字符串lol=“lol”；字符串lolResult=encode（lol）；系统输出打印项次（结果）； S
Java Php

Java 元素返回空字符串
Java Web

Java 按下JButton时如何更改图标
Java Swing Methods

Java 在所有键中替换HashMap值
Java

Java 找不到符号模块$
Java Scala

在java中创建对象-stackoverflow错误
Java

java.sql导入不工作
Java Sql Jdbc Import

Java-十六进制字符串表示为整数十六进制
Java Formatting

解密java时出错
Java Encryption

Java 解决获取多个锁时的死锁问题
Java Multithreading Concurrency

Java 代码简化和级联
Java

Java 如何从Firebase中的节点获取所有值的总和？
Java Android Firebase

Java 从给定的编码ascii字符串解码所有可能性
Java Python

在Java中使用正则表达式从字符串中提取值
Java

Java 从我的应用程序类打开Google Play商店
Java Android

如何在java中从arrayList或array中删除列？
Java Arrays

Azure java函数无法扩展以处理大量eventhub消息？
Java Function Azure

Java Jmeter-将文件从一台主机复制到中的另一台主机
Java Performance Groovy Jmeter

Java 为什么Netty/Redisson DNS解析程序在主机名中添加括号？
Java Netty

如何对从java端点获取的JSON响应进行升序排序
Java Arrays Json

Java 从mvn依赖项中排除某些依赖项：解析
Java Maven

Java Selenium-查找包含类的子类
Java Html Selenium Xpath

我必须在AOSP java中包含来自同一个包的类吗？
Java

Java 休眠搜索+；Elasticsearch-删除连续重复字符
Java

Java 我该如何写一个“我该怎么写？”；If/else语句“；为用户提供答案？
Java If Statement

Java Jsp包含另一个带有Struts2的Jsp，但没有结果
Java Jsp Struts2

Java Jenkins artifactory maven步骤使用maven汇编插件（artifactory插件3.5.0）以静默方式失败
Java Maven Jenkins Artifactory

Java 如何使用try-catch从字符串中获取两段数据？
Java Android String Api

Tags

Windows Phone 7 Sql Visual Studio 2013 Visual Studio 2010 Sorting Karate Air Gmail Ember.js Error Handling Google Maps Api 3 Loopbackjs Azure Ad B2c Combobox Cmake Windows 7 Apache Pig Testing Redirect Processing Apache2 Sugarcrm Anaconda Responsive Design Collections Ms Office Resharper Reporting Services Excel Blockchain Coding Style Liferay Typo3 Matlab C Lotus Notes C# 3.0 Azure Data Factory Jhipster .net Core Kubernetes Xpages Vb.net Google Apps Script Asp.net Mvc 3 Xmpp Grep Swift2 Database Openstack Pyspark Wicket Puppet Nsis Amazon S3 Identityserver4 Datatables Tensorflow Cryptography Alfresco Azure Encryption Zurb Foundation Stata Flask Breeze Ssas Boost Jquery Mobile Installation Terminal Graphql R Ruby On Rails Xquery Blazor Eclipse Discord Activerecord Notifications Replace Macros Gstreamer Sql Server 2012 Video Character Encoding Project Management Sprite Kit Stripe Payments Smalltalk Bootstrap 4 Virtualbox Activemq Python Open Source Razor Kendo Ui Dependencies Deployment Session Leaflet Vba Camera Ssh Actions On Google Entity Framework 4 Iis Jersey Ios5 Snowflake Cloud Data Platform Pdf Struts2 Google Calendar Api Omnet++ Model Arduino Ipython Websocket Mdx Autocomplete Compiler Construction Jmeter Msbuild Variables Scala Octave Web Crawler Shiny Zend Framework2 Cygwin Programming Languages Scrapy Prometheus Grid Vue.js Jestjs Ibm Mobilefirst Filesystems Mfc Odata Mvvm Sonarqube Apache Crystal Reports Pagination Xampp Magento Dataframe Xpath Linker Gis Arangodb Lambda Xcode Jaxb Debugging Wcf Autohotkey Google Analytics Charts Build Json Highcharts User Interface .net Graphics Random Doctrine Orm Function Swing Next.js Mongodb Asp.net Core Mvc Jsp Plone Datetime Mapping Openlayers 3 Bison Spring Boot Wolfram Mathematica Cobol Google Colaboratory Hive Twitter Bootstrap 3 Jasmine Sql Server Rx Java Gcc Version Control Extjs4 Sdk Cmd Magento2 Css Svn Cassandra Dynamic Rally Windows Installer Java Me

Copyright © 2024. All Rights Reserved by - Fatal编程技术网