Java 阅读和分析另一个网页上的数据并插入到我的网页上_Java_Html_Matlab_Web Scraping

Java 阅读和分析另一个网页上的数据并插入到我的网页上

java html matlab web-scraping

Java 阅读和分析另一个网页上的数据并插入到我的网页上,java,html,matlab,web-scraping,Java,Html,Matlab,Web Scraping,我试图做一个简单的网页，获得足球联赛表的数据例如，我想阅读积分栏，然后将其除以玩过的游戏数，得到每场游戏的平均积分，然后打印到我的网页上我如何在网上做这件事我对离线程序（如C/Matlab）很有经验，但我不知道从哪里开始在线学习谢谢我不建议在客户端（在浏览器上）这样做。在服务器端（例如使用java）执行以下步骤将更容易废弃：抓取网页内容（skysports）将现有html标记与正则表达式一起使用以定位所需的内容部分使用正则表达式剥离/拆分html标记以获取记录（tr）和字段（td

我试图做一个简单的网页，获得足球联赛表的数据

例如，我想阅读积分栏，然后将其除以玩过的游戏数，得到每场游戏的平均积分，然后打印到我的网页上

我如何在网上做这件事

我对离线程序（如C/Matlab）很有经验，但我不知道从哪里开始在线学习

谢谢

我不建议在客户端（在浏览器上）这样做。在服务器端（例如使用java）执行以下步骤将更容易废弃：

抓取网页内容（skysports）

将现有html标记与正则表达式一起使用以定位所需的内容部分

使用正则表达式剥离/拆分html标记以获取记录（tr）和字段（td）

运用价值观，做数学题

使用结果生成您的html或json或其他版本

将生成的内容提供给您的客户

一般来说，废弃很容易，但不能保证明天可以使用，因为源html标记可能会随时更改（而且不会发出警告）

如果你愿意，我可以提供C#的基本样品。（很抱歉，我从1997年起就没有使用过“java”。

您这样使用：

$.get('http://www.skysports.com/football/league/0,19540,11660,00.html', function(data) {
//do the parsing here
});

有几种编程语言能够获取这些信息，PHP将是使用curl或file\u get\u contents和正则表达式解析提取所需位的经典方法。如果您的web主机不允许远程URL检索，您也可以使用Yahoo Pipes

如果Java团队中没有人能提供更好的东西，请与我联系，我将用PHP为您编写一些粗略的代码。
Perl是一个很好的Web垃圾处理和解析html或xml的工具。我已经为许多网站做了您想要做的事情，所有这些都是使用LWP:：Simple package和basic regexp pattern Matching使用perl完成的。如果我们推荐其他语言，那么Python和Ruby都有许多优秀的包用于此目的：）抱歉，没有看到java标记。我以为他在找一般的网络垃圾选项。标签很差的问题？从来没有听说过Matlab用于刮削。。