如何使用Ruby、PHP或Java解析/提取ASP.net网站内容?

如何使用Ruby、PHP或Java解析/提取ASP.net网站内容?,java,php,ruby-on-rails,ruby,parsing,Java,Php,Ruby On Rails,Ruby,Parsing,我正在做一个爱好项目,用Ruby、PHP或Java来抓取ASP.net网站的内容。例如,如果网站url为“www.myaspnet.com/home.aspx”。我想从home.aspx中提取unicode文本内容并将其粘贴到记事本中。是否有上述任何一种语言的图书馆。有谁能提供合适的资源来帮助我呢 谢谢 如果您使用的是PHP,您应该可以轻松地使用它获取内容,并导航到html 您可能还想看看如何轻松提取内容。如果您使用的是PHP,您应该能够轻松地完成,您可以使用它获取内容并导航到html 您可能还

我正在做一个爱好项目,用Ruby、PHP或Java来抓取ASP.net网站的内容。例如,如果网站url为“www.myaspnet.com/home.aspx”。我想从home.aspx中提取unicode文本内容并将其粘贴到记事本中。是否有上述任何一种语言的图书馆。有谁能提供合适的资源来帮助我呢


谢谢

如果您使用的是PHP,您应该可以轻松地使用它获取内容,并导航到html


您可能还想看看如何轻松提取内容。

如果您使用的是PHP,您应该能够轻松地完成,您可以使用它获取内容并导航到html


您可能还想查看一下如何轻松提取内容。

听起来您只是想刮取内容

您不需要“将其粘贴到记事本”,只需将其写入一个简单的文本文件(然后可以在记事本或任何其他可以读取文本文件的程序中打开)

一般来说:

$content = file_get_contents('http://example.com/url.asp');
//do some stuff to extract what you want and format it.  Probably using simplexml, or regular expressions to do the extraction
$fp = fopen('some_file.txt');
fwrite($fp,$stuff);
fclose($fp);

你就完成了。

听起来你只是想抓取内容

您不需要“将其粘贴到记事本”,只需将其写入一个简单的文本文件(然后可以在记事本或任何其他可以读取文本文件的程序中打开)

一般来说:

$content = file_get_contents('http://example.com/url.asp');
//do some stuff to extract what you want and format it.  Probably using simplexml, or regular expressions to do the extraction
$fp = fopen('some_file.txt');
fwrite($fp,$stuff);
fclose($fp);

你完成了。

如果你需要某种屏幕抓取,并且喜欢Ruby,那么你可以查看或观看Ryan Bates的屏幕放映。

如果你需要某种屏幕抓取,并且喜欢Ruby,然后,您可以查看或观看Ryan Bates的screen cast。

使用Java,您可以编写一个简单的实用程序,用于从页面中提取文本,然后按照页面上显示的每个链接进行操作—递归访问这些链接并执行相同的任务


这应该是一个相当简单的练习,但是需要谨慎对待外部链接,这取决于您希望进行索引的程度。

使用Java,您可以编写一个简单的实用程序,用于从页面中提取文本,然后按照页面上显示的每个链接进行操作——递归访问这些链接并执行相同的任务


这应该是一个相当简单的练习,但是需要谨慎对待外部链接,这取决于您希望索引的程度。

这基本上展示了如何在Ruby中一步一步地废弃网站。它使用它作为rails应用程序的输出,应该很容易只关注Ruby库(ScrAPI)。

这基本上展示了如何在Ruby中逐步废弃网站。它使用它作为rails应用程序的输出,应该很容易只关注Ruby库(ScrAPI)。

作为旁注,如果您选择使用正则表达式,请确保它的灵活性,即使用
“\s+”
而不是一堆空格。人们很容易有意地,甚至无意地破坏一个严格的正则表达式。事实上,正则表达式是脏的,你会生病,必须去看医生并处理它。更好的办法是正确地解析输出。@tim谢谢你的回答,我尝试了你的脚本,但是我得到了页面的html内容,这也可以通过使用curl来完成,但是我的要求是我只需要刮取unicode文本内容,只刮除文本而不刮除html标记。好的,一旦你得到html内容,你需要提取和处理你想要的东西。正如其他人所指出的,可以使用simplexml、dom或xpath以多种方式实现这一点。如果您的需求非常简单,您可能只需要将整个HTML内容传递到strip_tag()中,然后从那里获取它。另外,如果您确实选择使用正则表达式,请确保它具有灵活性,即使用
“\s+”
而不是一堆空格。人们很容易有意地,甚至无意地破坏一个严格的正则表达式。事实上,正则表达式是脏的,你会生病,必须去看医生并处理它。更好的办法是正确地解析输出。@tim谢谢你的回答,我尝试了你的脚本,但是我得到了页面的html内容,这也可以通过使用curl来完成,但是我的要求是我只需要刮取unicode文本内容,只刮除文本而不刮除html标记。好的,一旦你得到html内容,你需要提取和处理你想要的东西。正如其他人所指出的,可以使用simplexml、dom或xpath以多种方式实现这一点。如果您的需求非常简单,您可能只需将整个HTML内容传递到strip_tag()中,然后从中获取。我相信这个词是scrape。我相信这个词是scrape。