如何使用Ruby、PHP或Java解析/提取ASP.net网站内容？_Java_Php_Ruby On Rails_Ruby_Parsing

如何使用Ruby、PHP或Java解析/提取ASP.net网站内容？

java php ruby-on-rails ruby parsing

如何使用Ruby、PHP或Java解析/提取ASP.net网站内容？,java,php,ruby-on-rails,ruby,parsing,Java,Php,Ruby On Rails,Ruby,Parsing,我正在做一个爱好项目，用Ruby、PHP或Java来抓取ASP.net网站的内容。例如，如果网站url为“www.myaspnet.com/home.aspx”。我想从home.aspx中提取unicode文本内容并将其粘贴到记事本中。是否有上述任何一种语言的图书馆。有谁能提供合适的资源来帮助我呢谢谢如果您使用的是PHP，您应该可以轻松地使用它获取内容，并导航到html 您可能还想看看如何轻松提取内容。如果您使用的是PHP，您应该能够轻松地完成，您可以使用它获取内容并导航到html 您可能还

我正在做一个爱好项目，用Ruby、PHP或Java来抓取ASP.net网站的内容。例如，如果网站url为“www.myaspnet.com/home.aspx”。我想从home.aspx中提取unicode文本内容并将其粘贴到记事本中。是否有上述任何一种语言的图书馆。有谁能提供合适的资源来帮助我呢

谢谢

如果您使用的是PHP，您应该可以轻松地使用它获取内容，并导航到html

您可能还想看看如何轻松提取内容。

如果您使用的是PHP，您应该能够轻松地完成，您可以使用它获取内容并导航到html

您可能还想查看一下如何轻松提取内容。

听起来您只是想刮取内容

您不需要“将其粘贴到记事本”，只需将其写入一个简单的文本文件（然后可以在记事本或任何其他可以读取文本文件的程序中打开）

一般来说：

$content = file_get_contents('http://example.com/url.asp');
//do some stuff to extract what you want and format it.  Probably using simplexml, or regular expressions to do the extraction
$fp = fopen('some_file.txt');
fwrite($fp,$stuff);
fclose($fp);

你就完成了。

听起来你只是想抓取内容

您不需要“将其粘贴到记事本”，只需将其写入一个简单的文本文件（然后可以在记事本或任何其他可以读取文本文件的程序中打开）

一般来说：

$content = file_get_contents('http://example.com/url.asp');
//do some stuff to extract what you want and format it.  Probably using simplexml, or regular expressions to do the extraction
$fp = fopen('some_file.txt');
fwrite($fp,$stuff);
fclose($fp);

你完成了。

如果你需要某种屏幕抓取，并且喜欢Ruby，那么你可以查看或观看Ryan Bates的屏幕放映。

如果你需要某种屏幕抓取，并且喜欢Ruby，然后，您可以查看或观看Ryan Bates的screen cast。

使用Java，您可以编写一个简单的实用程序，用于从页面中提取文本，然后按照页面上显示的每个链接进行操作—递归访问这些链接并执行相同的任务

这应该是一个相当简单的练习，但是需要谨慎对待外部链接，这取决于您希望进行索引的程度。

使用Java，您可以编写一个简单的实用程序，用于从页面中提取文本，然后按照页面上显示的每个链接进行操作——递归访问这些链接并执行相同的任务

这应该是一个相当简单的练习，但是需要谨慎对待外部链接，这取决于您希望索引的程度。

这基本上展示了如何在Ruby中一步一步地废弃网站。它使用它作为rails应用程序的输出，应该很容易只关注Ruby库（ScrAPI）。

这基本上展示了如何在Ruby中逐步废弃网站。它使用它作为rails应用程序的输出，应该很容易只关注Ruby库（ScrAPI）。

作为旁注，如果您选择使用正则表达式，请确保它的灵活性，即使用

“\s+”

而不是一堆空格。人们很容易有意地，甚至无意地破坏一个严格的正则表达式。事实上，正则表达式是脏的，你会生病，必须去看医生并处理它。更好的办法是正确地解析输出。@tim谢谢你的回答，我尝试了你的脚本，但是我得到了页面的html内容，这也可以通过使用curl来完成，但是我的要求是我只需要刮取unicode文本内容，只刮除文本而不刮除html标记。好的，一旦你得到html内容，你需要提取和处理你想要的东西。正如其他人所指出的，可以使用simplexml、dom或xpath以多种方式实现这一点。如果您的需求非常简单，您可能只需要将整个HTML内容传递到strip_tag（）中，然后从那里获取它。另外，如果您确实选择使用正则表达式，请确保它具有灵活性，即使用

“\s+”

而不是一堆空格。人们很容易有意地，甚至无意地破坏一个严格的正则表达式。事实上，正则表达式是脏的，你会生病，必须去看医生并处理它。更好的办法是正确地解析输出。@tim谢谢你的回答，我尝试了你的脚本，但是我得到了页面的html内容，这也可以通过使用curl来完成，但是我的要求是我只需要刮取unicode文本内容，只刮除文本而不刮除html标记。好的，一旦你得到html内容，你需要提取和处理你想要的东西。正如其他人所指出的，可以使用simplexml、dom或xpath以多种方式实现这一点。如果您的需求非常简单，您可能只需将整个HTML内容传递到strip_tag（）中，然后从中获取。我相信这个词是scrape。我相信这个词是scrape。