Parsing 解析html代码以查找字段

Parsing 解析html代码以查找字段,parsing,Parsing,我有这一页。该页面有一个搜索字段,例如,如果我输入“蝙蝠侠”,它会给我一些搜索结果以及每个结果的url: 我想解析html代码以获取url,例如firse链接: 示例:www.elseptimoarte.net/peliculas/batman-begins-1266.html 问题是我使用了curl(在bash中),但是当我使用curl-L-s时,它没有给出链接 有什么帮助吗 非常感谢和抱歉我的英语 我马上会给你一个更全面的命令行回答,但与此同时,你考虑过使用Yahoo Pipes吗?现在,

我有这一页。该页面有一个搜索字段,例如,如果我输入“蝙蝠侠”,它会给我一些搜索结果以及每个结果的url:

我想解析html代码以获取url,例如firse链接: 示例:www.elseptimoarte.net/peliculas/batman-begins-1266.html

问题是我使用了curl(在bash中),但是当我使用curl-L-s时,它没有给出链接

有什么帮助吗


非常感谢和抱歉我的英语

我马上会给你一个更全面的命令行回答,但与此同时,你考虑过使用Yahoo Pipes吗?现在,它只不过是一个概念证明,但它拥有您所需要的一切。

您无法使用cURL获得链接,因为页面使用Javascript获取数据


使用FireBug,我发现真正的URL是非常可怕的

这可能不是您想要的,但它给了我与您的示例相同的响应。也许您可以调整它以满足您的需要:

在bash中,键入:

$ wget -U 'Mozilla/5.0' -O - 'http://www.google.com/search?q=batman+site%3Awww.elseptimoarte.net' | sed 's/</\
</g' | sed -n '/href="http:\/\/www\.elseptimoarte\.net/p'
$wget-U'Mozilla/5.0'-O-'http://www.google.com/search?q=batman+网站%3www.elseptimoarte.net'sed's/Pepe

以下是可用于获取所需内容的命令:

$ wget -U 'Mozilla/5.0' -O - 'http://www.google.com/search?q=batman+site%3Awww.elseptimoarte.net' | sed 's/</\                                                            
</g' | sed -n 's/<a href="\(http:\/\/www\.elseptimoarte\.net[^"]*\).*$/\1/gp' > myfile.txt

$wget-U'Mozilla/5.0'-O-'http://www.google.com/search?q=batman+网站%3www.elseptimoarte.net'sed's/curl和wget有许多共同用途。我相信人们都有自己的偏好,但我倾向于先到wget进行爬行,因为它可以自动跟踪到指定深度的链接,并且对于常见的文本网页,它的功能更为广泛,而当我需要不太常见的协议或必须与表单数据交互时,我会使用curl

如果您对curl有一些偏好,可以使用curl,尽管我认为wget更合适。在上面的命令中,只需将“wget”替换为“curl”,将“-U”替换为“-A”。省略“-O-”(我相信curl默认为stdout,如果不是在您的机器上,请使用其相应的标志),其他内容保持不变。您应该会得到相同的输出。

对于Java,有两种方法

如果你在.NETC#/VB上,你可以使用这是一个很棒的浏览器操作工具


这是一种测试框架,有一些工具可以操纵浏览器DOM并对其进行浏览,但我相信您也可以在“测试”上下文之外使用这些工具。

curl提供了什么而不是链接?
$ wget -U 'Mozilla/5.0' -O - 'http://www.google.com/search?q=batman+site%3Awww.elseptimoarte.net' | sed 's/</\                                                            
</g' | sed -n 's/<a href="\(http:\/\/www\.elseptimoarte\.net[^"]*\).*$/\1/gp' > myfile.txt