Parsing 解析html代码以查找字段_Parsing

Parsing 解析html代码以查找字段

parsing

Parsing 解析html代码以查找字段,parsing,Parsing,我有这一页。该页面有一个搜索字段，例如，如果我输入“蝙蝠侠”，它会给我一些搜索结果以及每个结果的url：我想解析html代码以获取url，例如firse链接：示例：www.elseptimoarte.net/peliculas/batman-begins-1266.html 问题是我使用了curl（在bash中），但是当我使用curl-L-s时，它没有给出链接有什么帮助吗非常感谢和抱歉我的英语我马上会给你一个更全面的命令行回答，但与此同时，你考虑过使用Yahoo Pipes吗？现在，

我有这一页。该页面有一个搜索字段，例如，如果我输入“蝙蝠侠”，它会给我一些搜索结果以及每个结果的url：

我想解析html代码以获取url，例如firse链接：示例：www.elseptimoarte.net/peliculas/batman-begins-1266.html

问题是我使用了curl（在bash中），但是当我使用curl-L-s时，它没有给出链接

有什么帮助吗

非常感谢和抱歉我的英语

我马上会给你一个更全面的命令行回答，但与此同时，你考虑过使用Yahoo Pipes吗？现在，它只不过是一个概念证明，但它拥有您所需要的一切。

您无法使用cURL获得链接，因为页面使用Javascript获取数据

使用FireBug，我发现真正的URL是非常可怕的

这可能不是您想要的，但它给了我与您的示例相同的响应。也许您可以调整它以满足您的需要：

在bash中，键入：

$ wget -U 'Mozilla/5.0' -O - 'http://www.google.com/search?q=batman+site%3Awww.elseptimoarte.net' | sed 's/</\
</g' | sed -n '/href="http:\/\/www\.elseptimoarte\.net/p'

$wget-U'Mozilla/5.0'-O-'http://www.google.com/search?q=batman+网站%3www.elseptimoarte.net'sed's/Pepe
以下是可用于获取所需内容的命令：
$ wget -U 'Mozilla/5.0' -O - 'http://www.google.com/search?q=batman+site%3Awww.elseptimoarte.net' | sed 's/</\                                                            
</g' | sed -n 's/<a href="\(http:\/\/www\.elseptimoarte\.net[^"]*\).*$/\1/gp' > myfile.txt

$wget-U'Mozilla/5.0'-O-'http://www.google.com/search?q=batman+网站%3www.elseptimoarte.net'sed's/curl和wget有许多共同用途。我相信人们都有自己的偏好，但我倾向于先到wget进行爬行，因为它可以自动跟踪到指定深度的链接，并且对于常见的文本网页，它的功能更为广泛，而当我需要不太常见的协议或必须与表单数据交互时，我会使用curl
如果您对curl有一些偏好，可以使用curl，尽管我认为wget更合适。在上面的命令中，只需将“wget”替换为“curl”，将“-U”替换为“-A”。省略“-O-”（我相信curl默认为stdout，如果不是在您的机器上，请使用其相应的标志），其他内容保持不变。您应该会得到相同的输出。
对于Java，有两种方法
如果你在.NETC#/VB上，你可以使用这是一个很棒的浏览器操作工具
这是一种测试框架，有一些工具可以操纵浏览器DOM并对其进行浏览，但我相信您也可以在“测试”上下文之外使用这些工具。curl提供了什么而不是链接？
$ wget -U 'Mozilla/5.0' -O - 'http://www.google.com/search?q=batman+site%3Awww.elseptimoarte.net' | sed 's/</\                                                            
</g' | sed -n 's/<a href="\(http:\/\/www\.elseptimoarte\.net[^"]*\).*$/\1/gp' > myfile.txt