Web crawler 刮片-如何获取动态生成内容的值？_Web Crawler_Screen Scraping

Web crawler 刮片-如何获取动态生成内容的值？

web-crawler

Web crawler 刮片-如何获取动态生成内容的值？,web-crawler,screen-scraping,Web Crawler,Screen Scraping,我正在使用Firefox firebug工具检查一个网站。这是用来刮的。我想获取动态生成内容的值我了解这个网站是如何运作的，但我还停留在一个特定的（最后）点上。需要这里有经验的人的帮助最终目的是获得产品的链接：- 步骤1）它使用API搜索产品（在搜索栏中）。此API的输入为产品名称，响应为HTML内容形式的搜索结果，最后在页面上显示结果 Step2）要获取所选产品的链接，网站会点击另一个API，其中包含产品的上述uniqueID，响应（链接）的形式为http://example.com/un

我正在使用Firefox firebug工具检查一个网站。这是用来刮的。我想获取动态生成内容的值

我了解这个网站是如何运作的，但我还停留在一个特定的（最后）点上。需要这里有经验的人的帮助

最终目的是获得产品的链接：-

步骤1）它使用API搜索产品（在搜索栏中）。此API的输入为

产品名称

，响应为HTML内容形式的搜索结果，最后在页面上显示结果

Step2）要获取所选产品的链接，网站会点击另一个API，其中包含产品的上述

uniqueID

，响应（链接）的形式为

http://example.com/uniqueId/?link_id={{link_id}}

上述响应与正确的

链接id

一起显示在文本框中，而不是

{{link\u id}

检查（使用firebug）文本框后，其中的内容为

http://example.com/uniqueId/?link_id={{link_id}}

。但是，当在前端看到时，它会显示

http://example.com/uniqueId/?link_id=123bad3

不确定，但我觉得这类似于Jinja模板语言，

{{{link\u id}}

是一个上下文变量，由服务器填充

如何提取
链接id
？

根据我的理解，您必须使用某种“web驱动程序”技术来跟踪链接，以便检索

唯一id

，以便您可以自己编程地重新构建链接。我不相信有任何办法可以解决这个问题。

你使用哪些技术（语言和框架）来抓取网站？Python。美丽的汤。我对美丽的汤不太熟悉，但你确定它可以抓取动态生成的内容吗？你可以尝试使用Selenium或Splash或Chrome的无头浏览器？我不依赖技术。然而，我只想知道这背后的逻辑。如何提取

链接\u id

。我误解了你的问题吗？让我试试Selenium（Python），我会通过EOD返回。同时，我也愿意接受其他建议。@pythonthusist-EOD？您使用的是Python 3还是Python 2，或者这有关系吗？EOD=一天的结束。我在用蟒蛇3。不，不要紧。因为，我精通Python，因此使用了相同的方法。@pythonenthust最后一次我可能在床上，但我可能会在24小时内回来检查。德国劳埃德船级社！