Web crawler 刮片-如何获取动态生成内容的值?

Web crawler 刮片-如何获取动态生成内容的值?,web-crawler,screen-scraping,Web Crawler,Screen Scraping,我正在使用Firefox firebug工具检查一个网站。这是用来刮的。我想获取动态生成内容的值 我了解这个网站是如何运作的,但我还停留在一个特定的(最后)点上。需要这里有经验的人的帮助 最终目的是获得产品的链接:- 步骤1)它使用API搜索产品(在搜索栏中)。此API的输入为产品名称,响应为HTML内容形式的搜索结果,最后在页面上显示结果 Step2)要获取所选产品的链接,网站会点击另一个API,其中包含产品的上述uniqueID,响应(链接)的形式为http://example.com/un

我正在使用Firefox firebug工具检查一个网站。这是用来刮的。我想获取动态生成内容的值

我了解这个网站是如何运作的,但我还停留在一个特定的(最后)点上。需要这里有经验的人的帮助

最终目的是获得产品的链接:-

步骤1)它使用API搜索产品(在搜索栏中)。此API的输入为
产品名称
,响应为HTML内容形式的搜索结果,最后在页面上显示结果

Step2)要获取所选产品的链接,网站会点击另一个API,其中包含产品的上述
uniqueID
,响应(链接)的形式为
http://example.com/uniqueId/?link_id={{link_id}}

上述响应与正确的
链接id
一起显示在文本框中,而不是
{{link\u id}

检查(使用firebug)文本框后,其中的内容为
http://example.com/uniqueId/?link_id={{link_id}}
。但是,当在前端看到时,它会显示
http://example.com/uniqueId/?link_id=123bad3

不确定,但我觉得这类似于Jinja模板语言,
{{{link\u id}}
是一个上下文变量,由服务器填充


如何提取
链接id

根据我的理解,您必须使用某种“web驱动程序”技术来跟踪链接,以便检索
唯一id
,以便您可以自己编程地重新构建链接。我不相信有任何办法可以解决这个问题。

你使用哪些技术(语言和框架)来抓取网站?Python。美丽的汤。我对美丽的汤不太熟悉,但你确定它可以抓取动态生成的内容吗?你可以尝试使用Selenium或Splash或Chrome的无头浏览器?我不依赖技术。然而,我只想知道这背后的逻辑。如何提取
链接\u id
。我误解了你的问题吗?让我试试Selenium(Python),我会通过EOD返回。同时,我也愿意接受其他建议。@pythonthusist-EOD?您使用的是Python 3还是Python 2,或者这有关系吗?EOD=一天的结束。我在用蟒蛇3。不,不要紧。因为,我精通Python,因此使用了相同的方法。@pythonenthust最后一次我可能在床上,但我可能会在24小时内回来检查。德国劳埃德船级社!