Html 自定义提取未返回预期结果_Html_Web Scraping_Xpath

Html 自定义提取未返回预期结果

html web-scraping xpath

Html 自定义提取未返回预期结果,html,web-scraping,xpath,Html,Web Scraping,Xpath,我目前正在使用尖叫蛙从我的公司正在迁移到一个新平台的网站上抓取数据我的XPath如下所示： //div[@class="cs-settlements cell medium-5 border-right padding-large margin-tiny text-center border"]//h2 //div[@class="cs-settlements cell medium-5 border-right padding-large margin-tin

我目前正在使用尖叫蛙从我的公司正在迁移到一个新平台的网站上抓取数据

我的XPath如下所示：

//div[@class="cs-settlements cell medium-5 border-right padding-large margin-tiny text-center border"]//h2

//div[@class="cs-settlements cell medium-5 border-right padding-large margin-tiny text-center border"]//div[@class="cramount"]/p

我要提取的元素在页面上重复。我只想要这些元素中的H2和p标记

对于这些特定元素，HTML结构是这样的

<div class="cs-settlements cell medium-5 border-right padding-large margin-tiny text-center border" data-equalizer-watch>
<h2>Title</h2>
<hr class="center">
<div class="cramount"><p>$109,000</p></div>


标题

109000美元

返回的数据包含的内容远远多于这些元素的innerHTML。对于H2，它返回该元素以及页面上的所有内容，包括内联javascript和页面模式。它对p标记也执行相同的操作。在这两种情况下，我想要的数据都会首先出现，后面追加额外的内容

我还注意到，在返回的数据中，这些元素（h2和p）没有正确关闭，即使它们在我的HTML中。你有没有想过为什么会这样？我通过W3验证程序运行了该页面，没有任何结构问题。

您可以将url共享到实际的html吗？也许还需要一些代码来了解如何使用这些XPath？没有代码，我使用的是来自内部的自定义提取功能。FWIW将DOM与PHP结合使用，可以很好地解析它，使用上面相同的Xpath信息。我还没有测试，但我怀疑HTML是无效的，这就是导致尖叫蛙失败的原因。