Python extract href scrapy-爬行但不'；t提取物_Python_Selenium_Web Scraping_Scrapy

Python extract href scrapy-爬行但不'；t提取物

python selenium web-scraping scrapy

Python extract href scrapy-爬行但不'；t提取物,python,selenium,web-scraping,scrapy,Python,Selenium,Web Scraping,Scrapy,我正在使用selenium和scrapy导航到一个数据表，我想将链接/href提取到一个csv文件。到目前为止，我所尝试的一切似乎都不起作用，我不确定该尝试什么或如何获得链接以下是我试图从中提取链接/href的表的重要部分： <tr class="even"> <td class="paddingColumnValue"> </td> <td class="nameColumnValue"><a href="/m/app?service

我正在使用selenium和scrapy导航到一个数据表，我想将链接/href提取到一个csv文件。到目前为止，我所尝试的一切似乎都不起作用，我不确定该尝试什么或如何获得链接

以下是我试图从中提取链接/href的表的重要部分：

<tr class="even">

<td class="paddingColumnValue"> </td>

<td class="nameColumnValue"><a href="/m/app?service=external/sdata_details&sp=12812" class="sdata" title="Click here for additional details.">click</a></td>

<td class="amountColumnValue">$600,000.00</td>

<td class="myListColumnValue"><a href="" onclick="doMyListButton(this.firstChild.getAttribute('src'),this.name);myListHandler(this.name);return false;"  önmouseover="return true" name="12812"><img src="/m/images/add.gif" border="0" title="Click to add this to your list" name="A12812"></a></td>


</tr>

输出到csv：位于0x03F16E90的selenium.webdriver.remote.webelement.webelement对象

谢谢你的帮助。如果有帮助的话，我可以发布更多我的尝试和它们的输出。正如我所说，我需要的是href，但我就是不知道怎么做。

您正在抓取selenium webelement实例，而不是它的文本。替换：

item ["link"] = titles.find_element_by_xpath("//*[@id='search_results']/tbody/tr[2]/td[2]/a")

与

希望对您有所帮助。

您正在删除selenium webelement实例，而不是它的文本。替换：

item ["link"] = titles.find_element_by_xpath("//*[@id='search_results']/tbody/tr[2]/td[2]/a")

与

希望能有所帮助。

谢谢你的帮助。很接近，但它提取了标签之间的内容…而不是href=“dfajkfdlajfals”内容。我需要href=“”中的内容。这听起来可能有点奇怪，但python的一个问题似乎是格式问题。我已经读到，制表符不好用，但使用空格键4x缩进一行。我正在使用记事本+，到目前为止，我还没有能够用它自己键入代码。我总是要复制和粘贴其他代码，然后修改它以满足我的需要。你有什么建议吗？这可能是它不起作用的原因吗？firefox浏览器肯定是打开的，它正在像它设定的那样通过链接。统计数据根本没有提到任何正在执行的爬行。对不起，我说了这么多废话（如果链接确实有非空的href属性，我提供的代码应该可以工作。使用4个空格进行缩进。非常感谢。我不知道为什么，但突然..它“工作了”。我不想问，但是有没有什么原因htmlxpathselector不起作用？我已经尝试了上千种组合，但什么都没有。表中有很多链接，我提供的示例只针对一个，我如何才能提取表中的所有HREF？非常感谢您的帮助。只需添加一点，tr class“偶数”在表格颜色方案中从“偶数”切换到“奇数”。我不知道这是否会有帮助…谢谢你的帮助。很接近，但这会提取标签之间的内容…而不是href=“dfajkfdlajfals”内容。我需要href=”中的内容"。这听起来可能有点奇怪，但python的一个问题似乎是格式问题。我读过这样一篇文章：制表符不好用，而是用空格键4x缩进一行。我用的是记事本+，到目前为止，我还不能自己用它键入代码。我总是要复制和粘贴其他代码，然后根据需要修改它。你有吗有什么提示吗？这可能是它不工作的原因吗？firefox浏览器肯定正在打开，并且它正在像设置的那样通过链接。统计数据只是没有提到正在执行的任何爬行。对于这样的废话，抱歉问：（如果链接确实有非空的href属性，我提供的代码应该可以工作。使用4个空格进行缩进。非常感谢。我不知道为什么，但突然..它“工作了”。我不想问，但是有没有什么原因htmlxpathselector不起作用？我已经尝试了上千种组合，但什么都没有。表中有很多链接，我提供的示例只针对一个，我如何才能提取表中的所有HREF？非常感谢您的帮助。只需添加一点，tr class“偶数”在桌面配色方案中从“偶数”切换到“奇数”。我不知道这是否有帮助。。。

link = titles.find_element_by_xpath("//*[@id='search_results']/tbody/tr[2]/td[2]/a")
item ["link"] = link.get_attribute('href')