Python extract href scrapy-爬行但不';t提取物

Python extract href scrapy-爬行但不';t提取物,python,selenium,web-scraping,scrapy,Python,Selenium,Web Scraping,Scrapy,我正在使用selenium和scrapy导航到一个数据表,我想将链接/href提取到一个csv文件。到目前为止,我所尝试的一切似乎都不起作用,我不确定该尝试什么或如何获得链接 以下是我试图从中提取链接/href的表的重要部分: <tr class="even"> <td class="paddingColumnValue"> </td> <td class="nameColumnValue"><a href="/m/app?service

我正在使用selenium和scrapy导航到一个数据表,我想将链接/href提取到一个csv文件。到目前为止,我所尝试的一切似乎都不起作用,我不确定该尝试什么或如何获得链接

以下是我试图从中提取链接/href的表的重要部分:

<tr class="even">

<td class="paddingColumnValue"> </td>

<td class="nameColumnValue"><a href="/m/app?service=external/sdata_details&sp=12812" class="sdata" title="Click here for additional details.">click</a></td>

<td class="amountColumnValue">$600,000.00</td>

<td class="myListColumnValue"><a href="" onclick="doMyListButton(this.firstChild.getAttribute('src'),this.name);myListHandler(this.name);return false;"  önmouseover="return true" name="12812"><img src="/m/images/add.gif" border="0" title="Click to add this to your list" name="A12812"></a></td>


</tr>
输出到csv: 位于0x03F16E90的selenium.webdriver.remote.webelement.webelement对象


谢谢你的帮助。如果有帮助的话,我可以发布更多我的尝试和它们的输出。正如我所说,我需要的是href,但我就是不知道怎么做。

您正在抓取selenium webelement实例,而不是它的文本。替换:

item ["link"] = titles.find_element_by_xpath("//*[@id='search_results']/tbody/tr[2]/td[2]/a")


希望对您有所帮助。

您正在删除selenium webelement实例,而不是它的文本。替换:

item ["link"] = titles.find_element_by_xpath("//*[@id='search_results']/tbody/tr[2]/td[2]/a")


希望能有所帮助。

谢谢你的帮助。很接近,但它提取了标签之间的内容…而不是href=“dfajkfdlajfals”内容。我需要href=“”中的内容。这听起来可能有点奇怪,但python的一个问题似乎是格式问题。我已经读到,制表符不好用,但使用空格键4x缩进一行。我正在使用记事本+,到目前为止,我还没有能够用它自己键入代码。我总是要复制和粘贴其他代码,然后修改它以满足我的需要。你有什么建议吗?这可能是它不起作用的原因吗?firefox浏览器肯定是打开的,它正在像它设定的那样通过链接。统计数据根本没有提到任何正在执行的爬行。对不起,我说了这么多废话(如果链接确实有非空的href属性,我提供的代码应该可以工作。使用4个空格进行缩进。非常感谢。我不知道为什么,但突然..它“工作了”。我不想问,但是有没有什么原因htmlxpathselector不起作用?我已经尝试了上千种组合,但什么都没有。表中有很多链接,我提供的示例只针对一个,我如何才能提取表中的所有HREF?非常感谢您的帮助。只需添加一点,tr class“偶数”在表格颜色方案中从“偶数”切换到“奇数”。我不知道这是否会有帮助…谢谢你的帮助。很接近,但这会提取标签之间的内容…而不是href=“dfajkfdlajfals”内容。我需要href=”中的内容"。这听起来可能有点奇怪,但python的一个问题似乎是格式问题。我读过这样一篇文章:制表符不好用,而是用空格键4x缩进一行。我用的是记事本+,到目前为止,我还不能自己用它键入代码。我总是要复制和粘贴其他代码,然后根据需要修改它。你有吗有什么提示吗?这可能是它不工作的原因吗?firefox浏览器肯定正在打开,并且它正在像设置的那样通过链接。统计数据只是没有提到正在执行的任何爬行。对于这样的废话,抱歉问:(如果链接确实有非空的href属性,我提供的代码应该可以工作。使用4个空格进行缩进。非常感谢。我不知道为什么,但突然..它“工作了”。我不想问,但是有没有什么原因htmlxpathselector不起作用?我已经尝试了上千种组合,但什么都没有。表中有很多链接,我提供的示例只针对一个,我如何才能提取表中的所有HREF?非常感谢您的帮助。只需添加一点,tr class“偶数”在桌面配色方案中从“偶数”切换到“奇数”。我不知道这是否有帮助。。。
link = titles.find_element_by_xpath("//*[@id='search_results']/tbody/tr[2]/td[2]/a")
item ["link"] = link.get_attribute('href')