Python 3.x 使用XPath python在同一td中从a href中分离文本_Python 3.x_Selenium_Xpath_Web Crawler

Python 3.x 使用XPath python在同一td中从a href中分离文本

python-3.x selenium xpath web-crawler

Python 3.x 使用XPath python在同一td中从a href中分离文本,python-3.x,selenium,xpath,web-crawler,Python 3.x,Selenium,Xpath,Web Crawler,我有这样一个HTML网页： <tr><td style="text-align:center;">7</td><td class="multi_row" style="line-height:15px;">Loaded on 'NYK LEO 303W' at Port of Loading<br> <a href="JavaScript:void(0);" style="line-height:15px;" title="NYK

我有这样一个HTML网页：

<tr><td style="text-align:center;">7</td><td class="multi_row" style="line-height:15px;">Loaded on 'NYK LEO 303W' at Port of Loading<br> <a href="JavaScript:void(0);" style="line-height:15px;" title="NYK LEO" data-click="vesselPop" data-cd="NLZT0303W">NYK LEO 303W</a></td><td class="multi_row" style="line-height:15px;">VANCOUVER, BC ,CANADA<br>  <a href="JavaScript:void(0);" style="line-height:15px;" onclick="openLocationPopup('CAVAN01')" title="3891 DELTAPORT GCT">3891 DELTAPORT GCT</a></td><td class="ico_e">2018-10-26 23:30</td></tr>

这是正文部分这是一个字符串，在：

vessel_path = driver.find_elements_by_xpath("//table[@id='detail']//tr/td[2]/a")
vessel = [cell.text.split(' ')[:2] for cell in vessel_path]

split（''）[：2]

是因为数据是这样的：NYK LEO 303W，我只需要单词而不是数字（使用正则表达式可以更可靠）

尝试使用下面的方法从

td

获取第一个文本节点

event = [driver.execute_script('return arguments[0].firstChild.textContent;', cell).strip() for cell in event_path]

请尝试以下代码：

elements = driver.find_elements_by_classname("multi_row")

for element in elements
    print(element.text)

在您的情况下，我看到您所期望的船只已经出现在anchor的title属性中

如果这是一个有效的案例，那么你可以直接从像

vessel_path = driver.find_elements_by_xpath("//table[@id='detail']//tr/td[2]/a")
vessel = [cell.get_attribute("title") for cell in vessel_path]

这不可能通过类名获取，因为还有另一个表具有多行类名和其他内容：输出与onechange驱动程序不分离。通过类名（“多行”）查找元素到驱动程序。通过类名（“table[@id='detail']//tr/td[2]”查找元素没关系，它包含NYK LEO 303W部分，我不想让你编辑它吗？它不在功能和细胞内吗？它会出错。它返回以下错误：selenium.common.exceptions.WebDriverException:Message:Service/usr/bin/safaridriver意外退出。状态代码为：1不，这是一个错误，我重新启动了机器，并修复了它。它会分离文本，但我如何才能在@iman_sh77中获取文本，您的意思是

容器=[link.get_属性（'href'）用于容器路径中的链接]

？请尝试

容器=[cell.text.rsplit（“，1）[0]用于容器路径中的单元格]

忽略最后一个子字符串

vessel_path = driver.find_elements_by_xpath("//table[@id='detail']//tr/td[2]/a")
vessel = [cell.get_attribute("title") for cell in vessel_path]