Python和Selenium—从多个同级中刮取数据_Python_Html_Selenium_Web Scraping

Python和Selenium—从多个同级中刮取数据

python html selenium web-scraping

Python和Selenium—从多个同级中刮取数据,python,html,selenium,web-scraping,Python,Html,Selenium,Web Scraping,好吧，我是python新手，当然还有Selenium。我试图在页面上搜索数据，然后用python处理这些数据，并让selenium点击链接和存储时间等我遇到的问题是页面的格式不是我想要的。而不是有这个。。。标题链接1 链接2 标题2 链接3 链接4/a> 我有这个 <tr> <td>title<td> </tr> <tr> <td> <a href>link1</a&g

好吧，我是python新手，当然还有Selenium。我试图在页面上搜索数据，然后用python处理这些数据，并让selenium点击链接和存储时间等

我遇到的问题是页面的格式不是我想要的。而不是有这个。。。标题链接1 链接2 标题2 链接3 链接4/a> 我有这个

<tr>
    <td>title<td>
</tr>
<tr>
    <td>
        <a href>link1</a>
    </td>
</tr>
<tr>
    <td>
        <a href>link2</a>
    </td>
</tr>
<tr>
    <td>
        <a href>link3</a>
    </td>
</tr>

我根据类中的“粗体”类提取标题，我的问题是，我不知道如何提取其他标记中链接的url和链接文本

任何帮助都将不胜感激。感谢您尝试尽可能少地更改代码，这就是您想要的吗

def test():
    print ('testing')
    browser = webdriver.Chrome()
    browser.get('http://urlforpage.com')
    meetings = browser.find_elements_by_xpath('/html/body/div[2]/table[2]/tbody/tr/td')
    for meet in meetings:
        if meet.get_attribute('class') == 'bold':
            print 'Venue: {venue}'.format(venue=meet.text)
        else:
            try:
                anchor = meet.find_element_by_tag_name('a')
                print 'link: {link}, text: {text}'.format(link = anchor.get_attribute('href'), text = anchor.text)
            except NoSuchElementException:
                pass  # Are you worried if something is neither a title (bold) nor contains an anchor?


test()

def test():
    print ('testing')
    browser = webdriver.Chrome()
    browser.get('http://urlforpage.com')
    meetings = browser.find_elements_by_xpath('/html/body/div[2]/table[2]/tbody/tr/td')
    for meet in meetings:
        if meet.get_attribute('class') == 'bold':
            print 'Venue: {venue}'.format(venue=meet.text)
        else:
            try:
                anchor = meet.find_element_by_tag_name('a')
                print 'link: {link}, text: {text}'.format(link = anchor.get_attribute('href'), text = anchor.text)
            except NoSuchElementException:
                pass  # Are you worried if something is neither a title (bold) nor contains an anchor?


test()