Web crawler 从文章中提取作者

Web crawler 从文章中提取作者,web-crawler,mechanize,pyquery,Web Crawler,Mechanize,Pyquery,正如标题所说,我一直在抓取这篇文章,只剩下作者了 下面是我的代码,使用pyquery编译段落和作者,只有作者返回空白 目标地点: 类不是作者,rel是;句点选择一个类。您应该过滤“[rel=”author“]”,括号允许您对bas非标准标记进行归档。谢谢!几乎有了它,我想我应该更具体一些,因为我想在没有附加标签/函数的情况下获得名称。当前,它显示从页面源复制的行,然后仅显示名称。我按照您的建议输入了它,然后添加了“for I in range”,这就是结果。这将是pyquery特有的,但是应该有

正如标题所说,我一直在抓取这篇文章,只剩下作者了

下面是我的代码,使用pyquery编译段落和作者,只有作者返回空白

目标地点:


类不是作者,
rel
是;句点选择一个类。您应该过滤
“[rel=”author“]”
,括号允许您对bas非标准标记进行归档。

谢谢!几乎有了它,我想我应该更具体一些,因为我想在没有附加标签/函数的情况下获得名称。当前,它显示从页面源复制的行,然后仅显示名称。我按照您的建议输入了它,然后添加了“for I in range”,这就是结果。这将是pyquery特有的,但是应该有一种方法来访问单个标记值
def extract_text_pyquery(html):
    p = pq(html)
    article_whole = p.find(".entry")
    p_tag = article_whole('p')
    print len(p_tag)
    print p_tag
    for i in range (0, len(p_tag)):
        text = p_tag.eq(i).text()
        print text
    entire = p.find("#main")
    author = entire.find('a').filter('.author')
    print 'By:', author