Web crawler 从文章中提取作者_Web Crawler_Mechanize_Pyquery

Web crawler 从文章中提取作者

web-crawler

Web crawler 从文章中提取作者,web-crawler,mechanize,pyquery,Web Crawler,Mechanize,Pyquery,正如标题所说，我一直在抓取这篇文章，只剩下作者了下面是我的代码，使用pyquery编译段落和作者，只有作者返回空白目标地点：类不是作者，rel是；句点选择一个类。您应该过滤“[rel=”author“]”，括号允许您对bas非标准标记进行归档。谢谢！几乎有了它，我想我应该更具体一些，因为我想在没有附加标签/函数的情况下获得名称。当前，它显示从页面源复制的行，然后仅显示名称。我按照您的建议输入了它，然后添加了“for I in range”，这就是结果。这将是pyquery特有的，但是应该有

正如标题所说，我一直在抓取这篇文章，只剩下作者了

下面是我的代码，使用pyquery编译段落和作者，只有作者返回空白

目标地点：

类不是作者，

rel

是；句点选择一个类。您应该过滤

“[rel=”author“]”

，括号允许您对bas非标准标记进行归档。

谢谢！几乎有了它，我想我应该更具体一些，因为我想在没有附加标签/函数的情况下获得名称。当前，它显示从页面源复制的行，然后仅显示名称。我按照您的建议输入了它，然后添加了“for I in range”，这就是结果。这将是pyquery特有的，但是应该有一种方法来访问单个标记值

def extract_text_pyquery(html):
    p = pq(html)
    article_whole = p.find(".entry")
    p_tag = article_whole('p')
    print len(p_tag)
    print p_tag
    for i in range (0, len(p_tag)):
        text = p_tag.eq(i).text()
        print text
    entire = p.find("#main")
    author = entire.find('a').filter('.author')
    print 'By:', author