Web crawler 从文章中提取作者
正如标题所说,我一直在抓取这篇文章,只剩下作者了 下面是我的代码,使用pyquery编译段落和作者,只有作者返回空白 目标地点:Web crawler 从文章中提取作者,web-crawler,mechanize,pyquery,Web Crawler,Mechanize,Pyquery,正如标题所说,我一直在抓取这篇文章,只剩下作者了 下面是我的代码,使用pyquery编译段落和作者,只有作者返回空白 目标地点: 类不是作者,rel是;句点选择一个类。您应该过滤“[rel=”author“]”,括号允许您对bas非标准标记进行归档。谢谢!几乎有了它,我想我应该更具体一些,因为我想在没有附加标签/函数的情况下获得名称。当前,它显示从页面源复制的行,然后仅显示名称。我按照您的建议输入了它,然后添加了“for I in range”,这就是结果。这将是pyquery特有的,但是应该有
类不是作者,
rel
是;句点选择一个类。您应该过滤“[rel=”author“]”
,括号允许您对bas非标准标记进行归档。谢谢!几乎有了它,我想我应该更具体一些,因为我想在没有附加标签/函数的情况下获得名称。当前,它显示从页面源复制的行,然后仅显示名称。我按照您的建议输入了它,然后添加了“for I in range”,这就是结果。这将是pyquery特有的,但是应该有一种方法来访问单个标记值
def extract_text_pyquery(html):
p = pq(html)
article_whole = p.find(".entry")
p_tag = article_whole('p')
print len(p_tag)
print p_tag
for i in range (0, len(p_tag)):
text = p_tag.eq(i).text()
print text
entire = p.find("#main")
author = entire.find('a').filter('.author')
print 'By:', author