Python BeautifulSoup从谷歌获得标签

Python BeautifulSoup从谷歌获得标签,python,beautifulsoup,Python,Beautifulsoup,我正在制作一个Python脚本,它在上搜索一个术语,并且只获取PDF链接 我正在尝试获取标有的绿色搜索结果。它们不是链接,只是标题 这就是我到目前为止所做的: from bs4 import BeautifulSoup import requests import re url = "http://www.google.com/search?q=shakespeare+pdf" get = requests.get(url).text soup = BeautifulSoup(get) pd

我正在制作一个Python脚本,它在上搜索一个术语,并且只获取PDF链接

我正在尝试获取标有的绿色搜索结果。它们不是链接,只是标题

这就是我到目前为止所做的:

from bs4 import BeautifulSoup
import requests
import re

url = "http://www.google.com/search?q=shakespeare+pdf"
get = requests.get(url).text
soup = BeautifulSoup(get)

pdf = re.compile(r"\.(pdf)")

cite_pdfs = soup.find_all(pdf, class_="_Rm")
print cite_pdfs

但是,列表只返回[],即不返回任何内容。

这是一个很好的实现

下面是结果

davidlucking.com/documents/Shakespeare-Complete%20Works.pdf
www.artsvivants.ca/pdf/.../shakespeare_overvie...
www.folgerdigitaltexts.org/PDF/Ham.pdf
sparks.eserver.org/.../shakespeare-tempest.pdf
manybooks.net/.../shakespeetext94shaks12.htm...
www.w3.org/People/maxf/.../hamlet.pdf
www.adweek.com/.../free...shakespeare.../1868...
www.goodreads.com/ebooks/.../1420.Hamlet
calhoun.k12.il.us/teachers/wdeffenbaugh/.../Shakespeare%20Sonnets.pdf
www.freeclassicebooks.com/william_shakespea...

这是一个很好的实现,我用它来传递HTTP错误403:禁止

下面是结果

davidlucking.com/documents/Shakespeare-Complete%20Works.pdf
www.artsvivants.ca/pdf/.../shakespeare_overvie...
www.folgerdigitaltexts.org/PDF/Ham.pdf
sparks.eserver.org/.../shakespeare-tempest.pdf
manybooks.net/.../shakespeetext94shaks12.htm...
www.w3.org/People/maxf/.../hamlet.pdf
www.adweek.com/.../free...shakespeare.../1868...
www.goodreads.com/ebooks/.../1420.Hamlet
calhoun.k12.il.us/teachers/wdeffenbaugh/.../Shakespeare%20Sonnets.pdf
www.freeclassicebooks.com/william_shakespea...

为什么要传入一个与.pdf匹配的正则表达式作为元素名。查找单个元素上的所有筛选器,而不是上下文。与Matijn商定,您也可以使用筛选器汤。findAll'cite',attrs={'class':'Rm'}了解更多具体信息。@OsamahAl Ghammari谢谢,我尝试过,但没有返回任何内容。即使我不使用pdf正则表达式并查找cite或_Rm,我也会得到[]。为什么要将与.pdf匹配的正则表达式作为元素名传入。查找单个元素上的所有筛选器,而不是上下文。与Matijn商定,您也可以使用筛选器汤。findAll'cite',attrs={'class':'Rm'}了解更多具体信息。@OsamahAl Ghammari谢谢,我尝试过,但没有返回任何内容。即使我不使用pdf正则表达式并查找cite或_Rm,我也会得到[]。非常感谢此实现!如果我导出到csv,链接是否会被完整写入,即/../是否仅在终端中打印?@Winterflags我在cite标记上也有类似问题请参阅此解决方案非常感谢此实现!如果我导出到csv,链接是否会完整写入,即/../是否仅在终端中打印?@Winterflags我遇到了与cite标记类似的问题,请参阅此解决方案