Python BeautifulSoup从谷歌获得标签_Python_Beautifulsoup

Python BeautifulSoup从谷歌获得标签

python

Python BeautifulSoup从谷歌获得标签,python,beautifulsoup,Python,Beautifulsoup,我正在制作一个Python脚本，它在上搜索一个术语，并且只获取PDF链接我正在尝试获取标有的绿色搜索结果。它们不是链接，只是标题这就是我到目前为止所做的： from bs4 import BeautifulSoup import requests import re url = "http://www.google.com/search?q=shakespeare+pdf" get = requests.get(url).text soup = BeautifulSoup(get) pd

我正在制作一个Python脚本，它在上搜索一个术语，并且只获取PDF链接

我正在尝试获取标有的绿色搜索结果。它们不是链接，只是标题

这就是我到目前为止所做的：

from bs4 import BeautifulSoup
import requests
import re

url = "http://www.google.com/search?q=shakespeare+pdf"
get = requests.get(url).text
soup = BeautifulSoup(get)

pdf = re.compile(r"\.(pdf)")

cite_pdfs = soup.find_all(pdf, class_="_Rm")
print cite_pdfs

但是，列表只返回[]，即不返回任何内容。

这是一个很好的实现

下面是结果

davidlucking.com/documents/Shakespeare-Complete%20Works.pdf
www.artsvivants.ca/pdf/.../shakespeare_overvie...
www.folgerdigitaltexts.org/PDF/Ham.pdf
sparks.eserver.org/.../shakespeare-tempest.pdf
manybooks.net/.../shakespeetext94shaks12.htm...
www.w3.org/People/maxf/.../hamlet.pdf
www.adweek.com/.../free...shakespeare.../1868...
www.goodreads.com/ebooks/.../1420.Hamlet
calhoun.k12.il.us/teachers/wdeffenbaugh/.../Shakespeare%20Sonnets.pdf
www.freeclassicebooks.com/william_shakespea...

这是一个很好的实现，我用它来传递HTTP错误403：禁止

下面是结果

davidlucking.com/documents/Shakespeare-Complete%20Works.pdf
www.artsvivants.ca/pdf/.../shakespeare_overvie...
www.folgerdigitaltexts.org/PDF/Ham.pdf
sparks.eserver.org/.../shakespeare-tempest.pdf
manybooks.net/.../shakespeetext94shaks12.htm...
www.w3.org/People/maxf/.../hamlet.pdf
www.adweek.com/.../free...shakespeare.../1868...
www.goodreads.com/ebooks/.../1420.Hamlet
calhoun.k12.il.us/teachers/wdeffenbaugh/.../Shakespeare%20Sonnets.pdf
www.freeclassicebooks.com/william_shakespea...

为什么要传入一个与.pdf匹配的正则表达式作为元素名。查找单个元素上的所有筛选器，而不是上下文。与Matijn商定，您也可以使用筛选器汤。findAll'cite'，attrs={'class'：'Rm'}了解更多具体信息。@OsamahAl Ghammari谢谢，我尝试过，但没有返回任何内容。即使我不使用pdf正则表达式并查找cite或_Rm，我也会得到[]。为什么要将与.pdf匹配的正则表达式作为元素名传入。查找单个元素上的所有筛选器，而不是上下文。与Matijn商定，您也可以使用筛选器汤。findAll'cite'，attrs={'class'：'Rm'}了解更多具体信息。@OsamahAl Ghammari谢谢，我尝试过，但没有返回任何内容。即使我不使用pdf正则表达式并查找cite或_Rm，我也会得到[]。非常感谢此实现！如果我导出到csv，链接是否会被完整写入，即/../是否仅在终端中打印？@Winterflags我在cite标记上也有类似问题请参阅此解决方案非常感谢此实现！如果我导出到csv，链接是否会完整写入，即/../是否仅在终端中打印？@Winterflags我遇到了与cite标记类似的问题，请参阅此解决方案