Python 刮取搜索结果中找到的链接列表_Python_Hyperlink_Web Scraping_Bs4

Python 刮取搜索结果中找到的链接列表

python hyperlink web-scraping

Python 刮取搜索结果中找到的链接列表,python,hyperlink,web-scraping,bs4,Python,Hyperlink,Web Scraping,Bs4,我正试图从图书馆的网页上抓取搜索结果。但由于我想要的不仅仅是书名，我希望脚本能够打开每个搜索结果，并从详细的网站上获取更多信息。到目前为止，我掌握的情况如下： import bs4 as bs import urllib.request, urllib.error, urllib.parse from http.cookiejar import CookieJar from bs4 import Comment cj = CookieJar()

我正试图从图书馆的网页上抓取搜索结果。但由于我想要的不仅仅是书名，我希望脚本能够打开每个搜索结果，并从详细的网站上获取更多信息。
到目前为止，我掌握的情况如下：

    import bs4 as bs
    import urllib.request, urllib.error, urllib.parse
    from http.cookiejar import CookieJar
    from bs4 import Comment


    cj = CookieJar()
    basisurl = 'http://mz-villigst.cidoli.de/index.asp?stichwort=hans'
    #just took any example page similar to the one i have in mind

    opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
    p = opener.open(basisurl)

    for mednrs in soup.find_all(string=lambdatext:isinstance(text,Comment)):
    #and now when i do [0:] it gives me the medianumbers and i can create the links like this:

           links = 'http://mz-villigst.cidoli.de/index.asp?MEDIENNR=' + mednrs[10:17]

我现在的主要问题是：如何让它给我一个列表（如：[“1”，“2”]…），然后我可以通过它？

创建一个列表并将其附加到循环中：

links = []
for mednrs in soup.find_all(string=lambda text: isinstance(text, Comment)):
    link = 'http://mz-villigst.cidoli.de/index.asp?MEDIENNR=' + mednrs[10:17]
    links.append(link)

或者使用列表：

links = ['http://mz-villigst.cidoli.de/index.asp?MEDIENNR=' + mednrs[10:17]
         for mednrs in soup.find_all(string=lambda text: isinstance(text, Comment))]

创建一个列表并将其附加到循环中：

links = []
for mednrs in soup.find_all(string=lambda text: isinstance(text, Comment)):
    link = 'http://mz-villigst.cidoli.de/index.asp?MEDIENNR=' + mednrs[10:17]
    links.append(link)

或者使用列表：

links = ['http://mz-villigst.cidoli.de/index.asp?MEDIENNR=' + mednrs[10:17]
         for mednrs in soup.find_all(string=lambda text: isinstance(text, Comment))]

我不明白你现在的密码。什么是

注释

？对不起，我指的是mednrs…我不理解您当前的代码。什么是

评论

？对不起，我是说mednrs。。。