Python 我的爬行代码没有'；不要打印任何结果_Python_Beautifulsoup_Web Crawler

Python 我的爬行代码没有'；不要打印任何结果

python web-crawler

Python 我的爬行代码没有'；不要打印任何结果,python,beautifulsoup,web-crawler,Python,Beautifulsoup,Web Crawler,我正在尝试为一个韩国新闻网站制作一个爬虫。奇怪的是我已经有了工作代码。下面是一个例子 import requests from bs4 import BeautifulSoup import telegram url = 'http://www.thelec.kr/news/articleList.html?page=1&total=3836&box_idxno=&view_type=sm' req = requests.get(url) html = req.tex

我正在尝试为一个韩国新闻网站制作一个爬虫。奇怪的是我已经有了工作代码。下面是一个例子

import requests
from bs4 import BeautifulSoup
import telegram

url = 'http://www.thelec.kr/news/articleList.html?page=1&total=3836&box_idxno=&view_type=sm'
req = requests.get(url)
html = req.text
soup = BeautifulSoup(html, 'html.parser')

search_result = soup.select_one('#user-container')
news_list = search_result.select('.article-veiw-body > .article-list > .article-list-content > .list-block > .list-titles >a')

contents = []
for news in news_list:
    link = news['href']
    title = news.text
    contents.append("http://www.thelec.kr"+link + " " + title)

contents

我只更改了url和标记，如下所示：

import requests
from bs4 import BeautifulSoup
import telegram

url = 'https://news.daum.net/breakingnews/digital'
req = requests.get(url)
html = req.text
soup = BeautifulSoup(html, 'html.parser')

search_result = soup.select_one('#kakaoContent')
news_list = search_result.select('.box_etc > .cMain > .mArticle > .box_etc > .list_news2 > .cont_thumb > a')

links = []
for news in news_list:
    link = news['href']
    links.append(link)

links

突然，结果是“[]”。空的。我在另一个网站上也试过了，但同样的结果是空的。

我不明白。两个看起来一模一样。为什么一个有效，而另一个无效？

您的选择器太窄了。尝试：

soup.select('#kakaoContent .box_etc .list_news2 .cont_thumb a')

您当前的第二个选择器在页面上对我无效。如果你想得到左边文章的链接，你需要改变你的css选择器。例如，要更快更准确

.list_news2 .tit_thumb >  a

你能分享HTML源代码的相关部分吗？