Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/mercurial/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在文本文件中下载目标链接html(Beautiful Soup-Python3)_Python_Beautifulsoup_Web Crawler - Fatal编程技术网

在文本文件中下载目标链接html(Beautiful Soup-Python3)

在文本文件中下载目标链接html(Beautiful Soup-Python3),python,beautifulsoup,web-crawler,Python,Beautifulsoup,Web Crawler,我对python和研究Web爬行是完全陌生的 我试图在文本页面中下载单个目标链接。 到目前为止,我成功地提取了所有需要的目标URL,但不知道如何将所有目标HTML文本下载到文本文件中 有人能给我一个大概的想法吗 url = "" r = requests.get(url) data = r.text soup = BeautifulSoup(data, "lxml") link1 = soup2.find_all('a', href=re.compile("drupal_lists")) fo

我对python和研究Web爬行是完全陌生的

我试图在文本页面中下载单个目标链接。
到目前为止,我成功地提取了所有需要的目标URL,但不知道如何将所有目标HTML文本下载到文本文件中

有人能给我一个大概的想法吗

url = ""
r  = requests.get(url)
data = r.text
soup = BeautifulSoup(data, "lxml")
link1 = soup2.find_all('a', href=re.compile("drupal_lists"))
for t in link1:
    print(t.attrs['href'])

在for循环中,使用requests库访问链接URL,并将内容写入文件。比如:

link_data = requests.get(t.attrs['href']).text
with open('file_to_write.out', 'w') as f:
  f.write(link_data)

您可能需要更改每个链接的文件名。

在for循环中,使用请求库访问链接URL并将内容写入文件。比如:

link_data = requests.get(t.attrs['href']).text
with open('file_to_write.out', 'w') as f:
  f.write(link_data)

您可能需要更改每个链接的文件名。

我为语句添加了这个,但它不起作用。它只显示一个目标链接。这里怎么了?对于link1中的t:link_data=requests.get(t.attrs['href'])。open('text.txt','w')作为f:f.write(link_data)的文本,我添加了这个for语句,但它不起作用。它只显示一个目标链接。这里怎么了?对于link1中的t:link_data=requests.get(t.attrs['href'])。将open('text.txt','w')作为f:f.write(link_data)的文本