Python 3.x 如何使用python从csv文件中的URL列表中提取文本并将其导出到另一个csv文件?
我是python和beautifulsoup的新手,我尝试使用它从csv文件中的多个url列表中提取文本数据,方法是使用循环将url和文本导出到另一个csv文件中。循环从list1.csv中定位url,刮取文本数据并将其与url和文本数据一起放入list2.csv中。 我下面的代码似乎只处理了我10个URL列表中的前两个URLPython 3.x 如何使用python从csv文件中的URL列表中提取文本并将其导出到另一个csv文件?,python-3.x,csv,url,beautifulsoup,Python 3.x,Csv,Url,Beautifulsoup,我是python和beautifulsoup的新手,我尝试使用它从csv文件中的多个url列表中提取文本数据,方法是使用循环将url和文本导出到另一个csv文件中。循环从list1.csv中定位url,刮取文本数据并将其与url和文本数据一起放入list2.csv中。 我下面的代码似乎只处理了我10个URL列表中的前两个URL from bs4 import BeautifulSoup import requests import csv with open("list1.csv&
from bs4 import BeautifulSoup
import requests
import csv
with open("list1.csv", "r") as f_urls, open("list2.csv", "w", newline="") as f_output:
csv_output = csv.writer(f_output)
csv_output.writerow(['url', 'text'])
for url in f_urls:
url = url.strip()
html = requests.get(url)
soup = BeautifulSoup(html.content, "html.parser")
text = soup.get_text()
csv_output.writerow([url, text])
我试图通过使用下面的代码来清理文本数据,只获取内容,但结果是输出为空
results = soup.find_all('p')
str_cells = str(results)
cleantext = BeautifulSoup(str_cells, "lxml").get_text()