Web scraping 从“美丽”到“刮痧”_Web Scraping_Beautifulsoup_Scrapy

Web scraping 从“美丽”到“刮痧”

web-scraping scrapy

Web scraping 从“美丽”到“刮痧”,web-scraping,beautifulsoup,scrapy,Web Scraping,Beautifulsoup,Scrapy,我现在正在学习BeautifulSoup，我需要切换到Scrapy，因为我以后需要更强大的功能，如表单交互等正确的策略是将我的BeautifulSoup脚本移植到scrapy还是以某种方式将BeautifulSoup代码集成到scrapy中靓汤代码 #Imports from bs4 import BeautifulSoup import requests import pandas as pd html = """<div class="box1"> <table

我现在正在学习BeautifulSoup，我需要切换到Scrapy，因为我以后需要更强大的功能，如表单交互等

正确的策略是将我的BeautifulSoup脚本移植到scrapy还是以某种方式将BeautifulSoup代码集成到scrapy中

靓汤代码

 #Imports
from bs4 import BeautifulSoup
import requests
import pandas as pd 

html = """<div class="box1">
<table class="table1">
<tr><td class="label">Item1</td><td>Value1</td></tr>
<tr><td class="label">Item2</td><td>Value2</td></tr>
<tr><td class="label">Item3</td><td>Value3</td></tr>
<tr><td class="label">Item4</td><td>Value4</td></tr>
</table>
</div>"""

#Grab our page as text
soup = BeautifulSoup(html, "html.parser")

#Target what we want
div = soup.find("div", class_="box1")

#Filter what we want
columns = []
for tr in div.find_all('tr'):
    columns.append([td.text for td in tr.find_all("td")])

#Transpose our columns
columns = list(zip(*columns))   

#Output our results to Excel
df = pd.DataFrame(columns)   
df.to_csv('index.csv', index=False, encoding='utf-8')

#导入
从bs4导入BeautifulSoup
导入请求
作为pd进口熊猫
html=”“”
项目1价值1
项目2价值2
项目3价值3
项目4价值4
"""
#抓取我们的页面作为文本
soup=BeautifulSoup（html，“html.parser”）
#瞄准我们想要的
div=soup.find（“div”，class=“box1”）
#过滤我们想要的
列=[]
对于div.find_all（“tr”）中的tr：
columns.append（[td.text代表tr.find_all（“td”）]中的td）
#换位
列=列表（zip（*列））
#将结果输出到Excel
df=pd.DataFrame（列）
df.to_csv（'index.csv'，index=False，encoding='utf-8'）

查看以获得一个可靠的想法。@SIM感谢您的链接，它工作得很好，您应该在下面的答案中说明。没关系。谢谢