Web scraping 从“美丽”到“刮痧”

Web scraping 从“美丽”到“刮痧”,web-scraping,beautifulsoup,scrapy,Web Scraping,Beautifulsoup,Scrapy,我现在正在学习BeautifulSoup,我需要切换到Scrapy,因为我以后需要更强大的功能,如表单交互等 正确的策略是将我的BeautifulSoup脚本移植到scrapy还是以某种方式将BeautifulSoup代码集成到scrapy中 靓汤代码 #Imports from bs4 import BeautifulSoup import requests import pandas as pd html = """<div class="box1"> <table

我现在正在学习BeautifulSoup,我需要切换到Scrapy,因为我以后需要更强大的功能,如表单交互等

正确的策略是将我的BeautifulSoup脚本移植到scrapy还是以某种方式将BeautifulSoup代码集成到scrapy中

靓汤代码

 #Imports
from bs4 import BeautifulSoup
import requests
import pandas as pd 

html = """<div class="box1">
<table class="table1">
<tr><td class="label">Item1</td><td>Value1</td></tr>
<tr><td class="label">Item2</td><td>Value2</td></tr>
<tr><td class="label">Item3</td><td>Value3</td></tr>
<tr><td class="label">Item4</td><td>Value4</td></tr>
</table>
</div>"""

#Grab our page as text
soup = BeautifulSoup(html, "html.parser")

#Target what we want
div = soup.find("div", class_="box1")

#Filter what we want
columns = []
for tr in div.find_all('tr'):
    columns.append([td.text for td in tr.find_all("td")])

#Transpose our columns
columns = list(zip(*columns))   

#Output our results to Excel
df = pd.DataFrame(columns)   
df.to_csv('index.csv', index=False, encoding='utf-8')
#导入
从bs4导入BeautifulSoup
导入请求
作为pd进口熊猫
html=”“”
项目1价值1
项目2价值2
项目3价值3
项目4价值4
"""
#抓取我们的页面作为文本
soup=BeautifulSoup(html,“html.parser”)
#瞄准我们想要的
div=soup.find(“div”,class=“box1”)
#过滤我们想要的
列=[]
对于div.find_all(“tr”)中的tr:
columns.append([td.text代表tr.find_all(“td”)]中的td)
#换位
列=列表(zip(*列))
#将结果输出到Excel
df=pd.DataFrame(列)
df.to_csv('index.csv',index=False,encoding='utf-8')

查看以获得一个可靠的想法。@SIM感谢您的链接,它工作得很好,您应该在下面的答案中说明。没关系。谢谢