Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/363.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用Python清理Excel文件,以便可以使用_Python_Excel_Pandas - Fatal编程技术网

使用Python清理Excel文件,以便可以使用

使用Python清理Excel文件,以便可以使用,python,excel,pandas,Python,Excel,Pandas,我正在尝试访问位于的文件,但遇到了一些困难。起初,一些错误的请求标志阻碍了我的进度,但现在我正在发送用户代理:Mozilla/5.0,我得到了正确的响应 当我将该文件有效地下载为.xls时,我注意到在左上角从第1行到第3行的范围内反复粘贴了大量相同的徽标。我意识到Pandas无法解析包含图像的文件。我一直在广泛地搜索,还没有找到一个示例,可以从Excel文件中删除图像的所有实例,只留下文本 我的思考过程是以某种方式找到特定工作表的对象,然后删除所有对象,直到只剩下文本数据,但事实证明这比预期的更

我正在尝试访问位于的文件,但遇到了一些困难。起初,一些错误的请求标志阻碍了我的进度,但现在我正在发送用户代理:Mozilla/5.0,我得到了正确的响应

当我将该文件有效地下载为.xls时,我注意到在左上角从第1行到第3行的范围内反复粘贴了大量相同的徽标。我意识到Pandas无法解析包含图像的文件。我一直在广泛地搜索,还没有找到一个示例,可以从Excel文件中删除图像的所有实例,只留下文本


我的思考过程是以某种方式找到特定工作表的对象,然后删除所有对象,直到只剩下文本数据,但事实证明这比预期的更困难。下面的代码当前生成了一个TypeError:不支持的操作数类型。首先将内容保存到本地文件中如何

import io  
import requests  
import pandas as pd 

url = "https://www.cmegroup.com/CmeWS/exp/voiProductDetailsViewExport.ctl?media=xls&tradeDate=20180709&reportType=P&productId=425"  
req = requests.get(url)  
xls_file = "tmp.xls"  

with open(xls_file, "w") as f:  
    f.write(req.content)

ds = pd.read_excel(xls_file)
print(ds)
为我工作

import requests
import io
import pandas as pd

url = '......'
response = requests.get(url, stream=True, headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3970.5 Safari/537.36'})
file_obj = io.BytesIO(response.content)
df = pd.read_excel(file_obj)
print(df)

您应该在问题中发布整个堆栈跟踪
import io  
import requests  
import pandas as pd 

url = "https://www.cmegroup.com/CmeWS/exp/voiProductDetailsViewExport.ctl?media=xls&tradeDate=20180709&reportType=P&productId=425"  
req = requests.get(url)  
xls_file = "tmp.xls"  

with open(xls_file, "w") as f:  
    f.write(req.content)

ds = pd.read_excel(xls_file)
print(ds)
import requests
import io
import pandas as pd

url = '......'
response = requests.get(url, stream=True, headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3970.5 Safari/537.36'})
file_obj = io.BytesIO(response.content)
df = pd.read_excel(file_obj)
print(df)