Pandas_IT技术博客_编程技术问答 - 「Fatal编程技术网」

Pandas 熊猫会在只包含NaN的行上移动

标签： Pandas Scikit Learn imputation

我想结合sklearn的插补和Panda的Ffill来填充缺失的数据。这就是我的数据帧，df的样子 FeatA FeatB FeatC FeatD B A B D NaN NaN NaN NaN A A B C NaN A A A NaN B A A 我想使用Ffill将仅包含NaN（例如第2行）的行填充为上一个值如果行仅包含少数N

Pandas 使用重采样（）python绘制情绪分析输出的时间序列图

标签： Pandas time-seriessentiment-analysis

我有一组twitter提要的时间戳，它们各自的输出值存储在csv中。我需要将情绪值与6个小时周期进行聚合，并绘制一个时间序列图。请帮助，我正在尝试使用pandas中的重采样（）来完成此操作 Sat Oct 01 00:43:02 +0000 2016,-0.5 Sat Oct 01 00:43:18 +0000 2016,0 Sat Oct 01 00:43:41 +0000 2016,-1 Sat Oct 01 00:43:54 +0000 2016,-0.5 Sat Oct 01 00:43

Pandas 对多个列重新采样

标签： Pandas Scikit Learn

如何在多个列上对数据帧重新采样以获得新的统计数据例如，我有一个以秒为索引的数据帧，它有两列（数量，数量），我想根据数量*数量将（）重采样到分钟，然后重新采样到一个新列 IIUC需要使用一些聚合函数，如sum，mean，然后是多列： df = df.resample('T').sum() df['new'] = df.amount * df.quantities 感谢@Jezrael，在本例中，这将起作用，但假设我想获得数量和数量之间的相关性。欢迎使用StackOverflow。请花点时间阅读

Pandas 基于另一列的增量id'；s值

标签： Pandas

从该数据帧： car_id month 93829 September 27483 April 48372 October 93829 December 93829 March 48372 February 27483 March 如何添加第三列，它基本上是car的新id，但却是一个增量列，如下所示： car_id month new_incremental_car_id 93829 September

Pandas 列的前五个非数字、非空、不同的值

标签： Pandas

如何从列中获取前五个非数字、非空、不同的值例如，给出如下表 col1 ===== n1 1 2 n2 n3 n3 n4 n5 n5 n6 None 我想去 col1 ===== n1 n2 n3 n4 n5 您可以使用pd.to_numeric强制非NaN为NaN，然后反转遮罩并选择前5个唯一值： In [9]: df.loc[df.index.difference(pd.to_numeric(df['col1'], errors='c

Pandas 熊猫用给定组的中值填充缺失值

标签： Pandas group-bymissing-data

我有一个包含100多列和50万行的数据集。对于列Z，缺少一些值。我首先将数据分为两列（A，B），然后对于每组，我得到中位数（跳过那些NaN），然后我想用相应组的中位数填充Z中的NaN 我可以 df.groupby(["A","B"]).Z.median() 但它也有一些组中的NAN，我不知道如何通过组中位数将这些NAN填入Z。试试： df.groupby(["A","B"]).Z.apply(lambda x: x.fillna(x.median()))

Pandas 比较不同时间不同日期的数据

标签： Pandas Datetime

我在datetime数据框中有一系列数据，需要将一个日期和时间的数据与前一天的另一个时间进行比较。例如，在下面的例子中，我需要计算从2016-11-09 09 09:30:00到2016-11-10 21:30:00（基本上是从t@9:30到表中的下一个日期@21:30）的百分比变化。不幸的是，一个简单的滞后函数可能不起作用，因为记录的模式是不可预测的，并且所需行之间可能没有相同数量的记录 dates = pd.date_range('2016-11-09 09:30:00',periods=1

Pandas 数据透视-将列值转换为列名

标签： Pandas pivot-table

我有一个df： pd.DataFrame({'time_period': {0: pd.Timestamp('2017-04-01 00:00:00'), 1: pd.Timestamp('2017-04-01 00:00:00'), 2: pd.Timestamp('2017-03-01 00:00:00'), 3: pd.Timestamp('2017-03-01 00:00:00')}, 'cost1': {0: 142.62999999999994, 1: 13

Pandas 根据列值的长度筛选数据帧行

标签： Pandas

我有一个熊猫数据框，如下所示： df = pd.DataFrame([ [1,2], [np.NaN,1], ['test string1', 5]], columns=['A','B'] ) df A B 0 1 2 1 NaN 1 2 test string1 5 df A B 0 1 2 1 NaN 1 In [47]: df

Pandas 无法获得用户的赔率-贝叶斯定理

标签： Pandas Machine Learning probabilitybayesianconfusion-matrix

我试图用混淆矩阵来解决这个非常基本的问题，但我的解决方案与正确的解决方案不匹配问：假设我们有一项药物测试，可以在99%的时间内准确识别药物使用者，而在99%的非使用者中准确地检测出阴性结果。但只有0.3%的总体使用者使用这种药物如果某个人的检测结果呈阳性，那么他成为该药物实际使用者的几率有多大另外，isTP/（TP+FN）与p（A）p（B | A）/p（B）相同吗我的做法： TP TN Total U

Pandas Python应用值

标签： Pandas applypandas-groupby

我有一个带有几个列的df：“小时”、“天”、“周”、“月”、“年”和“值”。我将“周”和“小时”与“值”分组，查找平均值（）现在我想把这个平均值作为一个单独的列，用于每周的每个小时。有什么想法吗？提前谢谢如果需要在原始数据中添加新列，我认为您需要： df['new'] = df.groupby(['week','hour']).value.transform('mean') 答对了谢谢你，伙计！很高兴你能帮忙！祝你好运 df['new'] = df.groupby(['week','h

Pandas 使用通配符重命名列

标签： Pandas renamewildcard

我的df看起来像这样： Datum Zeit Temperatur[Â°C] Luftdruck Windgeschwindigkeit[m/s] Windrichtung[Grad] Relative Luftfeuchtigkeit[%] Globalstrahlung[W/mÂ²] 现在，我想重命名以下列：# 其中，%是一个通配符。当然，它不会像这样工作列名的开头在日志数据中始终相同，但是结尾是暂时变化的。您可以通过dict使用，对于通配符使用*

Pandas 数据帧中的倒计时列

标签： Pandas Dataframe

我认为这是一个新问题，因为我在搜索中没有看到这一点。是否可以在数据帧中创建倒计时我有一列[a]显示1或0。 1是事件发生的日期。我想创建一个B列，显示事件发生前4天到1的倒计时，因此它将显示事件发生当天的5 4 3 2 1和1 A B 0 0 0 0 0 5 0 4 0 3 0 2 1 1 0 0 0 0 0 0 有什么建议吗试试这个 s=df.A.iloc[::-1].eq(1).cumsum() s=s.groupby(s).cumcount()+1

Pandas 数据框中的NaN：当时间序列的第一个观测值为NaN时，用第一个可用值进行正面填充，否则结转上一个/上一个观测值

标签： Pandas conditionalmissing-datastatsmodels

我正在从statsmodels执行ADF测试。值系列可能缺少对象。事实上，如果NaN的分数大于c，我就放弃分析。然而，如果该系列通过了“我得到了问题”，那么adfuller将无法处理丢失的数据。由于这是具有最小帧大小的训练数据，我想执行以下操作： 1）如果x（t=0）=NaN，则查找下一个非NaN值（t>0） 2）否则，如果x（t）=NaN，则x（t）=x（t-1）因此，我在这里折衷我的第一个值，但确保输入数据始终具有相同的维度。或者，如果第一个值丢失，我可以使用dropna的limit选

Pandas 如何分配列变量'；日期'；使用文件名中的日期值（熊猫）

标签： Pandas

我有以下文件名 Filename = ('../BSOS Supplier Sales (01289), 02.04.2018 - 08.04.2018 (X).xlsx') 我想 1）将文件读入df并 2）分配一个新的列变量“Date”，其中包含上述文件名中捕获的日期（2018年4月2日-2018年4月8日如何使用pd.read\u excel（文件名）完成此操作？您可以将内容读取到数据框中 df = pd.read_excel(Filename) 现在用正则表达式提取日期 impo

pandas分组并从列表的行转换为大文件的列（无转置）

标签： Pandas pandas-groupby

使用熊猫后，按数据帧分组成为 model item_list a [l1,l5,l3,l4,l7,l9,l10] b [l2,l6,l1,l5] c [l1,l3] 预期产量为 model item_list a l1 a l5 a l4 a l7 a l9 a l10 b l2 b l6 b l1

Pandas 读取文本文档中的相对行并将其转换为文本

标签： Pandas Search python-3.6

使用Python3.6读取文本文件，以提取相对行，并将其转换为数据帧工作原理：在文本文档中搜索短语并将该行转换为文本 import pandas as pd df = pd.DataFrame() list1 = [] list2 = [] with open('myfile.txt') as f: for lineno, line in enumerate(f, 1): if 'Project:' in line: line = line.s

Pandas xlsxwriter数据_标签背景色

标签： Pandas Plot bar-chartxlsxwriter

我正在尝试创建一个列图，其中每个列都有不同的颜色。另外，我还需要添加“.data\u标签”-以便值可见目前，我可以更改字体的颜色（在数据标签中）。但我找不到如何在标签上添加“背景色” 我想确保黑色文本将位于列顶部的白色背景上（列将有浅色和深色-所以，仅更改字体的颜色是不够的）所以，这看起来像是列顶部有一个白色文本框。框内（“数据标签”）为黑色文本注意：我使用的是堆叠图，所以我不能将文本放在列的外面（例如，在栏的顶部）它的可能副本不会改变单元格的颜色。我想将标签添加到图表（白色背景-黑色文

Pandas Webscraping：抓取页面并将内容存储在数据框中

标签： Pandas Dataframe Web Scraping beautifulsoup

以下代码可用于为三个给定的示例URL重现web抓取任务：代码： import pandas as pd import requests import urllib.request from bs4 import BeautifulSoup # Would otherwise load a csv file with 100+ urls into a DataFrame # Example data: links = {'url': ['https://www.apple.com/educat

Pandas 在多行中连接多个列的字符串？

标签： Pandas pandas-groupbypandas-apply

我有两个日期框架，如下所示： import pandas as pd df1 = pd.DataFrame({'serialNo':['aaaa','bbbb','cccc','ffff','aaaa','bbbb','aaaa'], 'Name':['Sayonti','Ruchi','Tony','Gowtam','Toffee','Tom','Sayonti'], 'testName': [4402, 3747 ,5555,8

Pandas 将latlong更改为UTM坐标。错误：必须是实数，而不是str。

标签： Pandas Dataframe coordinatesgeopandas

我无法将我的csv数据从Latlong（度）更改为UTM坐标。以下是示例数据： Date Time Latitude Longitude 23/08/2018 9:00:00 -5.1661 119.4543 23/08/2018 9:00:01 -5.166 119.4544 23/08/2018 9:00:02 -5.1659 119.4544 23/08/2018 9:00:07 -5.1657 119.4546 23/08/2018 9

Pandas 比较两列，如果发现相等，则替换为无

标签： Pandas

以下命令将替换所有与行匹配的值 ndf.iloc[np.where(ndf.path3=='sys_bck_20190101.tar.gz')] = np.nan 我真正需要做的是，如果一个名为path4的列与第path3列匹配，则替换该列的值。这不起作用： ndf.iloc[np.where(ndf.path3==ndf.path4), ndf.path3] = np.nan 更新：有一种方法“fillna”可用于axis='columns'。是否有类似的方法将“NA”值写入重复列

Pandas-将日期转换为日期时间格式

标签： Pandas

我有一个具有日期值的列。我正在尝试将其转换为日期时间格式。下面给出的是我的数据集和我迄今为止尝试过的内容 date 2019-01-02 2019-01-03 我已将其转换为日期时间，如下所示： pd.to_datetime(df['date']) 但是，它仍然以yyyy-mm-dd格式显示。我正在尝试将其转换为“YYYY-MM-DD HH24:MI:SS”格式预期产出： 2019-01-02 00:00:00 2019-01-03 00:00:00 您只需要更改表示吗？因为上面的时间戳

Pandas 数据帧中分组的优先级

标签： Pandas

我需要将字母从第2列选择为新的第2列。当有2个值时，我想根据第2列中的值给予优先级：A，B。当第1列确定有2个值时，我需要给A比B更多的选择优先级 Col_1 Col_2 new_col 1 A A 1 B A 2 B B 3 A A 4 B

为什么nunique会覆盖pandas中的分组列

标签： Pandas

这是我的数据的一个大大简化的版本 +---+---------+-----------+ ||用户|模块| id| +---+---------+-----------+ | 0 | 1 | 1 | | 1 | 1 | 2 | | 2 | 1 | 3 | | 3 | 2 | 1 | | 4 | 2 | 1 | | 5 | 2 |

Pandas 获取与groupby之后的列中的值对应的一列中的值

标签： Pandas pandas-groupby

我有一个如下的数据帧循环式时间开关 7 2 121 -0.027 7 2 146 0.021 7 2 211 -0.126 7 2 314 0.055 7 2 115 -0.023 7 2 414 0.004 5 2 216 0.003 5 2 286 -0.145 5 2 291 0.007 5 2 301 -0.001 5 2 316 0.02 5 2 371 -0.195 5 2 376 0.015 7 6 381 -0.001 7 6 386 0.016 7 6 421 -0.241

熊猫需要xlrd 1.1.0版，但样式框应具有xlrd 1.0.0版。如何正确设置，以便我同时需要styleframe和pandas？

标签： Pandas xlrdstyleframe

重新安装xlrd 选中styleframe依赖关系树后， ---样式框： StyleFrame==2.0.4 颜色[要求：>=0.1.5，安装：0.1.5] jsonschema[必需：任何，安装：3.0.1] 属性[必需：>=17.4.0，已安装：18.1.0] 电阻[所需：>=0.14.0，已安装：0.15.3] 六[必需：任何，安装：1.11.0] setuptools[必需：任何，已安装：40.6.2] 六[必需：>=1.11.0，已安装：1.11.0] openpyxl[必需：>

Pandas 替换过冲的值

标签： Pandas

我在数据帧（df_Type4）中有一个列（DS），它的值过多，如下所示 16 100 17 10} 18 20} 21 200 22 10N 我想用0替换它的最后一位，比如说}，这样数字就是100，就像智商N是5，这样数字就是105，依此类推我试图提取最后一点，如下所示 df_Type4['DS'].str[2] 我想使用if，因为有多个值。但是，当我把它看作字符串时，它似乎不起作用。还有别的办法吗？试试： df_Type4['DS

Pandas 属性错误：'；范围指数'；对象没有属性'；停止'；

标签： Pandas

我正在使用一个库，它允许我在迭代时访问RangeIndex对象。我很难找到如何从此对象访问整数索引。如果我打印对象，我会看到“stop”参数似乎就是我想要的索引（尽管不确定）。但是，当我尝试打印stop参数时，会收到此错误消息。不过，当我查看源代码时，我发现RangeIndex的所有实例看起来都有这个参数。我尝试搜索如何获取RangeIndex的索引，但在这个特定对象上没有太多内容。您使用的是什么版本的pandas？您可能需要尝试\u停止\u stop已被弃用，取而代之的是stop，但对于较旧的

Pandas 不接受分类特征的决策树分类器

标签： Pandas Scikit Learn decision-tree

我有一个信用评分数据集，需要对客户是否会违约进行分类 LIMIT_BAL gender EDUCATION MARRIAGE AGE SEP_STATUS AUG_STATUS JUL_STATUS JUN_STATUS MAY_STATUS ... JUN_BAL MAY_BAL APR_BAL SEP_PAID AUG_PAID JUL_PAID JUN_PAID MAY_PAID APR_PAID default_0 0 20000

Pandas 在映射数据帧中的值时使用dict.get（）

标签： Pandas Mapping

我遵循一本书中的代码，在数据框中，我有一列30~40个职业，其中一些没有提供，我想将未提供的职业映射到“未提供” 所以我创建了一本字典，如下所示 occ_mapping = {'INFORMATION REQUESTED PER BEST EFFORTS' : 'NOT PROVIDED', 'INFORMATION REQUESTED' : 'NOT PROVIDED','INFORMATION REQUESTED (BEST EFFORTS)' : 'NOT PROVIDED','C.E.O

Pandas 如何将多个多索引Dfs合并到一个df

标签： Pandas concatenationmulti-index

因此，我有以下两个多索引Dfs： data = {('California', 0): 'LA', ('California', 1): 'SF', ('Texas', 0): 'HO', ('New York', 0): 'BX', ('New York', 1): 'NY'} df= pd.Series(data) df = pd.DataFrame(df) df #needs column name df.index.na

Pandas dask-CSV时间序列操作

标签： Pandas Csv Matplotlib Anaconda Dask

我有一个大约5GB大小的CSV，数据结构和类型如下： datetime product name serial number 0 2017-06-24 14:30:15 orange 123456 1 2017-07-04 21:33:50 apple 123456 2 2017-07-06 06:38:52 orange

Pandas 是否以pa.fields列表的格式生成pyarrow架构？

标签： Pandas Dask pyarrow

有没有一种方法可以让我从文件中生成这种格式的pyarrow模式？我有一些文件有数百列，所以我无法手动键入 fields = [ pa.field('id', pa.int64()), pa.field('date', pa.timestamp('ns')), pa.field('name', pa.string()), pa.field('status', pa.dictionary(pa.int8(), pa.string(), ordered=False)

Pandas 从pd数据帧中提取值

标签： Pandas

我有一个dataframe列，如下所示 {“URL”：{“web”：{“发现”：“}}，“颜色”：16734574，“家长id”：11，“姓名”：“叙事电影”，“id”：31，“位置”：13，“鼻涕虫”：“电影和视频/叙事电影”} 我想根据“slug”这个词提取信息。（在本例中为电影和视频/叙事电影）并将信息存储为新的数据帧列我该怎么做非常感谢这是一个包含不同类型条目的（嵌套）词典，因此将其视为数据帧列没有多大意义。您可以将其视为DataFrame行，字典键提供列名： import pand

Pandas 当我编写这段特定代码时，我的jupiter笔记本在给出任何输出（保持运行）之前需要花费很长时间

标签： Pandas Datetime

当我编写这段代码时，我的Jupiter笔记本会在提供任何输出之前持续运行大约10分钟。当然，您可以通过跳过pd.where（）来提高速度速度比较： for j in range(len(datelist)): tempmax.append((df.where(df['Date']==datelist[j])['Data_Value'].max())) tempmin.append((df.where(df['Date']==datelist[j])['Data_Value'].

Pandas 将火花DF转换为火花DF和其他方式-性能

标签： Pandas azure-databrickspyspark-dataframes

尝试将具有8m记录的Spark DF转换为Pandas DF spark.conf.set("spark.sql.execution.arrow.enabled", "true") sourcePandas = srcDF.select("*").toPandas() 大约需要2分钟还有从熊猫到火星的其他方式 finalDF = spark.createDataFrame(sourcePandas) 时间太长，永远不会结束源熊猫 <class 'pandas.core.frame.

Pandas 从透视结果中删除双行列名

标签： Pandas

我想删除透视结果的“双行”索引头，因此下表： Course_ID CID-1 CID-2 CID-3 ID 1 3.5 2.0 3.0 2 4.0 3.0 NaN 看起来是这样的： ID CID-1 CID-2 CID-3 1 3.5 2.0 3.0 2 4.0 3.0 N

Pandas 合并不同频率的时间序列数据

标签： Pandas time-seriesresampling

我有5分钟的日内股价数据，我通过以下代码对其进行抽样： ohlc = { 'Open':'first',

Pandas 如何用max（）值填充数据帧

标签： Pandas Dataframe

我有一个数据帧，每天7:00开始，22:10结束，间隔5分钟。在df中大约有200天（周末和某些特定的日子除外）我需要另一列，我们称之为“lastdayVolume”，其中包含前一天的最大容量值例如，在2019-09-03年（7:00到22:10之间），单行中的最大体积值为50000，那么我需要在2019-09-04年的每一行中的“lastdayVolume”列中的值50000。如何在不减少数据帧长度的情况下执行此操作？您尝试过吗 df.resample('1D', on='Date')

Pandas 如何绘制大熊猫历年月数据图我有11年的每小时臭氧浓度数据。有11个csv文件包含每天每小时的臭氧浓度我能够读取中的所有文件，并将索引从日期转换为日期时间对于我的图表：我计算了每天8小时的最大平均值，然后平均每个月的值我的新数据帧（df3）具有： datetime指数，由12年内一年中每个月的最后一天组成它还有一列，包括平均MDA8值我想为4月、5月和6月分别绘制3个散点图。（x轴=年份，y轴=当月平均MDA8）然而，我被困在如何调用这些单独的月份和绘制年度数据上最小样本站点、日期、开始时间、值、变量、单位、质量、预校准、名称 31352010-01-01,0,13.0，臭氧，十亿分之一（ppb），Calexico-Ethel街 31352010-01-01,1,5.0，臭氧，十亿分之一（ppb），Calexico-Ethel街 31352010-01-01,2,11.0，臭氧，十亿分之一（ppb），Calexico-Ethel街 31352010-01-01,3,17.0，臭氧，十亿分之一（ppb），Calexico-Ethel街 31352010-01-01,5,16.0，臭氧，十亿分之一（ppb），Calexico-Ethel街

标签： Pandas Matplotlib timeserieschartdatetimeindex

这里有一个查找类似CSV数据的链接我在下面附上了一些代码： import pandas as pd import os import glob import matplotlib.pyplot as plt path = "C:/Users/blah" for f in glob.glob(os.path.join(path, "*.csv")): df = pd.read_csv(f, header = 0, index_col='date'