Pandas 在数据帧之间切片数据行

我有一个pandas数据框,其中有一列标记另一列中有趣的数据点(例如,波峰和波谷的位置)。我经常需要对每个标记之间的值进行一些计算。是否有一种简洁的方法可以使用标记作为端点对数据帧进行切片,以便在每个切片上运行函数?数据帧如下所示,并标记了所需的切片: numbers markers 0 0.632009 None 1 0.733576 None # Slice 1 (0,1,2) 2 0.585944 x _________ 3 0.2

Pandas Python将int转换为float(Postgres数据库)

避免此错误的最佳方法是什么 DataError:整数“669068424.0”上下文的输入语法无效: 复制序列_原始,第2行,列id:“669068424.0” 我使用pgadmin创建了一个表,该表指定了每列的数据类型。然后我用pandas读取数据并进行一些处理。我可以显式地提供一个列列表,并说它们是.astype(int),但这是必要的吗 我理解在整数后面有一个.0的原因是因为数据中有N,所以它们被转换成浮点数而不是整数。解决这个问题的最佳方法是什么?我在pandas 0.19的预发行版上看

Pandas 将列表追加到数据帧

我有一个数据帧,比如说: col1 col2 col3 1 x 3 1 y 4 我有一份清单: 2 3 4 5 我可以像这样将列表附加到数据框中吗: col1 col2 col3 1 x 3 1 y 4 2 Nan Nan 3 Nan Nan 4 Nan Nan 5 Nan Nan 谢谢。使用或与数据帧一起使用 df = df.append(pd.DataFrame([2,3,4,5], columns=['c

geopandas无法正确读取geojson

我正在尝试以下方法: 下载后 [2]中的:导入geopandas 在[3]中:geopandas.read_文件('./gz_2010_us_050_00_20m.json')) --------------------------------------------------------------------------- TypeError回溯(最近一次调用上次) 在里面 ---->1 geopandas.read_文件('./gz_2010_us_050_00_20m.json'))

Pandas 使用循环方法填充空的Panda数据帧

我目前正在处理一些缺少行程id的远程信息处理数据。旅行id是唯一的。1行程id包含多行数据,包括gps坐标、温度、电压、转速、时间戳、发动机状态(打开或关闭)。数据模式指示发动机状态打开和关闭的时间,可以作为唯一的行程id进行聚类。不过,我很难翻译上述逻辑以生成这些tripId 尝试使用一些循环方法,但一直失败 import pandas as pd inp = [{'Ignition_Status':'ON', 'tripID':''},{'Ignition_Status':'ON','tri

Pandas 为什么在执行GroupKFold时,删除的Nan行会重新出现

不明白为什么当您删除一行数据时,它会在执行groupkfold操作时重新出现 df = df.dropna(axis=0) ## row 2 has disappeared groups = df['RaceId'] ## row 2 has indeed gone from groups indices X = df[['Dlto', 'Penulto']] y = df[['FinPos']] gkf = GroupKFold(n_splits=2) for train_index

Pandas 用字符串的子集替换字符串

我有一个如下所示的数据框: s1 AA AG AG GG AA s2 GTTGTT GTTGTT GTTGTT GTTGTT GTTGTT S3 TT CC TC TT TC S3 AGTTAGTT AGTTAGTT AGTTAGTT AGTTAGTT AGTTAGTT S3 GCGCGCGC GCGCGCGC GCGCGCGC GCGCGCGC GCGCGCGC 我想找到数据帧中每个超过两个字符的字符串(比如GTTGTT),将字符串分成两部分(所有字符串都是偶数)(GTT GTT),然后从每

Pandas 获取属性错误:';str';对象没有属性loc

执行此代码时,我得到AttributeError:“str”对象没有属性“loc”。如何解决此错误?似乎: 您有一个名为raw_data的字符串变量 通过这个变量,您创建了一个数据帧(例如,命名为df) 您尝试检索一些数据(从“感染”列中, 从前20行开始) 但是您没有从df检索这些数据,而是尝试 从保存原始数据(字符串)的变量中检索它们 另一种可能的情况是,前一段时间的原始数据是一个数据帧, 但是由于代码中的一些错误,您已经用一些文本覆盖了它 内容 在出现问题的指令之前添加打印(键入(

Pandas 如何为tensorflow编译混合数据类型?

我试图制作一个混合数据集,但我正在努力。我想使用图像和浮点值作为输入。然后输出一个线性回归。我已经尝试了数小时的研究,但很多教程都使用了预装配的数据集,这对我的情况没有多大帮助。有人能教我如何将这些数据插入model.fit。我不需要帮助创建模型。 我目前正在使用: python 3.8 tf gpu 2.4.0rc1 keras 2.4.3 熊猫1.1.4 这就是我被卡住的地方 IMG_SIZE = 400 Version = 1 batch_size = 8 val_aug = Image

Pandas groupby和get min,然后追加min行的值

我使用groupby和minimum作为聚合函数。我需要行中具有最小值的一些其他值。在下面的MWE中,我需要City具有最小距离的行的值mindsist import pandas as pd data = {'City' : ['London', 'Paris', 'Lyon','NY', 'Bristol'], 'Distance' : [5, 1, 7, 2, 6], 'Country':['UK','FR','FR','US','UK']} df = pd.DataFrame(data)

Pandas python描述groupby输出问题

我在数据帧上与groupby一起使用descripe,例如: df_stats = df[["x","y"]].describe(df["key1"],df["key2"]) 这将通过键/键2值组合生成df中“x”和“y:的标准统计集。通常,这些组合不是先验的 如果我打印df_stats,它会将key1/key2值的各种组合列为行值,但I 无法找到这些组合值存储的位置(应该在df_stats数据框中,否?) 目标是

Pandas 使用beautiful soup在for循环中解析单个XML文件

我用一个jupyter笔记本解析一个文件夹,里面有很多单独的XML文件(大约2000个)——我应该打开每个文件,用漂亮的汤解析,并在文件中找到某些信息(例如日期、名称等)。然后,我应该提取这些数据并将其放入新的数据框中(我认为是逐行创建)。我很难理解如何做到这一点。。。目前,我的working.ipynb所在的文件夹中有一个名为“data”的文件夹,里面有一个装满XML文件的文件夹。如何在笔记本中访问此文件并打开每个文件,然后从文件中提取某些数据?我目前正在使用此代码: for path in

Pandas 将数据帧从DateTimeIndex复制到分钟或小时增量计数器

我想将数据帧的索引从DateTimeIndex(例如,2015-06-11 23:59:29)转换为增量小时计数器,如:[0h 1m,0h 2m,0h 3m,0h 4m]。是否可能?如果可以接受HH:MM:SS格式,则可以将DatetimeIndex更改为TimedeltaIndex: start = df.index.min() df.index = df.index-start 比如说, import numpy as np import pandas as pd np.random.s

Pandas 熊猫:将单个索引从层次索引转换为系列索引,以允许对索引值进行计算

有没有办法将单个索引(从层次索引)转换为一个系列 用例:按年和月分组(因此,年和月形成层次索引),然后通过组合年和月(或执行一些需要序列而不是索引的其他操作)创建新列 我知道我可以使用reset_index(),但有更好的方法吗?IIUC您可以使用和: IIUC您可以使用和: daily = pd.DataFrame({'Low': {pd.Timestamp('2000-01-01 00:00:00'): 14.15, pd.Timestamp('2000-02-01 00:00:00'):

Pandas 由于where条件,数据帧左合并变为内部合并

我有两个数据帧,我需要对它们进行左合并(不想丢失第一个df的记录)。我可以很好地进行合并,但是当我添加where条件(我希望记录time\u dim\u id在call\u dim\u id和evt\u dim\u id之间)时,我会丢失evt\u dim\u id中有空值的记录(我也希望保留这些记录)。 这是where条件代码的开头。如何添加“或”以保留evt\u dim\u id为空的记录 df_MG_where = df_MG[((df_MG.time_dim_id >= df_MG

Pandas 分配从一个pd系列到另一个pd系列的分类映射

我想应用从分类值到代码的映射,从一个pd.Series到另一个。考虑这个片段: import pandas as pd s1 = pd.Series(['a', 'b']).astype('category') s2 = pd.Series(['b']).astype('category') print(s1.cat.codes) print(s2.cat.codes) s2.cat.set_categories(s1.cat.categories) print(s2.cat.codes)

Pandas 熊猫:如何在每组中获得前2行、中2行和下2行

假设我有一个数据帧df,如下所示。为了获得每组的前2名和后2名,我使用了groupby.nth df = pd.DataFrame({'A': ['a','a','a','a','a','a','a','a','b','b','b','b','b','b','b'], 'B': [1, 2, 3, 4, 5,6,7,8,1, 2, 3, 4, 5,6,7]}, columns=['A', 'B']) df.groupby('A').nth([0,1,-2,-

Pandas 熊猫时间序列图xticklabel

我试图绘制时间序列数据,并按月份标记x轴。 这是我的数据帧的前几个部分: Time Value 2012-01-01 00:00:00 1.223 2012-01-01 00:00:30 2.132 2012-01-01 00:01:00 1.417 2012-01-01 00:01:30 1.767 我的代码如下: import pandas as pd import matplo

Pandas 获得';对象在我的代码中是不可编辑的错误

在train_user中运行EucledianScore的for loop->j中的项目代码时,我遇到了“Type object is not iterable”错误。该代码用于使用MovieLens中的数据集进行用户-用户协同过滤。我见过许多“Type object is not iterable”问题的解决方案,但这些都不适用于我的代码 def user_collabo(): def EucledianScore(train_user, test_user): sum = 0

Pandas 处理熊猫名单

我有一个数据帧df: mAID MAID mPIDs MPIDs 0 A D [X, Y, Z] [X, W, L] 1 B E [X, Y, Z] [Y, Z, W] 2 A E [X, Y, Z] [Y, Z, W] 3 A F [X, Y, Z] NaN 我想生成一个新列,该列的MPID在MPID中,但不是MPID。即 mAID MAID mPIDs

Pandas 当列';A';是数字和列的列表';B';目标变量是什么?

我正在尝试运行shapiro测试: stats.shapiro(dataframe_iris_new['sepalWidth'][dataframe_iris_new['target']]) 我对上述代码的工作原理感到困惑。当您执行dataframe['columnA']时,它将只返回该列,因此它应该会抛出错误。您能将输出粘贴到这里吗?当您执行dataframe['columnA']时,它将只返回该列,因此它应该抛出错误。你能把输出粘贴到这里吗?假设你有这样一个系列: > s = pd.

Pandas 多索引数据透视表将字体权重从';粗体';至';正常';

如何获得“小计”、“大总计”和那些值“粗体”以及“变化”下字体的其余部分,并将其计算为“正常”字体重量,就像我的图像一样?或者任何其他方式,我可以让小计和总计弹出数据框的其余部分。难题。。。您需要找到一种方法来选择某些标记 让我们尝试一下Jupyter笔记本电脑的CSS选择器编码 def styleme(x): fw = 'bold' if 'Total' in x.name[1] else 'normal' l = [f'font-weight: {fw}']*len(x)

如何在pandas中应用使用多列作为输入的函数?

我有一个函数相对湿度(温度、湿度指数),它包含两个变量 我还有一个数据框,其中一列是温度,另一列是湿度索引,我正试图使用此函数创建一个新的湿度列,该列使用这些行计算 我曾尝试使用df.apply()函数,但由于我尝试使用多个列,因此该函数对我无效。我也尝试过在每一行中循环并将函数应用于每一行,但这似乎太慢了。谢谢你的帮助 编辑:我的函数如下所示: def relative_humidity_calculator(T, HI): a = c_6 + c_8*T + c_9*T**2

Pandas 如何平滑数据帧中的线条?

我有一个小数据帧,其中包含几类插值数据,它们的值在0和1之间进行了标准化。我正试图追踪平滑曲线,就像在EXCEL中一样,但在论坛中阅读其他问题时,这需要进一步插值,我不知道这样做是否正确?如何获得与EXCEL中相同的图形 xl = pd.ExcelFile('C:/.../test.xlsx') df1 = xl.parse(0, skipfooter= nrows-(10),index_col='Classes',header=0).dropna(axis=1, how='all') df1

将中位数从子集应用到整个列,Python/Pandas

第一次在这里发布。 我有一个信用风险模型数据集,有38K个账户。25K个账户是培训数据。其他13K是OOT(超时验证)。所有200列在training和OOT之间具有相同的定义。只是数据有两部分 我需要估算缺失的数据。200列中有37列符合中值插补条件。这是我的代码,运行良好。(由于公司保密,我使用通用变量名) 我必须修改这一点,因为训练期间不应该看到OOT部分,即使它只是计算中值。所以我尝试了下面的代码 Traindata=whole.query('partx==1') #partx== 1

Pandas 如何删除列表中的列元素的行?

在上图中,最后一列(“位置”)是一个列表。在以下情况下,我需要删除这些行: if first item in the list 'location' is greater than 60.0, those rows are not needed for me 如果我使用: for i in range(len(output)): trip_df = output.drop(output[ output['location'][i][0] > 60].index) 错误为:关键字

Pandas 如何将年、日、月转换为日期时间?

例如,我有一列包含以下数据: 17.14.11 17.15.10 18.21.06 这是2017-11-14,我想将其更改为DateTime对象,例如: 2017-11-14 2017-10-15 2018-06-21 我尝试使用pd.to_datetime,但我认为它不承认上面的日期。 如何使用pandas的to_datetime函数将其转换?使用格式和检查to_datetime pd.to_datetime(df['col'], format='%y.%d.%m') 对不起,我应该在专

Pandas 如何计算Apache Beam中的百分比变化?i、 e.DataFrame.pct\u更改

我是Apache Beam的新手,在这件看似非常简单的事情上坚持了几个小时: 如何在Apache Beam中实现pandas.DataFrame.pct\u更改 我正在从CSV读取数据(使用beam.io.ReadFromText),比如: 我想把它转换成行与行之间的百分比变化,即 0 NaN 1 0.011111 2 -0.065934 如何在Apache Beam管道中实现这一点 祝你一切顺利 与熊猫相比,Beam的主要优势在于能够并行许多操作。并行性也发生在读取

Pandas 将错误值添加到数据帧中

我想创建一个列表并将其转换为数据帧。我知道如何使用except和continue方法来完成循环 代码如下所示: import pandas as pd import requests list = ['A', 'AAPL'] url_balance_sheet = 'https://www.alphavantage.co/query?function=BALANCE_SHEET&symbol={}&apikey=DEMO' records = [] for s in list

Pandas 将loc代码行合并为1个函数行

我有一些代码可以将浏览器名称清理为数据框列中的短名称,例如“Edge 12345678”变成“Edge” 因为我想说明浏览器的未来版本(版本号会改变),所以我没有使用字典。我使用了pandas loc函数来识别browser name字段的前两个字母,然后将其替换为短名称(在新列中) 此代码适用于: df.loc[df['Browser'].str[:2] == 'Ch', 'Browser_type'] = 'Chrome' df.loc[df['Browser'].str[:2] == 'M

Pandas 熊猫:如何将int64年的索引转换为datetime

我有一个int64索引,表示我想作为时间戳索引处理的年份值: df.index Int64Index([2001,2002,2003], dtype='int64') 如何将索引转换为pandas中的datetime时间戳 import pandas as pd df.index = pd.to_datetime(df.index, format='%Y')

Pandas 数据帧loc无法识别正确的名称

首先,我必须通过运行以下命令导入一些数据: from eliteprospect import eliteprospect_scraper as ep import numpy as np import pandas as pd nhl_2020 = ep.getPlayers('nhl', '2019-20') players = pd.concat([nhl_2020]) lakings = players.loc[players['team'] == 'Los Angeles Kings

Pandas 在熊猫中加入列

因此,这正如预期的那样起作用: df1 = pd.DataFrame({'date':[123,456],'price1':[23,34]}).set_index('date') df2 = pd.DataFrame({'date':[456,789],'price2':[22,32]}).set_index('date') df1.join(df2, how='outer') price1 price2 date 123 23.0

Pandas 熊猫-获得整个立柱的最接近位置

我有一个日期和价格的df。 给定日期时间,我想在最近的日期找到价格 这适用于一个输入日期时间: import requests, xlrd, openpyxl, datetime import pandas as pd file = "E:/prices.csv" #two columns: Timestamp (UNIX epoch), Price (int) df = pd.read_csv(file, index_col=None, names=["Time

Pandas 根据以前的数据填写数据框

我正在与一家零售商合作一个项目,我们希望清理一些数据以用于报告目的。 该零售商有多家店铺,每周店铺的工作人员都会扫描不同显示器上的不同商品(他们会先扫描显示器,让我们知道他们谈论的是哪个显示器)。此外,他们只扫描在那一周内改变的显示,如果显示没有改变,那么我们假设它保持不变 现在,我们正在处理2个数据帧: 层次结构数据帧示例: 该表基本上为每家商店的每个端盖(显示器)提供了第1到52周的时间。假设该公司只有2家门店,每家门店有3个端盖。此外,不同的商店可能有不同的终端上限代码,但这对我们的目的不

Pandas 需要使用多个类别和日期时间在不同的表中划分数据帧

这是我第一次在这里提问,如果我做错了什么,请引导我到正确的地方。我有一个大而干净的数据集。(29000+ , 24). 问题是,我必须根据4个不同的分类列来计算流失率,我只得到了1列,其中包含给定时期内的子类。我也有一个日期栏。我计算客户流失率的想法是 客户流失率=(Sub_start_period-Sub_end_period)/Sub_start_period*100没有更多细节,这个问题很难理解。数据集中的每一行代表什么?哪些是分类列?欢迎使用堆栈溢出!请将您的帖子集中在一个特定的编程相

Pandas 删除列表中的重复数据帧,而第一行不同

我有一个数据帧列表,如果(第二行-最后一行)相同,我想删除重复的数据帧 df=[df1,df2] 尽管第一排不同,其余的都一样。因此,我想删除df_1或df_2 我试过“删除副本”,但不起作用 id df_1 1 0.5 2 0.5 id df_2 1 0.5 2 0.5 df=[] df1 = pd.DataFrame(np.array([[1, 0.5], [2, 0.5]]), columns=['id', 'df_1'])

上一页   1   2   3   4    5   6  ... 下一页 最后一页 共 280 页