Pandas_IT技术博客_编程技术问答 - 「Fatal编程技术网」

Pandas nosetests:algorithms.py:125:RuntimeWarning:tp#u compare-didn'；t对于异常返回-1或-2

标签： Pandas nose

我在运行nosetestspandas时收到以下消息： C:\Python27\lib\site-packages\pandas\core\algorithms.py:125: RuntimeWarning: tp_compare didn't return -1 or -2 for exception sorter = uniques.argsort() 这是一个我需要解决的严重问题吗？您能在GitHub上报告类似的问题吗(http://github.com/pydata/pandas/

Pandas 在数据帧之间切片数据行

标签： Pandas subsetslice

我有一个pandas数据框，其中有一列标记另一列中有趣的数据点（例如，波峰和波谷的位置）。我经常需要对每个标记之间的值进行一些计算。是否有一种简洁的方法可以使用标记作为端点对数据帧进行切片，以便在每个切片上运行函数？数据帧如下所示，并标记了所需的切片： numbers markers 0 0.632009 None 1 0.733576 None # Slice 1 (0,1,2) 2 0.585944 x _________ 3 0.2

Pandas Python将int转换为float（Postgres数据库）

标签： Pandas Sqlalchemy

避免此错误的最佳方法是什么 DataError:整数“669068424.0”上下文的输入语法无效：复制序列_原始，第2行，列id：“669068424.0” 我使用pgadmin创建了一个表，该表指定了每列的数据类型。然后我用pandas读取数据并进行一些处理。我可以显式地提供一个列列表，并说它们是.astype（int），但这是必要的吗我理解在整数后面有一个.0的原因是因为数据中有N，所以它们被转换成浮点数而不是整数。解决这个问题的最佳方法是什么？我在pandas 0.19的预发行版上看

Pandas 将列表追加到数据帧

标签： Pandas Dataframe append

我有一个数据帧，比如说： col1 col2 col3 1 x 3 1 y 4 我有一份清单： 2 3 4 5 我可以像这样将列表附加到数据框中吗： col1 col2 col3 1 x 3 1 y 4 2 Nan Nan 3 Nan Nan 4 Nan Nan 5 Nan Nan 谢谢。使用或与数据帧一起使用 df = df.append(pd.DataFrame([2,3,4,5], columns=['c

geopandas无法正确读取geojson

标签： Pandas geojsongeopandas

我正在尝试以下方法：下载后 [2]中的：导入geopandas 在[3]中：geopandas.read_文件（'./gz_2010_us_050_00_20m.json'）） --------------------------------------------------------------------------- TypeError回溯（最近一次调用上次）在里面 ---->1 geopandas.read_文件（'./gz_2010_us_050_00_20m.json'））

Pandas 使用循环方法填充空的Panda数据帧

标签： Pandas Loops

我目前正在处理一些缺少行程id的远程信息处理数据。旅行id是唯一的。1行程id包含多行数据，包括gps坐标、温度、电压、转速、时间戳、发动机状态（打开或关闭）。数据模式指示发动机状态打开和关闭的时间，可以作为唯一的行程id进行聚类。不过，我很难翻译上述逻辑以生成这些tripId 尝试使用一些循环方法，但一直失败 import pandas as pd inp = [{'Ignition_Status':'ON', 'tripID':''},{'Ignition_Status':'ON','tri

Pandas 如何使用多索引逐行计算百分比

标签： Pandas

我有大约3000万行的数据帧： ID DATE STATUS 123 2017-01-04 18:08:56+00:00 True 2017-01-04 18:09:56+00:00 True 2017-01-06 19:12:30+00:00 False 2017-01-07

Pandas 如何使用分组'；集合并集不是空集合吗？

标签： Pandas setunion

我有以下数据帧 df_testing = pd.DataFrame({ 'Q': ['Q_0', 'Q_1', 'Q_2', 'Q_3', 'Q_4', 'Q_5', 'Q_5', 'Q_6', 'Q_7', 'Q_7', 'Q_8'], 'A': ['A_0', 'A_1', 'A_1', 'A_1', 'A_2', 'A_3', 'A_4', 'A_5', 'A_5', 'A_6', 'A_7'] }) Q A 0 Q_0 A_0 1

Pandas 为什么在执行GroupKFold时，删除的Nan行会重新出现

标签： Pandas

不明白为什么当您删除一行数据时，它会在执行groupkfold操作时重新出现 df = df.dropna(axis=0) ## row 2 has disappeared groups = df['RaceId'] ## row 2 has indeed gone from groups indices X = df[['Dlto', 'Penulto']] y = df[['FinPos']] gkf = GroupKFold(n_splits=2) for train_index

Pandas 用字符串的子集替换字符串

标签： Pandas

我有一个如下所示的数据框： s1 AA AG AG GG AA s2 GTTGTT GTTGTT GTTGTT GTTGTT GTTGTT S3 TT CC TC TT TC S3 AGTTAGTT AGTTAGTT AGTTAGTT AGTTAGTT AGTTAGTT S3 GCGCGCGC GCGCGCGC GCGCGCGC GCGCGCGC GCGCGCGC 我想找到数据帧中每个超过两个字符的字符串（比如GTTGTT），将字符串分成两部分（所有字符串都是偶数）（GTT GTT），然后从每

Pandas AWS EMR上带熊猫的pyspark和pyarrow错误：'；JavaPackage'；对象不可调用

标签： Pandas Apache Spark Pyspark amazon-emrpyarrow

我正在尝试将Pandas数据帧转换为Pyspark数据帧，并出现以下与pyarrow相关的错误： import pandas as pd import numpy as np data = np.random.rand(1000000, 10) pdf = pd.DataFrame(data, columns=list("abcdefghij")) df = spark.createDataFrame(pdf) 我尝试了不同版本的pyarrow（0.10.0、0.14.1

Pandas 获取属性错误：'；str'；对象没有属性loc

标签： Pandas String attributeerrorloc

执行此代码时，我得到AttributeError:“str”对象没有属性“loc”。如何解决此错误？似乎：您有一个名为raw_data的字符串变量通过这个变量，您创建了一个数据帧（例如，命名为df）您尝试检索一些数据（从“感染”列中，从前20行开始）但是您没有从df检索这些数据，而是尝试从保存原始数据（字符串）的变量中检索它们另一种可能的情况是，前一段时间的原始数据是一个数据帧，但是由于代码中的一些错误，您已经用一些文本覆盖了它内容在出现问题的指令之前添加打印（键入（

Pandas 熊猫-要基于引用变量中元素的最后一次出现创建新变量吗？

标签： Pandas Jupyter Notebook

我有一个数据帧：- col count 0 B 1 1 B 2 2 A 1 3 A 2 4 A 3 5 C 1 6 C 2 7 C 3 8 C 4 wan根据col变量中最后出现的B、A创建名为Flag的新变量。参考df：- col count Flag 0 B 1 0 1 B 2 1 2 A 1 0 3 A 2 0 4 A 3 1 5 C

Pandas 如何为tensorflow编译混合数据类型？

标签： Pandas Keras Neural Network datasetpython-3.8

我试图制作一个混合数据集，但我正在努力。我想使用图像和浮点值作为输入。然后输出一个线性回归。我已经尝试了数小时的研究，但很多教程都使用了预装配的数据集，这对我的情况没有多大帮助。有人能教我如何将这些数据插入model.fit。我不需要帮助创建模型。我目前正在使用： python 3.8 tf gpu 2.4.0rc1 keras 2.4.3 熊猫1.1.4 这就是我被卡住的地方 IMG_SIZE = 400 Version = 1 batch_size = 8 val_aug = Image

Pandas groupby和get min，然后追加min行的值

标签： Pandas pivot-table

我使用groupby和minimum作为聚合函数。我需要行中具有最小值的一些其他值。在下面的MWE中，我需要City具有最小距离的行的值mindsist import pandas as pd data = {'City' : ['London', 'Paris', 'Lyon','NY', 'Bristol'], 'Distance' : [5, 1, 7, 2, 6], 'Country':['UK','FR','FR','US','UK']} df = pd.DataFrame(data)

Pandas 如何仅替换数据帧子集中的值

标签： Pandas Dataframe Numpy

我目前正试图找出如何替换pandas数据框中的一部分值。这是我提出的解决方案，但运行太慢（5分钟后仍未终止） new=df.loc[：，df.dtypes！=“O”] 新建=新建.掩码（新建

Pandas python描述groupby输出问题

标签： Pandas outputstructuredescribe

我在数据帧上与groupby一起使用descripe，例如： df_stats = df[["x","y"]].describe(df["key1"],df["key2"]) 这将通过键/键2值组合生成df中“x”和“y:的标准统计集。通常，这些组合不是先验的如果我打印df_stats，它会将key1/key2值的各种组合列为行值，但I 无法找到这些组合值存储的位置（应该在df_stats数据框中，否？）目标是

Pandas 使用beautiful soup在for循环中解析单个XML文件

标签： Pandas Dataframe beautifulsoup Path xml-parsing

我用一个jupyter笔记本解析一个文件夹，里面有很多单独的XML文件（大约2000个）——我应该打开每个文件，用漂亮的汤解析，并在文件中找到某些信息（例如日期、名称等）。然后，我应该提取这些数据并将其放入新的数据框中（我认为是逐行创建）。我很难理解如何做到这一点。。。目前，我的working.ipynb所在的文件夹中有一个名为“data”的文件夹，里面有一个装满XML文件的文件夹。如何在笔记本中访问此文件并打开每个文件，然后从文件中提取某些数据？我目前正在使用此代码： for path in

Pandas 将数据帧从DateTimeIndex复制到分钟或小时增量计数器

标签： Pandas Dataframe

我想将数据帧的索引从DateTimeIndex（例如，2015-06-11 23:59:29）转换为增量小时计数器，如：[0h 1m，0h 2m，0h 3m，0h 4m]。是否可能？如果可以接受HH:MM:SS格式，则可以将DatetimeIndex更改为TimedeltaIndex: start = df.index.min() df.index = df.index-start 比如说, import numpy as np import pandas as pd np.random.s

Pandas 熊猫：将单个索引从层次索引转换为系列索引，以允许对索引值进行计算

标签： Pandas

有没有办法将单个索引（从层次索引）转换为一个系列用例：按年和月分组（因此，年和月形成层次索引），然后通过组合年和月（或执行一些需要序列而不是索引的其他操作）创建新列我知道我可以使用reset_index（），但有更好的方法吗？IIUC您可以使用和： IIUC您可以使用和： daily = pd.DataFrame({'Low': {pd.Timestamp('2000-01-01 00:00:00'): 14.15, pd.Timestamp('2000-02-01 00:00:00'):

Pandas 由于where条件，数据帧左合并变为内部合并

标签： Pandas Merge where

我有两个数据帧，我需要对它们进行左合并（不想丢失第一个df的记录）。我可以很好地进行合并，但是当我添加where条件（我希望记录time\u dim\u id在call\u dim\u id和evt\u dim\u id之间）时，我会丢失evt\u dim\u id中有空值的记录（我也希望保留这些记录）。这是where条件代码的开头。如何添加“或”以保留evt\u dim\u id为空的记录 df_MG_where = df_MG[((df_MG.time_dim_id >= df_MG

Pandas 在两列上创建groupby，但未提供正确的数据帧

标签： Pandas

我有一个数据框： +----------------+--+ | class name | | +----------------+--+ | 0 A a1 | | | 1 A a2 | | | 2 A a3 | | | 3 A a1 | | | 4 B b2 | | | 5 C c1 | | | | | +----------------+--+

Pandas 当数据不足时，熊猫在滚动中使用str不会导致NaN

标签： Pandas

假设我们有每周的数据 $pd_tmp SCF/CME_C SCF/CME_S SCF/CME_SM Date 2018-06-19 0.797769 0.955308 0.609879 2018-06-26 0.858320 1.066278 0.641302 2018-07-03 0.872486 1.086672 0.656232 2018-0

Pandas 分配从一个pd系列到另一个pd系列的分类映射

标签： Pandas Mapping categoriescategorical-data

我想应用从分类值到代码的映射，从一个pd.Series到另一个。考虑这个片段： import pandas as pd s1 = pd.Series(['a', 'b']).astype('category') s2 = pd.Series(['b']).astype('category') print(s1.cat.codes) print(s2.cat.codes) s2.cat.set_categories(s1.cat.categories) print(s2.cat.codes)

Pandas 熊猫：如何在每组中获得前2行、中2行和下2行

标签： Pandas pandas-groupby

假设我有一个数据帧df，如下所示。为了获得每组的前2名和后2名，我使用了groupby.nth df = pd.DataFrame({'A': ['a','a','a','a','a','a','a','a','b','b','b','b','b','b','b'], 'B': [1, 2, 3, 4, 5,6,7,8,1, 2, 3, 4, 5,6,7]}, columns=['A', 'B']) df.groupby('A').nth([0,1,-2,-

Pandas 熊猫时间序列图xticklabel

标签： Pandas Matplotlib python-datetime

我试图绘制时间序列数据，并按月份标记x轴。这是我的数据帧的前几个部分： Time Value 2012-01-01 00:00:00 1.223 2012-01-01 00:00:30 2.132 2012-01-01 00:01:00 1.417 2012-01-01 00:01:30 1.767 我的代码如下： import pandas as pd import matplo

Pandas 获得'；对象在我的代码中是不可编辑的错误

标签： Pandas python-3.6

在train_user中运行EucledianScore的for loop->j中的项目代码时，我遇到了“Type object is not iterable”错误。该代码用于使用MovieLens中的数据集进行用户-用户协同过滤。我见过许多“Type object is not iterable”问题的解决方案，但这些都不适用于我的代码 def user_collabo(): def EucledianScore(train_user, test_user): sum = 0

Pandas 处理熊猫名单

标签： Pandas Python 2.7

我有一个数据帧df： mAID MAID mPIDs MPIDs 0 A D [X, Y, Z] [X, W, L] 1 B E [X, Y, Z] [Y, Z, W] 2 A E [X, Y, Z] [Y, Z, W] 3 A F [X, Y, Z] NaN 我想生成一个新列，该列的MPID在MPID中，但不是MPID。即 mAID MAID mPIDs

Pandas 当列'；A'；是数字和列的列表'；B'；目标变量是什么？

标签： Pandas

我正在尝试运行shapiro测试： stats.shapiro(dataframe_iris_new['sepalWidth'][dataframe_iris_new['target']]) 我对上述代码的工作原理感到困惑。当您执行dataframe['columnA']时，它将只返回该列，因此它应该会抛出错误。您能将输出粘贴到这里吗？当您执行dataframe['columnA']时，它将只返回该列，因此它应该抛出错误。你能把输出粘贴到这里吗？假设你有这样一个系列： > s = pd.

Pandas 多索引数据透视表将字体权重从'；粗体'；至'；正常'；

标签： Pandas pivot-table

如何获得“小计”、“大总计”和那些值“粗体”以及“变化”下字体的其余部分，并将其计算为“正常”字体重量，就像我的图像一样？或者任何其他方式，我可以让小计和总计弹出数据框的其余部分。难题。。。您需要找到一种方法来选择某些标记让我们尝试一下Jupyter笔记本电脑的CSS选择器编码 def styleme(x): fw = 'bold' if 'Total' in x.name[1] else 'normal' l = [f'font-weight: {fw}']*len(x)

Pandas 基于不同数据集的值合并数据帧

标签： Pandas Merge pivotpivot-table

我有以下数据帧： print(df) id_code turnover costs 001 100 200 002 100 200 003 100 200 004 100 200 print(df_db) Description Code1, Code2, ... CodeN Retail 001 002 ... nan Wholesale 003 nan ... nan

如何在pandas中应用使用多列作为输入的函数？

标签： Pandas

我有一个函数相对湿度（温度、湿度指数），它包含两个变量我还有一个数据框，其中一列是温度，另一列是湿度索引，我正试图使用此函数创建一个新的湿度列，该列使用这些行计算我曾尝试使用df.apply（）函数，但由于我尝试使用多个列，因此该函数对我无效。我也尝试过在每一行中循环并将函数应用于每一行，但这似乎太慢了。谢谢你的帮助编辑：我的函数如下所示： def relative_humidity_calculator(T, HI): a = c_6 + c_8*T + c_9*T**2

Pandas 如何平滑数据帧中的线条？

标签： Pandas Dataframe Plot

我有一个小数据帧，其中包含几类插值数据，它们的值在0和1之间进行了标准化。我正试图追踪平滑曲线，就像在EXCEL中一样，但在论坛中阅读其他问题时，这需要进一步插值，我不知道这样做是否正确？如何获得与EXCEL中相同的图形 xl = pd.ExcelFile('C:/.../test.xlsx') df1 = xl.parse(0, skipfooter= nrows-(10),index_col='Classes',header=0).dropna(axis=1, how='all') df1

将中位数从子集应用到整个列，Python/Pandas

标签： Pandas group-bymedianimputationfillna

第一次在这里发布。我有一个信用风险模型数据集，有38K个账户。25K个账户是培训数据。其他13K是OOT（超时验证）。所有200列在training和OOT之间具有相同的定义。只是数据有两部分我需要估算缺失的数据。200列中有37列符合中值插补条件。这是我的代码，运行良好。（由于公司保密，我使用通用变量名）我必须修改这一点，因为训练期间不应该看到OOT部分，即使它只是计算中值。所以我尝试了下面的代码 Traindata=whole.query('partx==1') #partx== 1

合并geopandas数据帧并转换为json抛出；达到最大递归级别“；错误

标签： Pandas geopandas

Dataframe df具有以下列： ['country_code', 'confirmed_cases', 'count_date'] ['country_code', 'geometry'] gdf（geopandas数据帧）具有以下列： ['country_code', 'confirmed_cases', 'count_date'] ['country_code', 'geometry'] 所有以下工作： df.to_json() gdf.to_json() gdf.geomet

Pandas 如何删除列表中的列元素的行？

标签： Pandas Dataframe Csv data-analysis

在上图中，最后一列（“位置”）是一个列表。在以下情况下，我需要删除这些行： if first item in the list 'location' is greater than 60.0, those rows are not needed for me 如果我使用： for i in range(len(output)): trip_df = output.drop(output[ output['location'][i][0] > 60].index) 错误为：关键字

Pandas 如何将年、日、月转换为日期时间？

标签： Pandas Datetime

例如，我有一列包含以下数据： 17.14.11 17.15.10 18.21.06 这是2017-11-14，我想将其更改为DateTime对象，例如： 2017-11-14 2017-10-15 2018-06-21 我尝试使用pd.to_datetime，但我认为它不承认上面的日期。如何使用pandas的to_datetime函数将其转换？使用格式和检查to_datetime pd.to_datetime(df['col'], format='%y.%d.%m') 对不起，我应该在专

Pandas 如何计算Apache Beam中的百分比变化？i、 e.DataFrame.pct\u更改

标签： Pandas apache-beam-ioapache-beam

我是Apache Beam的新手，在这件看似非常简单的事情上坚持了几个小时：如何在Apache Beam中实现pandas.DataFrame.pct\u更改我正在从CSV读取数据（使用beam.io.ReadFromText），比如：我想把它转换成行与行之间的百分比变化，即 0 NaN 1 0.011111 2 -0.065934 如何在Apache Beam管道中实现这一点祝你一切顺利与熊猫相比，Beam的主要优势在于能够并行许多操作。并行性也发生在读取

Pandas 将错误值添加到数据帧中

标签： Pandas Dataframe yahoo-finance

我想创建一个列表并将其转换为数据帧。我知道如何使用except和continue方法来完成循环代码如下所示： import pandas as pd import requests list = ['A', 'AAPL'] url_balance_sheet = 'https://www.alphavantage.co/query?function=BALANCE_SHEET&symbol={}&apikey=DEMO' records = [] for s in list

Pandas 将loc代码行合并为1个函数行

标签： Pandas Function renameloc

我有一些代码可以将浏览器名称清理为数据框列中的短名称，例如“Edge 12345678”变成“Edge” 因为我想说明浏览器的未来版本（版本号会改变），所以我没有使用字典。我使用了pandas loc函数来识别browser name字段的前两个字母，然后将其替换为短名称（在新列中）此代码适用于： df.loc[df['Browser'].str[:2] == 'Ch', 'Browser_type'] = 'Chrome' df.loc[df['Browser'].str[:2] == 'M

Pandas 如果数据框中不存在替换中的术语，如何忽略它们？

标签： Pandas Replace

我有以下代码用另一个术语替换一个术语，这仅在pandas数据帧中存在值时有效，我假设我需要在if语句中包装gdf[montype]=gdf[montype].replace（dict（montype），regex=True）？我该怎么做，还是有更好的方法 montype = [ ['HIS_COP_', ''], ['_Ply', ''], ['_Pt',''], ['BURIAL','burial'], [

Pandas 熊猫：如何将int64年的索引转换为datetime

标签： Pandas

我有一个int64索引，表示我想作为时间戳索引处理的年份值： df.index Int64Index([2001,2002,2003], dtype='int64') 如何将索引转换为pandas中的datetime时间戳 import pandas as pd df.index = pd.to_datetime(df.index, format='%Y')

Pandas 获取datetime和常数时间变量之间的时间差

标签： Pandas Numpy Dataframe Datetime

我有一个DateTime列“Ended”，如果时间大于19:00:00，则希望创建一个新列，否则为0。新列应包含“结束”和19:00:00（小时）之间的差异 Ended New_Ended 2020-10-31 21:06:30 2.1 2020-10-31 20:29:18 1.5 2020-10-01 19:24:42 0.4 2020-10-03 16:24:42 0.0 datetime64[ns] 同样地，如果

Pandas 数据帧loc无法识别正确的名称

标签： Pandas Dataframe loc

首先，我必须通过运行以下命令导入一些数据： from eliteprospect import eliteprospect_scraper as ep import numpy as np import pandas as pd nhl_2020 = ep.getPlayers('nhl', '2019-20') players = pd.concat([nhl_2020]) lakings = players.loc[players['team'] == 'Los Angeles Kings

Pandas 在熊猫中加入列

标签： Pandas Join

因此，这正如预期的那样起作用： df1 = pd.DataFrame({'date':[123,456],'price1':[23,34]}).set_index('date') df2 = pd.DataFrame({'date':[456,789],'price2':[22,32]}).set_index('date') df1.join(df2, how='outer') price1 price2 date 123 23.0

Pandas 熊猫-获得整个立柱的最接近位置

标签： Pandas Dataframe

我有一个日期和价格的df。给定日期时间，我想在最近的日期找到价格这适用于一个输入日期时间： import requests, xlrd, openpyxl, datetime import pandas as pd file = "E:/prices.csv" #two columns: Timestamp (UNIX epoch), Price (int) df = pd.read_csv(file, index_col=None, names=["Time

Pandas 基于数据帧中的值（纬度和经度）计算数据帧子集的统计信息

标签： Pandas Dataframe pandas-groupbydistancelatitude-longitude

我希望计算数据帧子集的汇总统计信息，但与行中的特定值相关例如，我有一个包含纬度、经度和人数的数据框 df = pd.DataFrame({'latitude': [40.991919 , 40.992001 , 40.991602, 40.989903, 40.987759], 'longitude': [-106.049469, -106.048812, -106.048904, -106.049907, -106.048840],

Pandas 根据以前的数据填写数据框

标签： Pandas Dataframe

我正在与一家零售商合作一个项目，我们希望清理一些数据以用于报告目的。该零售商有多家店铺，每周店铺的工作人员都会扫描不同显示器上的不同商品（他们会先扫描显示器，让我们知道他们谈论的是哪个显示器）。此外，他们只扫描在那一周内改变的显示，如果显示没有改变，那么我们假设它保持不变现在，我们正在处理2个数据帧：层次结构数据帧示例：该表基本上为每家商店的每个端盖（显示器）提供了第1到52周的时间。假设该公司只有2家门店，每家门店有3个端盖。此外，不同的商店可能有不同的终端上限代码，但这对我们的目的不

Pandas 需要使用多个类别和日期时间在不同的表中划分数据帧

标签： Pandas Dataframe predictchurn

这是我第一次在这里提问，如果我做错了什么，请引导我到正确的地方。我有一个大而干净的数据集。(29000+ , 24). 问题是，我必须根据4个不同的分类列来计算流失率，我只得到了1列，其中包含给定时期内的子类。我也有一个日期栏。我计算客户流失率的想法是客户流失率=（Sub_start_period-Sub_end_period）/Sub_start_period*100没有更多细节，这个问题很难理解。数据集中的每一行代表什么？哪些是分类列？欢迎使用堆栈溢出！请将您的帖子集中在一个特定的编程相

Pandas 删除列表中的重复数据帧，而第一行不同

标签： Pandas Dataframe duplicates

我有一个数据帧列表，如果（第二行-最后一行）相同，我想删除重复的数据帧 df=[df1，df2] 尽管第一排不同，其余的都一样。因此，我想删除df_1或df_2 我试过“删除副本”，但不起作用 id df_1 1 0.5 2 0.5 id df_2 1 0.5 2 0.5 df=[] df1 = pd.DataFrame(np.array([[1, 0.5], [2, 0.5]]), columns=['id', 'df_1'])