我在运行nosetestspandas时收到以下消息:
C:\Python27\lib\site-packages\pandas\core\algorithms.py:125: RuntimeWarning: tp_compare didn't return -1 or -2 for exception
sorter = uniques.argsort()
这是一个我需要解决的严重问题吗?您能在GitHub上报告类似的问题吗(http://github.com/pydata/pandas/
我有一个pandas数据框,其中有一列标记另一列中有趣的数据点(例如,波峰和波谷的位置)。我经常需要对每个标记之间的值进行一些计算。是否有一种简洁的方法可以使用标记作为端点对数据帧进行切片,以便在每个切片上运行函数?数据帧如下所示,并标记了所需的切片:
numbers markers
0 0.632009 None
1 0.733576 None # Slice 1 (0,1,2)
2 0.585944 x _________
3 0.2
避免此错误的最佳方法是什么
DataError:整数“669068424.0”上下文的输入语法无效:
复制序列_原始,第2行,列id:“669068424.0”
我使用pgadmin创建了一个表,该表指定了每列的数据类型。然后我用pandas读取数据并进行一些处理。我可以显式地提供一个列列表,并说它们是.astype(int),但这是必要的吗
我理解在整数后面有一个.0的原因是因为数据中有N,所以它们被转换成浮点数而不是整数。解决这个问题的最佳方法是什么?我在pandas 0.19的预发行版上看
我有一个数据帧,比如说:
col1 col2 col3
1 x 3
1 y 4
我有一份清单:
2
3
4
5
我可以像这样将列表附加到数据框中吗:
col1 col2 col3
1 x 3
1 y 4
2 Nan Nan
3 Nan Nan
4 Nan Nan
5 Nan Nan
谢谢。使用或与数据帧一起使用
df = df.append(pd.DataFrame([2,3,4,5], columns=['c
我正在尝试以下方法:
下载后
[2]中的:导入geopandas
在[3]中:geopandas.read_文件('./gz_2010_us_050_00_20m.json'))
---------------------------------------------------------------------------
TypeError回溯(最近一次调用上次)
在里面
---->1 geopandas.read_文件('./gz_2010_us_050_00_20m.json'))
我目前正在处理一些缺少行程id的远程信息处理数据。旅行id是唯一的。1行程id包含多行数据,包括gps坐标、温度、电压、转速、时间戳、发动机状态(打开或关闭)。数据模式指示发动机状态打开和关闭的时间,可以作为唯一的行程id进行聚类。不过,我很难翻译上述逻辑以生成这些tripId
尝试使用一些循环方法,但一直失败
import pandas as pd
inp = [{'Ignition_Status':'ON', 'tripID':''},{'Ignition_Status':'ON','tri
我有大约3000万行的数据帧:
ID DATE STATUS
123 2017-01-04 18:08:56+00:00 True
2017-01-04 18:09:56+00:00 True
2017-01-06 19:12:30+00:00 False
2017-01-07
我有以下数据帧
df_testing = pd.DataFrame({
'Q': ['Q_0', 'Q_1', 'Q_2', 'Q_3', 'Q_4', 'Q_5', 'Q_5', 'Q_6', 'Q_7', 'Q_7', 'Q_8'],
'A': ['A_0', 'A_1', 'A_1', 'A_1', 'A_2', 'A_3', 'A_4', 'A_5', 'A_5', 'A_6', 'A_7']
})
Q A
0 Q_0 A_0
1
不明白为什么当您删除一行数据时,它会在执行groupkfold操作时重新出现
df = df.dropna(axis=0) ## row 2 has disappeared
groups = df['RaceId'] ## row 2 has indeed gone from groups indices
X = df[['Dlto', 'Penulto']]
y = df[['FinPos']]
gkf = GroupKFold(n_splits=2)
for train_index
我有一个如下所示的数据框:
s1 AA AG AG GG AA
s2 GTTGTT GTTGTT GTTGTT GTTGTT GTTGTT
S3 TT CC TC TT TC
S3 AGTTAGTT AGTTAGTT AGTTAGTT AGTTAGTT AGTTAGTT
S3 GCGCGCGC GCGCGCGC GCGCGCGC GCGCGCGC GCGCGCGC
我想找到数据帧中每个超过两个字符的字符串(比如GTTGTT),将字符串分成两部分(所有字符串都是偶数)(GTT GTT),然后从每
我正在尝试将Pandas数据帧转换为Pyspark数据帧,并出现以下与pyarrow相关的错误:
import pandas as pd
import numpy as np
data = np.random.rand(1000000, 10)
pdf = pd.DataFrame(data, columns=list("abcdefghij"))
df = spark.createDataFrame(pdf)
我尝试了不同版本的pyarrow(0.10.0、0.14.1
执行此代码时,我得到AttributeError:“str”对象没有属性“loc”。如何解决此错误?似乎:
您有一个名为raw_data的字符串变量
通过这个变量,您创建了一个数据帧(例如,命名为df)
您尝试检索一些数据(从“感染”列中,
从前20行开始)
但是您没有从df检索这些数据,而是尝试
从保存原始数据(字符串)的变量中检索它们
另一种可能的情况是,前一段时间的原始数据是一个数据帧,
但是由于代码中的一些错误,您已经用一些文本覆盖了它
内容
在出现问题的指令之前添加打印(键入(
我有一个数据帧:-
col count
0 B 1
1 B 2
2 A 1
3 A 2
4 A 3
5 C 1
6 C 2
7 C 3
8 C 4
wan根据col变量中最后出现的B、A创建名为Flag的新变量。参考df:-
col count Flag
0 B 1 0
1 B 2 1
2 A 1 0
3 A 2 0
4 A 3 1
5 C
我试图制作一个混合数据集,但我正在努力。我想使用图像和浮点值作为输入。然后输出一个线性回归。我已经尝试了数小时的研究,但很多教程都使用了预装配的数据集,这对我的情况没有多大帮助。有人能教我如何将这些数据插入model.fit。我不需要帮助创建模型。
我目前正在使用:
python 3.8
tf gpu 2.4.0rc1
keras 2.4.3
熊猫1.1.4
这就是我被卡住的地方
IMG_SIZE = 400
Version = 1
batch_size = 8
val_aug = Image
我使用groupby和minimum作为聚合函数。我需要行中具有最小值的一些其他值。在下面的MWE中,我需要City具有最小距离的行的值mindsist
import pandas as pd
data = {'City' : ['London', 'Paris', 'Lyon','NY', 'Bristol'], 'Distance' : [5, 1, 7, 2, 6], 'Country':['UK','FR','FR','US','UK']}
df = pd.DataFrame(data)
我目前正试图找出如何替换pandas数据框中的一部分值。这是我提出的解决方案,但运行太慢(5分钟后仍未终止)
new=df.loc[:,df.dtypes!=“O”]
新建=新建.掩码(新建
标签: Pandas
outputstructuredescribe
我在数据帧上与groupby一起使用descripe,例如:
df_stats = df[["x","y"]].describe(df["key1"],df["key2"])
这将通过键/键2值组合生成df中“x”和“y:的标准统计集。通常,这些组合不是先验的
如果我打印df_stats,它会将key1/key2值的各种组合列为行值,但I
无法找到这些组合值存储的位置(应该在df_stats数据框中,否?)
目标是
我用一个jupyter笔记本解析一个文件夹,里面有很多单独的XML文件(大约2000个)——我应该打开每个文件,用漂亮的汤解析,并在文件中找到某些信息(例如日期、名称等)。然后,我应该提取这些数据并将其放入新的数据框中(我认为是逐行创建)。我很难理解如何做到这一点。。。目前,我的working.ipynb所在的文件夹中有一个名为“data”的文件夹,里面有一个装满XML文件的文件夹。如何在笔记本中访问此文件并打开每个文件,然后从文件中提取某些数据?我目前正在使用此代码:
for path in
我想将数据帧的索引从DateTimeIndex(例如,2015-06-11 23:59:29)转换为增量小时计数器,如:[0h 1m,0h 2m,0h 3m,0h 4m]。是否可能?如果可以接受HH:MM:SS格式,则可以将DatetimeIndex更改为TimedeltaIndex:
start = df.index.min()
df.index = df.index-start
比如说,
import numpy as np
import pandas as pd
np.random.s
有没有办法将单个索引(从层次索引)转换为一个系列
用例:按年和月分组(因此,年和月形成层次索引),然后通过组合年和月(或执行一些需要序列而不是索引的其他操作)创建新列
我知道我可以使用reset_index(),但有更好的方法吗?IIUC您可以使用和:
IIUC您可以使用和:
daily = pd.DataFrame({'Low': {pd.Timestamp('2000-01-01 00:00:00'): 14.15, pd.Timestamp('2000-02-01 00:00:00'):
我有两个数据帧,我需要对它们进行左合并(不想丢失第一个df的记录)。我可以很好地进行合并,但是当我添加where条件(我希望记录time\u dim\u id在call\u dim\u id和evt\u dim\u id之间)时,我会丢失evt\u dim\u id中有空值的记录(我也希望保留这些记录)。
这是where条件代码的开头。如何添加“或”以保留evt\u dim\u id为空的记录
df_MG_where = df_MG[((df_MG.time_dim_id >= df_MG
我有一个数据框:
+----------------+--+
| class name | |
+----------------+--+
| 0 A a1 | |
| 1 A a2 | |
| 2 A a3 | |
| 3 A a1 | |
| 4 B b2 | |
| 5 C c1 | |
| | |
+----------------+--+
假设我们有每周的数据
$pd_tmp
SCF/CME_C SCF/CME_S SCF/CME_SM
Date
2018-06-19 0.797769 0.955308 0.609879
2018-06-26 0.858320 1.066278 0.641302
2018-07-03 0.872486 1.086672 0.656232
2018-0
我想应用从分类值到代码的映射,从一个pd.Series到另一个。考虑这个片段:
import pandas as pd
s1 = pd.Series(['a', 'b']).astype('category')
s2 = pd.Series(['b']).astype('category')
print(s1.cat.codes)
print(s2.cat.codes)
s2.cat.set_categories(s1.cat.categories)
print(s2.cat.codes)
假设我有一个数据帧df,如下所示。为了获得每组的前2名和后2名,我使用了groupby.nth
df = pd.DataFrame({'A': ['a','a','a','a','a','a','a','a','b','b','b','b','b','b','b'],
'B': [1, 2, 3, 4, 5,6,7,8,1, 2, 3, 4, 5,6,7]}, columns=['A', 'B'])
df.groupby('A').nth([0,1,-2,-
我试图绘制时间序列数据,并按月份标记x轴。
这是我的数据帧的前几个部分:
Time Value
2012-01-01 00:00:00 1.223
2012-01-01 00:00:30 2.132
2012-01-01 00:01:00 1.417
2012-01-01 00:01:30 1.767
我的代码如下:
import pandas as pd
import matplo
在train_user中运行EucledianScore的for loop->j中的项目代码时,我遇到了“Type object is not iterable”错误。该代码用于使用MovieLens中的数据集进行用户-用户协同过滤。我见过许多“Type object is not iterable”问题的解决方案,但这些都不适用于我的代码
def user_collabo():
def EucledianScore(train_user, test_user):
sum = 0
我有一个数据帧df:
mAID MAID mPIDs MPIDs
0 A D [X, Y, Z] [X, W, L]
1 B E [X, Y, Z] [Y, Z, W]
2 A E [X, Y, Z] [Y, Z, W]
3 A F [X, Y, Z] NaN
我想生成一个新列,该列的MPID在MPID中,但不是MPID。即
mAID MAID mPIDs
我正在尝试运行shapiro测试:
stats.shapiro(dataframe_iris_new['sepalWidth'][dataframe_iris_new['target']])
我对上述代码的工作原理感到困惑。当您执行dataframe['columnA']时,它将只返回该列,因此它应该会抛出错误。您能将输出粘贴到这里吗?当您执行dataframe['columnA']时,它将只返回该列,因此它应该抛出错误。你能把输出粘贴到这里吗?假设你有这样一个系列:
> s = pd.
如何获得“小计”、“大总计”和那些值“粗体”以及“变化”下字体的其余部分,并将其计算为“正常”字体重量,就像我的图像一样?或者任何其他方式,我可以让小计和总计弹出数据框的其余部分。难题。。。您需要找到一种方法来选择某些标记
让我们尝试一下Jupyter笔记本电脑的CSS选择器编码
def styleme(x):
fw = 'bold' if 'Total' in x.name[1] else 'normal'
l = [f'font-weight: {fw}']*len(x)
我有以下数据帧:
print(df)
id_code turnover costs
001 100 200
002 100 200
003 100 200
004 100 200
print(df_db)
Description Code1, Code2, ... CodeN
Retail 001 002 ... nan
Wholesale 003 nan ... nan
我有一个函数相对湿度(温度、湿度指数),它包含两个变量
我还有一个数据框,其中一列是温度,另一列是湿度索引,我正试图使用此函数创建一个新的湿度列,该列使用这些行计算
我曾尝试使用df.apply()函数,但由于我尝试使用多个列,因此该函数对我无效。我也尝试过在每一行中循环并将函数应用于每一行,但这似乎太慢了。谢谢你的帮助
编辑:我的函数如下所示:
def relative_humidity_calculator(T, HI):
a = c_6 + c_8*T + c_9*T**2
我有一个小数据帧,其中包含几类插值数据,它们的值在0和1之间进行了标准化。我正试图追踪平滑曲线,就像在EXCEL中一样,但在论坛中阅读其他问题时,这需要进一步插值,我不知道这样做是否正确?如何获得与EXCEL中相同的图形
xl = pd.ExcelFile('C:/.../test.xlsx')
df1 = xl.parse(0, skipfooter= nrows-(10),index_col='Classes',header=0).dropna(axis=1, how='all')
df1
标签: Pandas
group-bymedianimputationfillna
第一次在这里发布。
我有一个信用风险模型数据集,有38K个账户。25K个账户是培训数据。其他13K是OOT(超时验证)。所有200列在training和OOT之间具有相同的定义。只是数据有两部分
我需要估算缺失的数据。200列中有37列符合中值插补条件。这是我的代码,运行良好。(由于公司保密,我使用通用变量名)
我必须修改这一点,因为训练期间不应该看到OOT部分,即使它只是计算中值。所以我尝试了下面的代码
Traindata=whole.query('partx==1') #partx== 1
Dataframe df具有以下列:
['country_code', 'confirmed_cases', 'count_date']
['country_code', 'geometry']
gdf(geopandas数据帧)具有以下列:
['country_code', 'confirmed_cases', 'count_date']
['country_code', 'geometry']
所有以下工作:
df.to_json()
gdf.to_json()
gdf.geomet
在上图中,最后一列(“位置”)是一个列表。在以下情况下,我需要删除这些行:
if first item in the list 'location' is greater than 60.0, those rows are not needed for me
如果我使用:
for i in range(len(output)):
trip_df = output.drop(output[ output['location'][i][0] > 60].index)
错误为:关键字
例如,我有一列包含以下数据:
17.14.11
17.15.10
18.21.06
这是2017-11-14,我想将其更改为DateTime对象,例如:
2017-11-14
2017-10-15
2018-06-21
我尝试使用pd.to_datetime,但我认为它不承认上面的日期。
如何使用pandas的to_datetime函数将其转换?使用格式和检查to_datetime
pd.to_datetime(df['col'], format='%y.%d.%m')
对不起,我应该在专
标签: Pandas
apache-beam-ioapache-beam
我是Apache Beam的新手,在这件看似非常简单的事情上坚持了几个小时:
如何在Apache Beam中实现pandas.DataFrame.pct\u更改
我正在从CSV读取数据(使用beam.io.ReadFromText),比如:
我想把它转换成行与行之间的百分比变化,即
0 NaN
1 0.011111
2 -0.065934
如何在Apache Beam管道中实现这一点
祝你一切顺利 与熊猫相比,Beam的主要优势在于能够并行许多操作。并行性也发生在读取
我想创建一个列表并将其转换为数据帧。我知道如何使用except和continue方法来完成循环
代码如下所示:
import pandas as pd
import requests
list = ['A', 'AAPL']
url_balance_sheet = 'https://www.alphavantage.co/query?function=BALANCE_SHEET&symbol={}&apikey=DEMO'
records = []
for s in list
我有一些代码可以将浏览器名称清理为数据框列中的短名称,例如“Edge 12345678”变成“Edge”
因为我想说明浏览器的未来版本(版本号会改变),所以我没有使用字典。我使用了pandas loc函数来识别browser name字段的前两个字母,然后将其替换为短名称(在新列中)
此代码适用于:
df.loc[df['Browser'].str[:2] == 'Ch', 'Browser_type'] = 'Chrome'
df.loc[df['Browser'].str[:2] == 'M
我有以下代码用另一个术语替换一个术语,这仅在pandas数据帧中存在值时有效,我假设我需要在if语句中包装gdf[montype]=gdf[montype].replace(dict(montype),regex=True)?我该怎么做,还是有更好的方法
montype = [
['HIS_COP_', ''],
['_Ply', ''],
['_Pt',''],
['BURIAL','burial'],
[
我有一个int64索引,表示我想作为时间戳索引处理的年份值:
df.index
Int64Index([2001,2002,2003], dtype='int64')
如何将索引转换为pandas中的datetime时间戳
import pandas as pd
df.index = pd.to_datetime(df.index, format='%Y')
我有一个DateTime列“Ended”,如果时间大于19:00:00,则希望创建一个新列,否则为0。
新列应包含“结束”和19:00:00(小时)之间的差异
Ended New_Ended
2020-10-31 21:06:30 2.1
2020-10-31 20:29:18 1.5
2020-10-01 19:24:42 0.4
2020-10-03 16:24:42 0.0
datetime64[ns]
同样地,如果
首先,我必须通过运行以下命令导入一些数据:
from eliteprospect import eliteprospect_scraper as ep
import numpy as np
import pandas as pd
nhl_2020 = ep.getPlayers('nhl', '2019-20')
players = pd.concat([nhl_2020])
lakings = players.loc[players['team'] == 'Los Angeles Kings
因此,这正如预期的那样起作用:
df1 = pd.DataFrame({'date':[123,456],'price1':[23,34]}).set_index('date')
df2 = pd.DataFrame({'date':[456,789],'price2':[22,32]}).set_index('date')
df1.join(df2, how='outer')
price1 price2
date
123 23.0
我有一个日期和价格的df。
给定日期时间,我想在最近的日期找到价格
这适用于一个输入日期时间:
import requests, xlrd, openpyxl, datetime
import pandas as pd
file = "E:/prices.csv" #two columns: Timestamp (UNIX epoch), Price (int)
df = pd.read_csv(file, index_col=None, names=["Time
我希望计算数据帧子集的汇总统计信息,但与行中的特定值相关
例如,我有一个包含纬度、经度和人数的数据框
df = pd.DataFrame({'latitude': [40.991919 , 40.992001 , 40.991602, 40.989903, 40.987759],
'longitude': [-106.049469, -106.048812, -106.048904, -106.049907, -106.048840],
我正在与一家零售商合作一个项目,我们希望清理一些数据以用于报告目的。
该零售商有多家店铺,每周店铺的工作人员都会扫描不同显示器上的不同商品(他们会先扫描显示器,让我们知道他们谈论的是哪个显示器)。此外,他们只扫描在那一周内改变的显示,如果显示没有改变,那么我们假设它保持不变
现在,我们正在处理2个数据帧:
层次结构数据帧示例:
该表基本上为每家商店的每个端盖(显示器)提供了第1到52周的时间。假设该公司只有2家门店,每家门店有3个端盖。此外,不同的商店可能有不同的终端上限代码,但这对我们的目的不
这是我第一次在这里提问,如果我做错了什么,请引导我到正确的地方。我有一个大而干净的数据集。(29000+ , 24). 问题是,我必须根据4个不同的分类列来计算流失率,我只得到了1列,其中包含给定时期内的子类。我也有一个日期栏。我计算客户流失率的想法是
客户流失率=(Sub_start_period-Sub_end_period)/Sub_start_period*100没有更多细节,这个问题很难理解。数据集中的每一行代表什么?哪些是分类列?欢迎使用堆栈溢出!请将您的帖子集中在一个特定的编程相
我有一个数据帧列表,如果(第二行-最后一行)相同,我想删除重复的数据帧
df=[df1,df2]
尽管第一排不同,其余的都一样。因此,我想删除df_1或df_2
我试过“删除副本”,但不起作用
id df_1
1 0.5
2 0.5
id df_2
1 0.5
2 0.5
df=[]
df1 = pd.DataFrame(np.array([[1, 0.5], [2, 0.5]]),
columns=['id', 'df_1'])
上一页 1 2 3 4 5 6 ...
下一页 最后一页 共 280 页