Pandas 使用dataframe/matrix为sklearn&;创建输入;张量流
我正在使用pandas/python/numpy/datalab/bigQuery生成机器学习处理的输入表。数据是基因组学的——现在,我正在研究基因的一小部分 174行 12430列 列名是从bigQueryPandas 使用dataframe/matrix为sklearn&;创建输入;张量流,pandas,tensorflow,sklearn-pandas,google-cloud-datalab,Pandas,Tensorflow,Sklearn Pandas,Google Cloud Datalab,我正在使用pandas/python/numpy/datalab/bigQuery生成机器学习处理的输入表。数据是基因组学的——现在,我正在研究基因的一小部分 174行 12430列 列名是从bigQuery中提取出来的(df_pik3ca_features=bq.Query(std_sql_features)。要使用数据帧(dialogue='standard',请使用\u cache=True)) 以同样的方式提取行名称:samples\u rows=bq.Query(speedy-emis
中提取出来的(df_pik3ca_features=bq.Query(std_sql_features)。要使用数据帧(dialogue='standard',请使用\u cache=True))
以同样的方式提取行名称:samples\u rows=bq.Query(speedy-emissary-167213.pgp\u orielresearch.pgp\u PIK3CA\u所有特征值\u步骤3GROUP BY sample\u id')
创建包含已提取的命名行和列的数据帧/矩阵的最简单方法是什么
我研究了pandas中的数据帧,但找不到将名称作为参数传递的方法
对于空数组,我可以找到以下没有名称的(numpy):
a = np.full([num_of_rows, num_of_columns], np.nan)
a.columns
我非常了解R(如果没有其他方法-我希望我可以将其用于datalab)
有什么想法吗
非常感谢 如果列名称和行名称存储在列表中,则可以使用.loc
选择所需的确切行和列。只需确保行名称在索引中。您可能需要执行df.set_index('sample_id')
将正确的行名称放入索引中
假设行和列位于变量行名称
和列名称
中,则执行此操作
df.loc[row_names, col_names]
非常感谢。我使用的代码(对于任何可能感兴趣的人):导入熊猫作为pd c=list(df_pik3ca_features['pik3ca_features'])r=list(df_rows['sample_id'])data=pd.DataFrame(columns=c,index=r)data.head()