Python Deepchem磁盘数据到numpy阵列

Python Deepchem磁盘数据到numpy阵列,python,numpy,deep-learning,rdkit,Python,Numpy,Deep Learning,Rdkit,我正在为模型使用包装器,如下所示。我在.csv中有我的微笑数据,它由5个分子组成,它们的微笑表示和各自的活动。数据可以直接从中访问 导入库: from __future__ import division from __future__ import print_function from __future__ import unicode_literals import numpy as np import tensorflow as tf import deepchem as dc from

我正在为模型使用包装器,如下所示。我在
.csv
中有我的微笑数据,它由5个分子组成,它们的微笑表示和各自的活动。数据可以直接从中访问

导入库:

from __future__ import division
from __future__ import print_function
from __future__ import unicode_literals
import numpy as np
import tensorflow as tf
import deepchem as dc
from deepchem.models.tensorgraph.models.graph_models import GraphConvModel
加载数据并以适合图形卷积的方式对其进行特征化。

graph_featurizer = dc.feat.graph_features.ConvMolFeaturizer()
loader_train = dc.data.data_loader.CSVLoader( tasks=['Activity'], smiles_field="smiles",featurizer=graph_featurizer)
dataset_train = loader_train.featurize( './train_smiles_data.csv')
分析已加载和特征化的数据(我的尝试)

dataset\u train.X
数组([,,
,
,
],
数据类型=对象)
数据集_train.y
数组([[2.71],
[4.41],
[3.77],
[4.2 ]])
对于数据集_train.itersamples()中的x、y、w、id:
打印(x、y、w、id)
[2.71][1.]CC1=C(O)C=CC=C1
[4.41][1.][O-][N+](=O)C1=CC=C(Br)S1
[3.77][1.]CCC/C=C/C=O
[4.2][1.]CCCC 1=CC=CS1
我想要什么?

从上面的代码中可以看出,
dataset\u train.X
提供了一个类似
diskobject
而不是类似
numpy数组的
dataset\u train.y

我如何知道在
dataset\u train.X
中存储的数据类型?如何查看存储在
数据集\u train.X
中的数据?或者换句话说,我如何将
数据集\u train.X
转换成这样一种格式,以便检查其中的数据

我相信应该有办法做到这一点

根据您的数据集_train.X是一个ConvMol对象数组。这些ConvMol对象是每个输入分子特征的容器。这些特征的表示方式与目标“train_dataset.y”不同,因为它们是更复杂的图形特征。再次查看ConvMol对象的,并查看ConvMolFeatureizer的。然后,您可以确定如何解释这些功能:

# Inspect features for molecule 0
conv_feature = dataset_train.X[0]
# Print the atom features
print(conv_feature.get_atom_features())
# Print the adjacency list
print(conv_feature.get_adjancency_list())
# Inspect features for molecule 0
conv_feature = dataset_train.X[0]
# Print the atom features
print(conv_feature.get_atom_features())
# Print the adjacency list
print(conv_feature.get_adjancency_list())