Python 用于使用scikit训练ML的JSON列表的Dataframe行_Python_Pandas_Numpy_Scikit Learn_Sktime

Python 用于使用scikit训练ML的JSON列表的Dataframe行

python pandas numpy scikit-learn

Python 用于使用scikit训练ML的JSON列表的Dataframe行,python,pandas,numpy,scikit-learn,sktime,Python,Pandas,Numpy,Scikit Learn,Sktime,我正在尝试对一组JSON文件进行多元分类，这些文件被组织为实验输入为以下结构： [ {v:431，t:2，d1:986000，d2:434000，X:0}， {v:77，t:0，d1:47000，d2:613000，X:0}， {v:58，t:1，d1:197000，d2:47000，X:0}， {v:77，t:0，d1:260000，d2:213000，X:0} ] 分类标签设置为具有形状的数据框（len（files），1）。下面是我用六个文件实现的。X的结果形状为（9528,5），应该是

我正在尝试对一组JSON文件进行多元分类，这些文件被组织为实验

输入为以下结构：

[
{v:431，t:2，d1:986000，d2:434000，X:0}，
{v:77，t:0，d1:47000，d2:613000，X:0}，
{v:58，t:1，d1:197000，d2:47000，X:0}，
{v:77，t:0，d1:260000，d2:213000，X:0}
]

分类标签设置为具有形状的数据框（len（files），1）。下面是我用六个文件实现的。X的结果形状为（9528,5），应该是六行，每行包含文件的JSON：

导入json
作为pd进口熊猫
将numpy作为np导入
从pandas导入json_规范化
从sklearn.impute导入SimpleImputer
从sklearn.pipeline导入管道
从sktime.classification.compose导入ColumnSembleClassifier
从sktime.classification.compose导入TimeSeriesForestClassifier
来自sktime.classification.dictionary\基于导入BOSSEnsemble
#来自基于sktime.classification.shapelet_的导入MrSEQLClassifier
从sktime.datasets导入加载\基本\运动
从sktime.transformers.series_as_features.compose导入列串联器
从sklearn.model\u选择导入列车\u测试\u拆分
控件=[
“\u clean\u control01.json”，
“\u clean\u control02.json”，
“_clean_control03.json”，
]
exp=[
“_clean_exp01.json”，
“_clean_exp02.json”，
“_clean_exp03.json”，
]
测试集={
“控制”：控制，
“exp”：exp
}
map_实验={
“控件”：0，
“经验”：1
}
标准化_数据={
“控制”：[]，
‘exp’：[]
}
实验=pd.DataFrame（）
标签={'exp'：[]}
对于测试集中的实验：
文件=测试集[实验]
arr=标准化的_数据[实验]
对于文件中的文件：
tmp=pd.read\u json（文件）
experiments=experiments.append（tmp，ignore_index=True）
label=map\u实验[实验]
标签['exp'].附加（标签）
标签=pd.DataFrame（标签）
十、 y=实验、标签
X_列车，X_试验，y_列车，y_试验=列车试验(
十、 y，无序排列=错误，分层=无）
打印（X_train.shape，y_train.shape，X_test.shape，y_test.shape）
打印（X_train.head（））
np.唯一（y_列车）
clf=列集合分类器（估计器=[
（“TSF0”，TimeSeriesForestClassifier（n_估计量=100），[0]），
（“BOSSEnsemble3”，BOSSEnsemble（最大集合大小=5），[3]），
])
clf.fit（X_系列、y_系列）
打印（clf.分数（X_测试，y_测试））

我很难找到如何构建数据帧的信息，其中每一行表示一个编码或未编码的JSON或CSV列表，或者表示没有时间戳的时间序列的其他对象。我看到一些例子，其中JSON被编码为数字键，而其他的则是字符串。到目前为止，我找不到任何东西可以帮助我在一系列文件上使用这些列表构建数据框。

结果我在数据框中查找嵌套ndarray，如下所示：

experiments=pd.DataFrame（['exp']）
对于文件中的文件：
tmp=pd.read_json（file.to_numpy（））
experiments=experiments.append（{'exp'：tmp}，ignore_index=True）

请注意，您也可以将3d numpy数组与形状一起使用

（n_实例、n_变量、n_时间点）

@mloning请发布一个示例，并允许我接受正确的结果answer@aug2aug我不确定该发布什么样的示例，因为在你的问题中没有任何玩具数据可供使用