Python 不同建筑的能耗预测

Python 不同建筑的能耗预测,python,algorithm,machine-learning,Python,Algorithm,Machine Learning,我有一个数据集,你可以找到(更新的)文件,包含不同办公楼的许多不同特征,包括它们的表面积和在那里工作的人数。总共大约有200条记录。我想使用一种算法,可以使用上面的数据集进行训练,以便能够预测不在集合中的建筑物的耗电量(在“kwh”列中给出) 为了预测连续变量,我使用python中的scikit库(线性回归、Ridge、Lasso、SVC等)尝试了大多数可能的机器学习算法。表面积和工人数量与目标变量之间的coorrelation值在0.3-0.4之间,因此我假设它们是模型的良好特征,并将它们包括

我有一个数据集,你可以找到(更新的)文件,包含不同办公楼的许多不同特征,包括它们的表面积和在那里工作的人数。总共大约有200条记录。我想使用一种算法,可以使用上面的数据集进行训练,以便能够预测不在集合中的建筑物的耗电量(在“kwh”列中给出)

为了预测连续变量,我使用python中的scikit库(线性回归、Ridge、Lasso、SVC等)尝试了大多数可能的机器学习算法。表面积和工人数量与目标变量之间的coorrelation值在0.3-0.4之间,因此我假设它们是模型的良好特征,并将它们包括在模型的培训中。然而,我有大约13350个平均绝对误差和大约0.22-0.35的R平方值,这一点都不好

如果有人能给我一些建议,或者您能检查一下数据集并在其上运行一些算法,我将非常感激。我应该使用什么类型的预处理,什么类型的算法?数据集的数量是否太少,无法训练预测连续变量的回归模型


任何反馈都会有帮助,因为我是机器学习新手:)

在这类机器学习问题中,首先要做的是理解数据。是的,数据集中的要素数量很小,是的,数据样本的数量非常少,但重要的是尽我们所能利用我们所拥有的

数据集标题使用的语言不是英语,将其转换为社区中大多数人都能理解的语言(在本例中为英语)非常重要。在做了一些修改之后,我发现所使用的语言是荷兰语

数据集中缺少一些关键功能。从像大楼的楼层数这样明显的东西到像工作时间数这样不明显的东西。表面面积和工人数量在我看来是最重要的功能,但你错过了一个名为building_function的功能(在使用Google Translate后)告诉你建筑的用途。直觉上,这应该与功耗有很大的相关性。工业往往比普通家庭使用更多的电力。翻译后,我发现主要类型是住宅、办公室、住宿和会议。因此,必须将该特征编码为标称变量,以训练模型

hoofsbi的另一个特性似乎也有一些差异。但我不知道这一特征意味着什么


如果您可以翻译数据中的标题并共享它,我将能够为您提供一些代码来执行此回归任务。在这些任务中,了解数据是什么并执行特征工程是非常重要的。

您使用了哪种相关性?当我使用皮尔逊的时候,我没有得到超过0.5的值。很抱歉我在一个类似的文件中运行它。但是现在我又检查了一遍,我得到的是0.3-0.4。我将在描述中进行编辑这是您的整个数据集吗?如果是这样的话,它看起来很小conclusions@GauthierFeuillen对这是我们仅有的数据集。有可能做出这么多的预测算法吗?@greybeard请现在试试。嘿。谢谢你的回复。对不起,荷兰语,我已经更新了一个新的文件,其中包含了标题的翻译。至于hoofsbi,它是根据公司在荷兰的经济和金融活动对公司进行分类的标准代码。你可以在这里找到文件。