Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/339.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 具有4个参数的聚类和标记数据集_Python_Csv_Machine Learning_Classification - Fatal编程技术网

Python 具有4个参数的聚类和标记数据集

Python 具有4个参数的聚类和标记数据集,python,csv,machine-learning,classification,Python,Csv,Machine Learning,Classification,这是一个很难回答的问题,这是我第一次在“现实生活”中进行的机器学习实验 我有USPTO批量数据,在CSV文件中显示如下: Name Class Subclass Category Subcategory Lightpack circuitboard E 1 4 9 Lego blocks F 2 56 12 D/C connector

这是一个很难回答的问题,这是我第一次在“现实生活”中进行的机器学习实验

我有USPTO批量数据,在CSV文件中显示如下:

Name                     Class  Subclass  Category  Subcategory
Lightpack circuitboard   E        1         4       9
Lego blocks              F        2         56      12
D/C connector            E        3         4       1
Colorful dog hat         D        6         10      1
Grandma's shoes          D        2         11      1
Low temp resistor        O        2         4       10
我想要的是能够运行一个有监督的机器学习环境来对常见的对象进行分组(在我的实际数据中有很多,但这是一个简单的示例)。我希望能够在所有电子设备中找到一组通用的子类、子类,并将它们分组到一个电子设备“箱”(即:光包电路板、D/C连接器和低温电阻器),但我不确定如何继续

目前,我正在使用Python和sklearn进行更简单的建模,但不确定如何在给定的4个参数下进行测试和训练,并且我没有可比较的标记集(无验证)


创建一个伪标记集以使其受监督会更明智,还是有一种无监督的方法可以采用?正如我之前所说的,这是我在ML中的第一次真正的测试。

无监督算法是你需要去做的。()

这里您需要了解的关键概念是什么是以及如何计算它们。然后可以应用集群


你也可以阅读和使用它。您可能需要调整变量以使PCA正常工作。

无监督算法是您需要的。()

这里您需要了解的关键概念是什么是以及如何计算它们。然后可以应用集群


你也可以阅读和使用它。您可能需要调整变量以使PCA正常工作。

正如正确指出的,您可以使用任何聚类算法(K-means或其变体,分层聚类,EM算法。该过程遵循一种简单易行的方法,将数据点分类为一定数量的聚类。由于聚类数量未知,对于K-means,您可以尝试使用不同级别的K,并使用弯头方法选择一个最合适的,或者分层聚类将允许您找到最佳k

正如正确指出的,您可以使用任何一种聚类算法(K-means或其变体,分层聚类,EM算法。该过程遵循一种简单易行的方法,将数据点分类为一定数量的聚类。由于聚类数量未知,对于K-means,您可以尝试使用不同级别的K,并使用弯头方法选择一个最合适的,或者分层聚类将允许您找到最佳k

在我继续学习的同时,你能给我一些基本算法来帮助我开始这个过程吗?我发现从概念上我理解这些想法-这是一个将这些概念转化为实际代码的问题,我遇到了障碍。k-means本身就是一个基本算法,当涉及到无监督的learni时ng.你可以在互联网上找到它的实现。只是一个建议,学习单变量的k-均值,然后学习多变量。我相信这回答了你的疑问;如果没有,让我知道。在我继续学习的同时,你能给我一个提示来帮助我开始这个过程吗?我发现conceptually我理解这些想法-这是一个将这些概念转化为实际代码的问题,我遇到了障碍。K-means本身就是一个基本的算法,当涉及到无监督学习时。你可以在互联网上找到它的实现。只是一个建议,用单变量学习K-means,然后用多变量学习。我相信这就是答案你的怀疑;如果没有,请告诉我。