Python sklearn集群：在大型数据集上确定最佳集群数量的最快方法_Python_Scikit Learn_Cluster Analysis_Data Mining_Bigdata - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/json/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python sklearn集群：在大型数据集上确定最佳集群数量的最快方法_Python_Scikit Learn_Cluster Analysis_Data Mining_Bigdata - Fatal编程技术网

Python sklearn集群：在大型数据集上确定最佳集群数量的最快方法

python scikit-learn

Python sklearn集群：在大型数据集上确定最佳集群数量的最快方法,python,scikit-learn,cluster-analysis,data-mining,bigdata,Python,Scikit Learn,Cluster Analysis,Data Mining,Bigdata,我在python中使用和from sklearn来计算集群，但是在>1000集群的>10.000个样本上，计算剪影_分数非常慢是否有一种更快的方法来确定最佳集群数量或者我应该改变聚类算法吗？如果是，对于样本数大于300.000且有大量聚类的数据集，哪种算法最好（也是最快的）最常用的求聚类数的方法是肘部曲线法。但需要多次运行KMeans算法来绘制图形。wiki页面提到了一些确定集群数量的常用方法。轮廓分数，而其中一个更具吸引力的指标是iw O（n^2）。这意味着，计算分数比计算k-means

我在python中使用和from sklearn来计算集群，但是在>1000集群的>10.000个样本上，计算剪影_分数非常慢

是否有一种更快的方法来确定最佳集群数量

或者我应该改变聚类算法吗？如果是，对于样本数大于300.000且有大量聚类的数据集，哪种算法最好（也是最快的）

最常用的求聚类数的方法是肘部曲线法。但需要多次运行KMeans算法来绘制图形。wiki页面提到了一些确定集群数量的常用方法。

轮廓分数，而其中一个更具吸引力的指标是iw O（n^2）。这意味着，计算分数比计算k-means聚类要昂贵得多

此外，这些分数只是试探法。它们无论如何都不会产生“最优”集群。他们只给出了一个关于如何选择k的提示，但是很多时候你会发现其他k更好！因此不要盲目地相信这些分数
你也可以使用一种不需要聚类数作为输入的算法。DBSCAN或HDBSCAN应该可以很好地扩展到您的数据集大小。是否有一种方法可以使用弯肘曲线方法自动找到集群数量？据我所知，一个程序应该能够提供基于弯肘曲线启发式的集群数量。

[scikit learn]相关文章推荐

Scikit learn 交叉验证后，是否可以在新的测试集上使用估计器预测？ scikit-learn

Scikit learn 如何将保存的scikit学习模型从版本0.15.2升级到版本0.16.1？ scikit-learn

Scikit learn 在ipython/Jupyter笔记本中导入scikit学习 scikit-learn

Scikit learn 导入错误：无法导入名称'；相互信息分类'； scikit-learn

Scikit learn 利用sklearn的id3算法训练决策树 scikit-learn

Scikit learn 线性判别分析要求 scikit-learn

Scikit learn 使用sklearn时的精度和召回错误 scikit-learn

Scikit learn train_test_split函数是否保持了类之间的平衡 scikit-learn

Scikit learn 我想在时间序列数据中处理PCA。样本数据格式附在这里。总数据大小为40列40行 scikit-learn

Scikit learn 为什么n-gram范围去掉了中性标记和概率？ scikit-learn nlp google-colaboratory

Scikit learn sklearn'中使用的决策函数是什么；s支持向量机 scikit-learn

Scikit learn 多类别分类的可视化预测概率 scikit-learn

Scikit learn 与数据科学相关：单位销售日预测问题 scikit-learn

Scikit learn 为什么精确性和召回率的价值与代表性不足阶层的精确性和召回率几乎相同 scikit-learn

随机文章推荐

[python]相关推荐

导入代码时删除python QT基础对象
Python Qt

Python 停止Tkinter菜单自动运行命令
Python Python 3.x Tkinter

在Python中插入另一个字符代替空格
Python String

如何从C++；使用boostpython创建python并返回修改后的python？
Python

Python 字符串中第二个重复字符的索引
Python String

Python、图像压缩和多处理
Python Imagemagick

Python 如何使用熊猫删除数字中2个小数点中的1个
Python Pandas Dataframe

Python 从namedtuple（）派生类处理属性
Python Inheritance

Python SQLAlchemy：对查询对象调用list（）时会发生什么？
Python Mysql Sql Sqlalchemy

Python 以10为基数的int（）的文本无效：'；q'；
Python

Python时钟闪烁[Pygame]
Python

Python scikit学习中具有自身距离函数的k-NN算法
Python Machine Learning Scikit Learn

从python调用宏时如何停止pop
Python Excel Macros

Python 只对形状的内部着色
Python Algorithm Numpy Machine Learning Computer Vision

Python 3.5在简单算法中有效使用字典
Python Dictionary

如何在python中将lxml etree列表保存为csv
Python Json Csv Xpath

Python-使用get_wch或getkey读取特殊密钥
Python

Python、OpenCV和扫描图像上的矩形
Python Opencv

Python 解包结构（…）在x64机器上的工作方式不同
Python Struct

2d数组中的Python索引错误
Python

使用DataNitro，如何将python循环打印到excel，确保打印23行后，打印移动到相邻列？
Python Excel

对Python中的n个项应用帕累托概率
Python Numpy

Python 删除numpy数组（矩阵）中的行：如果列j中的值等于k，则删除前面的k行
Python Numpy

Python datetime：为datetime之后的第一个日期找到正确的年份
Python Python 3.x Pandas Datetime Dataframe

Python assert pytest命令已运行
Python

Python PySpark-如何从TrainValidationSplit获得精度/召回率/ROC？
Python Machine Learning Pyspark

Update语句在使用python的sqlite3上不起作用
Python Python 3.x Sqlite

Python 如何使用df.rename？
Python Pandas

Python 解析链接时给出重复结果的脚本
Python Python 3.x Web Scraping

Python 为什么使用scipy.io.savemat获取一行和一列，而不是两列
Python Matlab

Tags

Junit Editor Configuration Streaming Shopify Localization Ios7 Keras Pandas Here Api Biztalk Prometheus Sms Snowflake Cloud Data Platform Xml Vbscript Content Management System Less Hibernate Sencha Touch Swift Dojo Odata Twitter Parallel Processing Sprite Kit Data Binding Interface Artifactory Elm Drupal Keyboard Cmd Abap Unicode Responsive Design Flutter Smtp Design Patterns Jvm Linq To Sql Nhibernate Jetty Java Me Serial Port Eclipse Plugin Robotframework Date .htaccess Graph Selenium Db2 Pascal Algorithm Dll Matplotlib Xpath Ruby On Rails 4 Blackberry Spring Boot Compilation Dependency Injection Machine Learning Clojure Graphql Powershell Project Management Next.js Download Gradle Prolog Teradata Web Crawler Stanford Nlp Moodle Continuous Integration Ravendb Titanium Spring Jsf 2 Coding Style Grafana Bluetooth Dotnetnuke Angular Formatting Events Twilio Knockout.js Tabs Sql Server 2012 X86 Model R Class Ldap Tfs Pip Reporting Services Rss Jhipster Firefox Addon Generics Grails Canvas Jupyter Notebook Winforms Teamcity Automated Tests Dictionary Xpages Meteor .net Oracle10g Visual Studio 2015 Asp.net Mvc Twitter Bootstrap 3 Snmp Javafx Google Chrome Devtools Breeze Jar Activemq Search Websocket Ruby On Rails 3.1 Debian Pentaho Api Pycharm Omnet++ Composer Php Swift2 Character Encoding Uiview Curl Kibana Hyperledger Fabric Jsp Oracle11g .net 4.0 Openshift 3d Functional Programming Autocomplete Paypal Opengl Maven Struts2 Terraform Nest Extjs4 Zend Framework Google Maps Api 3 Plugins Multithreading Symfony Dns Amazon Dynamodb Discord.py Compression Mpi Architecture Asp.net Core Url Computer Vision Silverstripe Angularjs Amazon Cloudformation Rx Java Process D File Upload Swift3 Doctrine Orm Azure Functions Julia Ecmascript 6 Visual Studio 2013 Hive Bison Google Visualization Activerecord Iphone Gwt Youtube Function Oauth 2.0 Web Scraping Odoo Ignite Merge Gatsby Node.js Azure Data Factory Grep Oracle Apex Jquery Mapping Push Notification C++11

Copyright © 2024. All Rights Reserved by - Fatal编程技术网