Hadoop 基于MapReduce的聚类设计_Hadoop_Mapreduce_Cluster Analysis_Data Mining_K Means - Fatal编程技术网

Hadoop 基于MapReduce的聚类设计

hadoop mapreduce

Hadoop 基于MapReduce的聚类设计,hadoop,mapreduce,cluster-analysis,data-mining,k-means,Hadoop,Mapreduce,Cluster Analysis,Data Mining,K Means,我得到了这样一个相似性矩阵：ItemA，ItemB，相似性我希望它通过使用MapReduce使用Kmeans等算法对数据集进行聚类。但是我不知道我应该使用多少MapReduces以及如何设计它们。您不能将k-means与相似矩阵一起使用。故事的结尾：k-means需要与方法相似，而不是实例之间的相似。但也有其他的算法。不幸的是，例如PAM的扩展性非常差，在集群上运行它也没有什么好处除此之外，只是实验。例如，选择尽可能多的内核；并选择尽可能多的映射器（除非您的数据太小，否则每个映射器应该有几M

我得到了这样一个相似性矩阵：

ItemA

，

ItemB

，

相似性

我希望它通过使用

MapReduce

使用

Kmeans

等算法对数据集进行聚类。但是我不知道我应该使用多少

MapReduce

s以及如何设计它们。

您不能将k-means与相似矩阵一起使用。故事的结尾：k-means需要与方法相似，而不是实例之间的相似。但也有其他的算法。不幸的是，例如PAM的扩展性非常差，在集群上运行它也没有什么好处
除此之外，只是实验。例如，选择尽可能多的内核；并选择尽可能多的映射器（除非您的数据太小，否则每个映射器应该有几MB的空间，以使启动成本得到回报）

但我认为你还没有准备好回答这个问题。首先要弄清楚你想做什么，然后如何设置可能会出现或根本不会出现的参数。
听起来你是在找教程，而不是问一个特定的问题。你的数据看起来怎么样？你有相似性矩阵还是原始数据？你的目标是什么？您想要群集什么？你提到K-Means，你知道你想要多少个中心吗？如果不是，您知道在运行K-Means之前是否需要分区算法吗？如果是，哪一个？你在网上读过那些东西吗？您想使用任何有助于您的框架吗？你所说的
多个MapReduces
是什么意思？这个问题太不清楚了，我很惊讶你能为此获得更多的选票。

[mapreduce]相关文章推荐

Mapreduce 映射器、还原器、过滤器 mapreduce filter

Mapreduce 失败的任务和终止的任务尝试之间的区别？ mapreduce

Mapreduce 什么是；RDD可以存储在内存中”；你的意思是火花？ mapreduce apache-spark

Mapreduce 如何在Cloudant map/reduce中进行基本索引和？ mapreduce

SutieScript RESTlet'；缺少必需的参数：MapReduceScriptTask.scriptId'； mapreduce netsuite

随机文章推荐

Pascal写入失败 pascal

Pascal 如何写入文件开头并插入而不是覆盖数据？ pascal

用pascal寻址ISA卡 pascal

Pascal 帕斯卡条件的问题 pascal

Pascal 与数字的互动真的很奇怪 pascal

如何在Pascal中获取枚举类型中的项数？ pascal

如何用pascal写一个数的倒数？ pascal

[hadoop]相关推荐

Hadoop基本示例WordCount
Hadoop

hadoop多输入失败，ClassCastException
Hadoop

Hadoop libjar的位置
Hadoop

Hadoop 映射任务写入配置单元临时文件夹时权限被拒绝
Hadoop Hive

Hadoop:AWS EMR作业中的输入和输出路径
Hadoop Amazon Web Services Amazon S3

无法加载hadoop fs
Hadoop

Hadoop 迪克斯特拉'；s最短路径算法回溯？
Hadoop Mapreduce

Hadoop MapReduce log4j-将消息记录到userlogs/job_uu目录中的自定义文件？
Hadoop Mapreduce Log4j

使用分布式缓存访问Hadoop中的Maxmind Geo API
Hadoop Mapreduce

Hadoop 如何将一个包含许多贴图的元组拆分为不同的行
Hadoop Dictionary Apache Pig

Hadoop 如何将数据加载到hbase中
Hadoop Hbase

Hadoop 用于收集系统日志数据的水槽
Hadoop

Hadoop MapReduce全局计数器
Hadoop Mapreduce

Hadoop 猪场内的拆分字符
Hadoop Apache Pig

具有流的Hadoop全局变量
Hadoop

hadoop 1.x端口列表-还有4个未知端口
Hadoop Networking Mapreduce

如何检查hadoop服务器名称？
Hadoop

Hadoop 每小时将推文保存到单个FlumeData文件的flume.conf参数应该是多少？
Hadoop

Hadoop与JDK的兼容性
Hadoop Apache Spark

Hadoop/Pig中的匹配过滤
Hadoop Apache Pig

Hadoop Hbase mapreduce：根据日期从Hbase检索行
Hadoop Mapreduce Hbase

关于单词计数示例，map reduce并行处理在hadoop中究竟是如何工作的？
Hadoop Mapreduce

Hadoop 从EclipseIDE提交远程spark作业，获取paranamer错误
Hadoop Apache Spark

hadoop中的Jobtracker未运行
Hadoop Cygwin

Hadoop 为HDInsight HDP群集安装色调
Hadoop

Hadoop 退出代码和退出状态在spark中是否有意义？
Hadoop Apache Spark Pyspark

Hadoop 来自Kafka的Spark streaming返回本地的结果，但不处理纱线
Hadoop Apache Spark

Hadoop 是否可以将clickhouse数据存储配置为hdfs
Hadoop

Hadoop 时间戳列未解释HDP3.1中ORC文件的正确值
Hadoop Hive

Hadoop HDFS NFS位置使用奇怪的数字用户名值作为目录权限
Hadoop

Tags

Joomla Android Fragments E Commerce Mapreduce Nativescript Titanium Encoding Openid Processing Wso2 Graphql Ibm Cloud Tkinter Stata Merge Playframework Drupal 6 Llvm Computer Science Plone Apache Camel Symfony1 Text Entity Framework Core Ios7 Ruby On Rails Discord Ios5 Jsf 2 Amazon S3 Powerbi Openerp Design Patterns Netty Internationalization Tridion Command Line Neo4j Iis Phantomjs Machine Learning Arrays Laravel 4 Woocommerce Rspec Sencha Touch Vb6 Gnuplot File Extjs4 Omnet++ Gps Join Cocos2d X Mercurial Express Enums Makefile Jpa Spring Security Google Compute Engine Path Windows Phone 7 Cloud Mqtt Sencha Touch 2 Ionic2 Sass Linux .htaccess Magento2 Racket Jsf Browser Sockets Coq Jdbc Stm32 Jupyter Notebook Dependencies Autohotkey Azure Data Factory Dependency Injection Pagination Sap Performance Silverlight Inheritance Opengl Colors Unity3d .net Core Floating Point Udp Applescript Gwt Office Js Flash Protractor Orchardcms Ssas Reporting Services Polymer Cmd Apache Ruby On Rails 4 Tree Airflow Active Directory Matrix Cocos2d Iphone Discord.py Operating System Windows Mobile Jsp Windbg Symfony Telerik Amazon Web Services Jira Entity Framework Axapta Flask Cocoa Silverstripe Objective C Liferay Datatables Google Cloud Dataflow Data Structures Crystal Reports Cloud Foundry Multithreading Cron Uiview Sonarqube Jquery Yii2 Search Gmail Debian Sbt Python Sails.js Sml Optimization Odata Grep Notifications Bootstrap 4 Seo Gtk Clang Google Sheets Weblogic C# 3.0 Npm Binary Graphviz If Statement Ibm Mq Virtualbox Gis Playframework 2.0 Aframe Openssl Mips Checkbox Qt Botframework Google Calendar Api Apache Storm Oracle10g Macros Eclipse Plugin Backbone.js Vim Project Management Tabs Cobol Google Analytics Server Kdb Perl Internet Explorer 8 Twilio Dataframe Cygwin Audio Bash Artificial Intelligence Clearcase Google Drive Api Chart.js C++ Dom Methods Xmpp Eclipse Rcp Video Swiftui

Copyright © 2024. All Rights Reserved by - Fatal编程技术网