Python 为kmeans scikit堆叠3个变量_Python_Machine Learning_Scipy_Scikit Learn_K Means - Fatal编程技术网

Python 为kmeans scikit堆叠3个变量

python machine-learning scikit-learn

Python 为kmeans scikit堆叠3个变量,python,machine-learning,scipy,scikit-learn,k-means,Python,Machine Learning,Scipy,Scikit Learn,K Means,我有3个变量，我想适合kmeans模型。一个是TFIDF向量，一个是计数向量，第三个是文档中的字数（句子列表）这是我的密码： vectorizer=TfidfVectorizer(min_df=1, max_df=0.9, stop_words='english', decode_error='ignore') vectorized=vectorizer.fit_transform(sentence_list) count_vectorizer=CountVectorizer(min_df=

我有3个变量，我想适合kmeans模型。一个是TFIDF向量，一个是计数向量，第三个是文档中的字数（句子列表）

这是我的密码：

vectorizer=TfidfVectorizer(min_df=1, max_df=0.9, stop_words='english', decode_error='ignore')
vectorized=vectorizer.fit_transform(sentence_list)

count_vectorizer=CountVectorizer(min_df=1, max_df=0.9, stop_words='english', decode_error='ignore')
count_vectorized=count_vectorizer.fit_transform(sentence_list)

sentence_list_len # for each document, how many words are there

km=KMeans(n_clusters=num_clusters, init='k-means++',n_init=10, verbose=1)
km.fit(vectorized)

如何将3个变量拟合到km.fit中？具体来说，我如何将这三个向量堆叠起来，并将其馈送到km.fit（）？

只需将向量串联起来即可。请参见

numpy.concatenate

或

numpy.vstack

/

numpy.hstack

。但是，请注意，kmeans在高维数据中无法正常工作，并且可能会忽略“小”特征。您有三种不同比例的特征，这将严重影响聚类结果。一般来说，kmeans不是NLP群集任务的好方法。
官方方法是使用：

这与您使用hstack的示例有何不同？没有大的区别。在这里你加入变换矩阵，在这里你直接使用矢量器。这也可以在管道中使用，因此更易于使用，例如在CrossValidation中。我当时还认为，由于你还在学习，最好能看到幕后发生了什么。
from sklearn.pipeline import FeatureUnion tfidf =TfidfVectorizer() cvect = CountVectorizer() features = FeatureUnion([('cvect', cvect), ('tfidf', tfidf)]) X = features.fit_transform(sentence_list)

[machine learning]相关文章推荐

Machine learning 感知器学习 machine-learning neural-network

Machine learning 超平面和平面的区别是什么？为什么超平面用方程w^T+来表示；b=0？ machine-learning

Machine learning 加权储层采样的测试用例 machine-learning

Machine learning 如何从CountVectorizer过滤特征？ machine-learning scikit-learn

Machine learning 多标签多类SKlearn中多估计量的组合 machine-learning computer-vision scikit-learn

Machine learning 按weka分类数据集（stringToWord）过滤器 machine-learning

Machine learning 什么时候可以使用无标度神经网络？ machine-learning neural-network

Machine learning 如何对张量/向量的元素应用更改而不更改其引用？ machine-learning lua neural-network

Machine learning 每种类型的神经网络（RNN、CNN、LSTM等）的优势在哪里？ machine-learning neural-network deep-learning

Machine learning 使用ML/NLP识别电子邮件中提到的人 machine-learning nlp

Machine learning Tensorflow训练被系统杀死 machine-learning tensorflow virtual-machine virtualbox

Machine learning 认知服务API machine-learning

Machine learning 不同序列长度输入的递归神经网络 machine-learning neural-network keras

Machine learning 如何对数字标记形式的文本数据应用分类算法？ machine-learning

Machine learning 带交叉验证的递归特征消除 machine-learning

Machine learning cnn数字识别中的预测误差 machine-learning keras neural-network

Machine learning 如何计算单个CNN层中的权重数和偏差值？ machine-learning neural-network

Machine learning 评价CNN模型在多类图像分类中的应用 machine-learning computer-vision pytorch artificial-intelligence

Machine learning 如何在写入Tif时将RasterFrameLayer转换为光栅时修复NPE？ machine-learning

Machine learning 在构建决策树的过程中。为什么信息增益最高的属性将用作根节点？ machine-learning

随机文章推荐

Types 这种模式似乎详尽无遗，但我'；我仍然收到警告 types recursion sml

Types Scheme中类型的确切术语 types lisp scheme

Types PowerBuilder存在长、长、整数、十进制和十进制数据类型的问题 types

Types 方法的可空返回类型 types

Types golang类型转换未按（I）预期工作 types go

Types 为什么我可以键入别名函数并在不强制转换的情况下使用它们？ types go

Types 实体端口中的VHDL数组类型 types vhdl

Types 无法在类型化表DB2上定义主键 types db2

Types 类型脚本类接口定义 types typescript

Types 什么是OCaml'；s"；地面强制；？ types ocaml

Types 简洁的属性类型 types mapping

Types 在ML中，空列表的类型是什么？ types sml

Types '；真正意义上的国际'；和'；雷亚尔'；在伊莎贝尔？ types isabelle

Types 在Agda中使用字符串作为键的映射？ types module functional-programming

Types 整数数据类型的XSD空值 types xsd

Types 是否有任何JavaScript库可以向Hyperapp添加类型安全性？ types elm

Types Fortran don'中的子程序；不认识类型 types fortran

Types 是否可以将闭包分配给impl Fn（）类型的变量？ types rust

Types 如何正确指定可调整向量的元素类型 types common-lisp

Types dafny错误是什么；类型错误不匹配（函数期望H，得到H）“；什么意思？ types

[python]相关推荐

在用户本地（virtualenv、pip、distribute）中混淆Python安装
Python Installation Pip

如何更换大海捞针的第n个外观？（Python）
Python Regex Replace

Python openofficecalc中的排序算法
Python Algorithm Sorting

使用ctypes从Python调用lame_enc.dll
Python

Python 哪种策略最好：将一个值保存为字段，还是仅使用一种方法计算它
Python Mysql Django

编译器可以'；我找不到Python.h
Python Compilation

用Python计算位置数据的K-means聚类
Python Scikit Learn

Python “返回线”和“返回线”之间的区别`
Python Matplotlib

Python 如何在列表中查找已定义的序列？
Python List Python 2.7

如何通过SSH将密码作为参数传递给Python脚本？
Python Security Ssh

Python 提取3d numpy数组的某些列
Python Numpy

Python 合并熊猫中的两个数据帧
Python Csv Pandas Merge

Python openpyxl导致excel中现有数据验证丢失
Python Excel Python 2.7 Python 3.x

Python 数据帧中列表中的类别
Python Pandas Lambda

Python Odoo安装''；错误：[Errno 98]地址已在使用中''；
Python Odoo

Python 根据大小对组进行排序
Python Pandas Numpy Dataframe

Python 使用matplotlib保存地物时出现Xticklabel问题
Python Python 3.x Matplotlib

在Python 3.7上安装Python.net时出错
Python .net Installation

Python 取消Pivot数据帧并加入pandas
Python Pandas Dataframe Join

Python 有关sys.getrefcount的详细信息（a）
Python

本地主机上的Python计算器-获取结果时出现意外结果
Python

Python Visual Studio不使用当前的PTVSD版本安装程序
Python Visual Studio 2017

在python中覆盖两个单独的直方图
Python Dataframe Matplotlib

Travis CI:暂时切换到python 3
Python

Python 将字典值映射到数据帧时出错
Python Pandas Dataframe Dictionary

Python 使单元格适合文本（并使其只读）
Python Python 3.x Tkinter

在python中如何替换稀疏csr_矩阵中的nan
Python

Python 使用分隔符将文本添加到不同的列中
Python Regex Excel Pandas Dataframe

Python 在Django的一个视图中访问两个应用程序
Python Django Django Models

Python日期时间字符串%s（小写）的作用是什么？
Python Datetime

Tags

Streaming Collections Typo3 Mule Bash Object Tabs Linker Grep Data Binding Mysql Laravel Web Scraping Jar Model View Controller Air Pdf Activerecord Sphinx Struct Sas Azure Functions Netty Lucene Exception Handling Gatsby Soap Corda Csv Sails.js Types Parameters Telegram Aframe Jquery Plugins Ignite Haskell Groovy Windows Phone 7 Orientdb Sharepoint 2013 Objective C Bots Woocommerce Scala Tensorflow Bluetooth Coldfusion Http Ms Word Libgdx Processing Plone Virtualbox Jaxb Permissions Image Processing Jsf Aws Lambda Hyperlink Verilog Authentication Laravel 4 Javascript Active Directory Google Calendar Api Couchbase Image Clearcase Github Visual C++ Lua Octave Drools Discord.js Wolfram Mathematica Embedded Web Applications Pandas Gulp Iframe Vb.net Discord.py Firebase Jpa Signalr Apache Spark Testng Mvvm Jhipster Swing Material Ui Logging Data Structures Go Mapping Imagemagick Quickbooks Path Pentaho .net Ipad Leaflet Webpack Openssl Asp.net Core Mvc Jms Oracle10g Concurrency Shiny Matrix Spring Batch Nhibernate Combobox Xpages Sql Server 2008 Android Studio Entity Framework Core Cordova Hyperledger Fabric Backbone.js Knockout.js Aurelia Fullcalendar Asp.net Mvc 5 Random Ldap Yii Excel Formula Django Models Hive Sublimetext2 Vagrant Computer Vision Documentation Design Patterns Jmeter Gmail Delphi Tkinter Ssis Date Unix Android Emulator Wpf Machine Learning Weblogic Extjs4 Loopbackjs R Big O Indexing Entity Framework 4 Single Sign On Azure Ad B2c Sql Server 2005 Visual Studio Apache Flink Cobol Dll Spring Cloud Session Colors Java 8 Jersey Plsql Nestjs Sharepoint Tree Eclipse Plugin Aem Arangodb Layout Keyboard Outlook Xmpp Rspec Instagram Webgl Android Fragments Curl Jquery Ui Yaml Google Cloud Firestore Navigation Xsd Firefox Asp.net Mvc 2 Jquery Vuejs2 Tfs Google Cloud Platform Airflow Process Webview Ant Loops Video Visual Studio 2013 Sdk Gis

Copyright © 2024. All Rights Reserved by - Fatal编程技术网