Python 为什么我的文本聚类会这样做_Python_Scikit Learn_Cluster Analysis_K Means_Tf Idf - Fatal编程技术网

Python 为什么我的文本聚类会这样做

python scikit-learn

Python 为什么我的文本聚类会这样做,python,scikit-learn,cluster-analysis,k-means,tf-idf,Python,Scikit Learn,Cluster Analysis,K Means,Tf Idf,我有一个带有产品名称的未标记数据集。例如，棒球衫、棒球夹克、活跃的经典拳击手等我用数据创建了一个tf idf矩阵，然后在矩阵上运行k-means。我绘制了一个簇内平方和图，以找到最佳k值，即5 聚类后，我计算出文档之间的余弦相似性 # cosine similarity between each document from sklearn.metrics.pairwise import cosine_similarity dist = 1.0 - cosine_similarity(tfidf

我有一个带有产品名称的未标记数据集。例如，棒球衫、棒球夹克、活跃的经典拳击手等

我用数据创建了一个tf idf矩阵，然后在矩阵上运行k-means。我绘制了一个簇内平方和图，以找到最佳k值，即5

聚类后，我计算出文档之间的余弦相似性

# cosine similarity between each document
from sklearn.metrics.pairwise import cosine_similarity
dist = 1.0 - cosine_similarity(tfidf_matrix)
print dist

然后，我在dist上使用MDS将其缩小为二维，这样我就可以绘制集群

from sklearn.manifold import MDS
mds = MDS(n_components=2, dissimilarity="precomputed", random_state=1)
xs, ys = pos[:, 0], pos[:, 1]

除了周长外，聚类图看起来还不错。它这样做有什么原因吗？其余的集群似乎围绕着一个类似的区域

TF-IDF仅适用于长文本
正因为如此，几乎每个文档都与其他文档完全不同，它们是这样“扇出”的

我怀疑k-means是否有效。
那么这是否意味着那些不在圆周上的不是完全不同的，是长文本？研究它们，你有数据。我假设这里的大多数文本与任何其他文本完全不同，因此可视化尝试将它们均匀地隔开（“统一”）。为了让TF-IDF工作得更好，你的文本应该有100多个单词！

[scikit learn]相关文章推荐

Scikit learn 您能否从Scikit分类器中提取评分算法并将系数加载到Oracle中？ scikit-learn

Scikit learn 矢量器（散列、计数等）：在fit_变换后重用 scikit-learn

Scikit learn 如何使用ML sklearn管道进行预测？ scikit-learn

Scikit learn 在一个网格搜索中尝试多个估计器 scikit-learn

Scikit learn scikit学习具有大量样本/小批量的SVM是否可行？ scikit-learn

Scikit learn 带ransacregrator的多项式的极限允许值 scikit-learn

Scikit learn sklearn SGDClassizer can'；停不下来 scikit-learn

Scikit learn 对于一个VSRESTClassifier中的多个类，分类器的参数是否可以不同 scikit-learn

Scikit learn Scikit学习小批量tfidf矢量器？ scikit-learn

Scikit learn 基于scikit学习的多标签预测 scikit-learn

Scikit learn 如何修复raspberry pi上python 3.5中sklearn包中的ImportError:Undefined符号 scikit-learn raspberry-pi

Scikit learn sklearn.linear_model.SGDClassizer使用对数损失函数运行时间很长 scikit-learn

Scikit learn 如何使用Sklearn线性回归与doc2vec输入 scikit-learn

Scikit learn t-SNE使用土方机距离度量 scikit-learn

Scikit learn 超参数优化会产生更糟糕的结果 scikit-learn

Scikit learn LabelEncoder（）如何对值进行编码？ scikit-learn

Scikit learn 了解onehotencoder的工作原理-为什么我会在ohe专栏中看到多个？ scikit-learn

Scikit learn 如何限制sklearn中岭回归模型使用的处理器数量？ scikit-learn

Scikit learn “是什么意思？”；“价值”；在sklearn decisiontree plot_树的节点中 scikit-learn

Scikit learn pickle.load（）-TypeError:需要一个整数（获取类型字节） scikit-learn

随机文章推荐

Html5 canvas 使用音频及时更改文本（或其他元素）颜色 html5-canvas

Html5 canvas 在Android浏览器中禁用html5 canas上2d渲染的硬件加速 html5-canvas

Html5 canvas fabricjs如何将画布从一个页面传递到另一个页面 html5-canvas

Html5 canvas rgba（）在HTML5画布渐变中产生黑色色调 html5-canvas

[python]相关推荐

无法在Windows 7上的EnThound Corporation中查看python（vpython）
Python

Python jinja2自动逃生分机不工作
Python

Python 如何获取瓶子.py动态路径的URL？
Python

Python Pycco是否将doctest识别为代码？
Python

Python 如何检查某个帖子是否由列表中的当前用户投票
Python Django Django Models

Python Apache mod_wsgi崩溃
Python Apache

Python Matplotlib和非ascii字符
Python Unicode Matplotlib

Python 熊猫系列–；最后x行中的最小值
Python Pandas

Python 属性错误：'；模块'；对象没有属性'；连接'；
Python Python 2.7 Anaconda

Python 删除数据框中的行
Python Pandas

Python 如何以编程方式确定函数/内置/可调用参数的数量？
Python Python 2.7 Function Python 3.x

Python Task（）重新生成递归错误
Python Python 3.x

从python内部执行复杂的python脚本
Python

如何在python中识别不可打印的unicode字符
Python Regex Unicode Utf 8

Python 如何将元组中的字典列表转换为表格数据/数据帧？
Python Pandas Dictionary Dataframe

Python Django GEO MySQL查询错误：'；WKTAdapter'；对象没有属性'；翻译'；
Python Mysql Django Gis

在python中使用参数-值错误
Python

Python—为单个文件的每个部分编写单独的文件
Python Python 2.7 Parsing

Python 使用循环将两个熊猫系列按列附加到数据帧
Python Pandas

wxPython-特定参数更改时的绘图更新
Python Plot Wxpython

Python re.match递归调用内存泄漏
Python Regex Memory Leaks

在python中导入C dll函数
Python C Dll

Python 需要在特定参数下将数据帧提取到JSON文件
Python Json Excel Python 2.7 Pandas

Python WebApp在某些浏览器上出现调试错误
Python Django Deployment

Python numpy在cmd行中找到，但在脚本中找不到
Python Numpy Terminal Scripting

Python 如何使用.loc用groupby标记新列
Python Pandas

Python 在cytoscape网络中映射节点大小并添加图例
Python

Python LBFGS在pytorch中永远不会在大维度上收敛
Python Tensorflow Pytorch

如何在运行selenium-Python时从mac上的剪贴板粘贴文本
Python Python 3.x Selenium Selenium Webdriver

Python 视图状态、事件验证、事件目标和scrapy&；泼洒
Python Web Scraping Scrapy

Tags

D3.js Types Ssh Odata Indexing Import Corda C# 3.0 Oracle Apex Google Plus Google Analytics Dependencies Laravel 5 Ajax Discord.py Apache Flink Composer Php Qml Coq Sprite Kit Log4net Typescript Google Apps Script Kubernetes Kdb Dictionary Solr Orchardcms Redis Sockets Aframe Azure Cosmosdb Install4j Meteor Acumatica Amazon Web Services Web Scraping Opencv Reporting Services Eclipse Rcp Bash Eclipse Plugin Glassfish Notepad++ Azure Devops Statistics Llvm Encryption Model Vim Netlogo Tkinter Core Data Encoding Redux Sql Server Winapi Nlp Plot Subsonic Netbeans Drupal 6 Npm Error Handling Memory Floating Point Join Performance Search Intellij Idea Ionic2 Android Clearcase Rxjs Parallel Processing Android Fragments Microservices Node.js Parse Platform C# Printing Twitter Bootstrap Zend Framework Jetty Project Management Content Management System Menu Blockchain Google Maps Highcharts Checkbox Xna Post Caching Sails.js Automation Biztalk Apache Pig Canvas Apache Spark Raspberry Pi Scheme Sparql Vb.net Qt Compression Gradle Z3 Centos Xmpp Routes Isabelle Video Streaming Coldfusion Facebook Graph Api Hibernate Compiler Construction Yocto Html Shell Netsuite Jquery Adobe Cookies Asp.net EmptyTag Keycloak Dom Tcp Ios6 Single Sign On Windows Phone 8 Gwt Gis Ibm Mq Camera Cmd Cocoa Touch Odoo Mapping Gridview Jms Ethereum Laravel Microsoft Graph Api Text Linker Symfony1 Appium Polymer Matlab Blazor Selenium Webdriver Pascal Uitableview Frameworks Email Ios Redirect Replace Methods Sencha Touch Asp.net Mvc 3 Ant Ansible Openlayers 3 Sqlalchemy Logging File Actionscript 3 Flash Javascript Django Models Asterisk Mfc Django Rest Framework Dependency Injection Nest Com Editor Concurrency Google Compute Engine Windows Mobile Machine Learning Curl Java Ms Access Symfony Requirejs Linux Kernel Backbone.js Electron Gstreamer Cluster Computing Msbuild Sql Server 2008 R2 Cron Variables Spotify Google Chrome React Native

Copyright © 2024. All Rights Reserved by - Fatal编程技术网