Pandas 数据中没有字的计数向量器_Pandas_Scikit Learn - Fatal编程技术网

Pandas 数据中没有字的计数向量器

pandas scikit-learn

Pandas 数据中没有字的计数向量器,pandas,scikit-learn,Pandas,Scikit Learn,我是一个新的学习和计数矢量器我正经历着一些奇怪的行为初始化计数向量器 from sklearn.feature_extraction.text import CountVectorizer count_vect = CountVectorizer() document_mtrx = count_vect.fit_transform(df['description']) count_vect.vocabulary_ count_vect.vocabulary_ Out[28]: {u'view

我是一个新的学习和计数矢量器

我正经历着一些奇怪的行为

初始化计数向量器

from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
document_mtrx = count_vect.fit_transform(df['description'])
count_vect.vocabulary_
count_vect.vocabulary_
Out[28]:
{u'viewscity': 36216,
 u'sizeexposed': 31584,
 u'rentalcontact': 29104,
 u'villagebldg': 36323,

获取包含单词rentalcontact的行

df[df['description'].str.contains('rentalcontact')]

返回的行数为0。为什么会出现这种情况？

有一个参数

小写

，默认值为

True

——这很可能就是您找不到这些值的原因

所以试试这个：

df[df['description'].str.lower().str.contains('rentalcontact')]
#                        ^^^^^^^

更新：

词汇：听写

术语到特征索引的映射

u'rentalcontact'：29104
-表示
'rentalcontact'
在功能列表中有一个索引
29104

例如，
vectorizer.get\u feature\u names（）[29104]
应返回
'rentalcontact'
此术语出现的次数为29104。然而，当我运行最后一行代码时，它只返回1个结果。还有什么我遗漏的吗？@aceminer，AFAIK
29104
是排序功能列表中
rentalcontact
的索引。如何检查：
print（vectorizer.get\u feature\u names（）[29104]）
如何获取术语的频率？@aceminer，
document\u mtrx.sum（0）
-将为您提供所需的结果

[scikit learn]相关文章推荐

Scikit learn Scikit学习+；随机森林-单株树的特征 scikit-learn

Scikit learn SKCV：如何获取分类报告？ scikit-learn

Scikit learn 鼻测试-SKV学习失败 scikit-learn

Scikit learn sklearn如何计算光谱聚类的最近邻亲和矩阵？ scikit-learn

Scikit learn sklearn管道参数预测 scikit-learn

Scikit learn TruncatedSVD get_params（[deep]）真正做什么？ scikit-learn

Scikit learn 概率是如何在kNN算法中发挥作用的？ scikit-learn

Scikit learn OneHotEncoder值错误：找到未知类别 scikit-learn

Scikit learn GridSearchCV（）：ValueError:输入包含NaN、无穷大或对数据类型（'；float64'；）太大的值 scikit-learn

Scikit learn 将“XGBClassifier”包装为“OneVsRest”元估计器时提前停止 scikit-learn

Scikit learn 文本簇中的关键字数 scikit-learn

随机文章推荐

如何在imagemagick蒙太奇中按左下右上的顺序平铺 imagemagick

具有灰度图像和24位深度的Imagemagick imagemagick

ImageMagick-将XV/VIFF转换为BMP imagemagick

MAMP 3.x ImageMagick转换+；简介'*'；OSX 10.9.5上的测试内存不足 imagemagick

ImageMagick：使不同大小的图像浮动到顶部 imagemagick

如何通过imagemagick命令将Pdf转换为图像？ imagemagick

imagemagick裁剪在单页tif上创建多页tif imagemagick

如何使用imagemagick向照片添加说明？ imagemagick

Imagemagick 使用ImageMagic混合多个图像 imagemagick

ImageMagick脚本获取JPG并放置在画布上，但会更改JPG的颜色 imagemagick

Imagemagick 在2x2网格中蒙太奇3个图像，第一个在顶部中心（如“triforce”）？ imagemagick

在imagemagick中可以多次使用miff管道吗？ imagemagick

打印图像与imagemagick不同的像素值？ imagemagick

Imagemagick 将所有jpg图像转换为webp Magick imagemagick

imagemagick在不使用-extent的情况下将画布更改为方形（保留最长边） imagemagick

使用附加在imagemagick上时，两个图像之间出现黑线 imagemagick

Imagemagick 将过滤后的图像输出到新文件夹并重命名它们 imagemagick

[pandas]相关推荐

Pandas 按列数量读取变量列和行结构
Pandas

Pandas 是否在没有for循环的情况下更新面板内dataframe中的列？
Pandas

Pandas 如何用另一个dataframe重命名dataframe列？
Pandas

Pandas 在列行中仅保留空值
Pandas

Pandas 将bigquery数据加载到datalab
Pandas Google Bigquery

Pandas Pyspark数据帧到数据的转换？
Pandas Pyspark

Pandas 将函数应用于python中的两个数据帧（两个数据帧中的每一行的scipy.stats.spearmanr）
Pandas Dataframe

Pandas 如何在dataframe中删除具有重复行元素的列？
Pandas Dataframe

Pandas 为一个系列重新采样（）DataFrame，同时复制DataFrame中所有其他系列的值
Pandas

Pandas 比较numpy数组和数据帧中的值
Pandas Numpy Dataframe

Pandas 带负索引的数据帧索引
Pandas

Pandas 熊猫-按外貌顺序排列
Pandas

Pandas 根据列表中显示的值对df进行切片
Pandas

Pandas 如何将系列联接到数据帧：无法将非类别项追加到CategoricalIndex
Pandas

从pandas系列值创建pandas系列间隔
Pandas

Pandas 虚拟机（谷歌云平台虚拟机）中Panda_gbq导入错误
Pandas Google Cloud Platform Google Bigquery Virtual Machine

Pandas 不平衡学习：导入错误：无法导入名称'；多输出混合输入'；
Pandas Scikit Learn

Pandas 蟒蛇熊猫&x2B；命名的_位字段=>；嵌入式系统的内存映射熊猫在处理大数据方面有很大的灵活性命名的_bitfield（）能够处理位级字段
Pandas Dataframe

Pandas 如何按升序绘制滚动平均值
Pandas Matplotlib

使用Pandas groupby连接多行中的字符串，并从逗号分隔的单元格中删除重复项
Pandas

Pandas 如何将嵌套字典中的值映射到dataframe中的多个列
Pandas Dictionary

Pandas 更新模式随时间变化的拼花地板数据集
Pandas

Pandas 如何应用整列df.apply（pd.to_numeric）
Pandas

Pandas 熊猫：如何在时间序列中选择“熊猫”的行；迄今为止见过的最大的；？
Pandas

Pandas 我如何根据熊猫每个月的单价进行分组？
Pandas Dataframe

Pandas 如何获取熊猫的行总数
Pandas Dataframe

Pandas |在应用于| json时添加根节点
Pandas Amazon S3

Pandas 在分组数据帧上高效地创建多个滞后变量
Pandas

Pandas 根据上一行的值计算净值
Pandas Dataframe

如何通过pandas从OHLC数据中获得第一个15分钟的高点？
Pandas

Tags

Ms Access Sublimetext2 Select Utf 8 Modelica Design Patterns Postman Mapping Facebook Xamarin.ios Autohotkey Url Ruby Itext Dynamic Omnet++ Gwt Keyboard Emacs Rdf Graphics Ignite Google App Maker Pyspark Protractor Gridview Install4j Leaflet System Verilog Scroll Twilio Sql Server 2012 Doxygen Model Sas Fullcalendar Php Tsql Certificate Webpack Pytorch Azure Data Factory Automation Nativescript Wcf Pandas Symfony1 Air Dialogflow Es Spring Log4j Primefaces Node.js Visual Studio Code Symfony Drupal 7 Css Scikit Learn Google Maps Api 3 Soap Grails Asp.net Mvc Serialization Atom Editor Memory Management Mips Reference Odata Sql Server 2005 Eclipse Rcp Kendo Ui Excel Formula Variables Batch File Map Telegram Mpi Audio Struct Openlayers Sql Neural Network List Jquery Ui Mongoose Memory Leaks Networking Sequelize.js Xaml Printing Google Colaboratory Angular6 Nuget Jhipster Project Management Http Keycloak Requirejs Ruby On Rails 4 Search Sql Server 2008 Notifications Model View Controller Spring Integration Speech Recognition Phpstorm Dns Ipad Visual Studio 2017 Nestjs Network Programming Ipython Types Android Studio Microservices Influxdb Azure Cosmosdb Sml Sitecore Ssl Opencart Iis Visual C++ Tree Filesystems Security Ckeditor Teradata Animation Sockets Ffmpeg Nest Groovy Google Cloud Dataflow Ruby On Rails Akka Woocommerce Database Stata Erlang Oracle10g Neo4j Recursion Debugging Android Layout Discord.py Serial Port Discord.js Arrays Google Cloud Storage Gcc Isabelle Asp.net Lisp Anaconda Identityserver4 Loops React Native Centos Dataframe Jupyter Notebook Sass Opengl Domain Driven Design Macos Hazelcast Mariadb Parse Platform Flask Botframework Post Maven Hibernate Maven 2 Google Cloud Firestore Function C++ Amazon Redshift Google Drive Api Wpf Asp.net Web Api Crystal Reports Sbt Sprite Kit Web Swiftui Rally Class Jsp Google Apps Script Tcl Nsis Gruntjs Typo3 Libgdx Visual Studio 2012 Permissions Devexpress Jpa Parameters Encoding

Copyright © 2024. All Rights Reserved by - Fatal编程技术网