文本分析：使用python查找列中最常用的单词_Python_Pandas - Fatal编程技术网

文本分析：使用python查找列中最常用的单词

python pandas

文本分析：使用python查找列中最常用的单词,python,pandas,Python,Pandas,我创建了一个dataframe，其中只有一列带有主题行 df = activities.filter(['Subject'],axis=1) df.shape 此操作返回此数据帧： Subject 0 Call Out: Quadria Capital - May Lo, VP 1 Call Out: Revelstoke - Anthony Hayes (Sr Assoc... 2 Columbia Partners: WW Worked (Not Sure Will E

我创建了一个dataframe，其中只有一列带有主题行

df = activities.filter(['Subject'],axis=1)
df.shape

此操作返回此数据帧：

    Subject
0   Call Out: Quadria Capital - May Lo, VP
1   Call Out: Revelstoke - Anthony Hayes (Sr Assoc...
2   Columbia Partners: WW Worked (Not Sure Will Ev...
3   Meeting, Sophie, CFO, CDC Investment
4   Prospecting

然后，我尝试用以下代码分析文本：

import nltk
top_N = 50
txt = df.Subject.str.lower().str.replace(r'\|', ' ')
words = nltk.tokenize.word_tokenize(txt)
word_dist = nltk.FreqDist(words)

stopwords = nltk.corpus.stopwords.words('english')
words_except_stop_dist = nltk.FreqDist(w for w in words if w not in stopwords) 

rslt = pd.DataFrame(word_dist.most_common(top_N), columns=['Word', 'Frequency'])
print(rslt)

我得到的错误消息是：“Series”对象没有属性“Subject”

引发错误是因为您已将

df

转换为此行中的一个系列：

df = activities.filter(['Subject'],axis=1)

所以当你说：

txt = df.Subject.str.lower().str.replace(r'\|', ' ')

df是序列，没有序列属性。尝试替换为：

txt = df.str.lower().str.replace(r'\|', ' ')

或者，不要在之前和之后将数据帧过滤为单个系列

txt = df.Subject.str.lower().str.replace(r'\|', ' ')

应该有用

[更新]

我上面所说的是不正确的，正如前面指出的那个样，过滤器并没有返回一个序列，而是返回一个只有一列的数据帧

抛出错误是因为您已将

df

转换为此行中的一个系列：

df = activities.filter(['Subject'],axis=1)

所以当你说：

txt = df.Subject.str.lower().str.replace(r'\|', ' ')

df是序列，没有序列属性。尝试替换为：

txt = df.str.lower().str.replace(r'\|', ' ')

或者，不要在之前和之后将数据帧过滤为单个系列

txt = df.Subject.str.lower().str.replace(r'\|', ' ')

应该有用

[更新]

我上面所说的是不正确的，正如前面指出的那个样，过滤器并没有返回一个序列，而是返回一个只有一列的数据帧

数据：

主题
“呼叫：Quadria Capital-Lo May，副总裁”
呼叫：雷夫斯托克-安东尼·海斯（高级助理）。。。
哥伦比亚合作伙伴：WW成功了（不确定是否会。。。
会议，Sophie，CDC投资首席财务官
探矿
#读入数据
df=pd.read_剪贴板（sep='，'）

更新代码：

将所有单词转换为小写，并删除所有非字母数字字符
- ```
txt=df.Subject.str.lower（）
```


words=nltk.tokenize.word\u tokenize（txt）
，抛出一个TypeError
，因为txt
是一个系列。

下面的代码标记数据帧的每一行

对单词进行标记，将每个字符串拆分为一个列表
。在本例中，查看df
将显示一个tok
列，其中每一行都是一个列表


导入nltk
作为pd进口熊猫
顶部=50
#替换所有非字母数字字符
df['sub_rep']=df.Subject.str.lower（）.str.replace（'\W'，''）
#标记化
df['tok']=df.sub_rep.apply（nltk.tokenize.word_tokenize）



要分析列中的所有单词，将各个行列表合并为一个列表，称为单词

#将所有标记化单词添加到列表中
words=df.tok.tolist（）#这是一个列表列表
words=[列表中的单词对列表中的单词]
#频率分布
word_dist=nltk.FreqDist（单词）
#删除停止字
stopwords=nltk.corpus.stopwords.words（'english'））
文字（除停止文字外）=nltk.FreqDist（如果w不在停止文字中，则w代表文字中的w）
#输出结果
rslt=pd.DataFrame（最常见的单词（顶部），列=['word'，'Frequency']）

输出rslt：
数据：
主题
“呼叫：Quadria Capital-Lo May，副总裁”
呼叫：雷夫斯托克-安东尼·海斯（高级助理）。。。
哥伦比亚合作伙伴：WW成功了（不确定是否会。。。
会议，Sophie，CDC投资首席财务官
探矿
#读入数据
df=pd.read_剪贴板（sep='，'）


更新代码：

将所有单词转换为小写，并删除所有非字母数字字符

txt=df.Subject.str.lower（）


words=nltk.tokenize.word\u tokenize（txt）
，抛出一个TypeError
，因为txt
是一个系列。

下面的代码标记数据帧的每一行

对单词进行标记，将每个字符串拆分为一个列表
。在本例中，查看df
将显示一个tok
列，其中每一行都是一个列表

导入nltk
作为pd进口熊猫
顶部=50
#替换所有非字母数字字符
df['sub_rep']=df.Subject.str.lower（）.str.replace（'\W'，''）
#标记化
df['tok']=df.sub_rep.apply（nltk.tokenize.word_tokenize）



要分析列中的所有单词，将各个行列表合并为一个列表，称为单词

#将所有标记化单词添加到列表中
words=df.tok.tolist（）#这是一个列表列表
words=[列表中的单词对列表中的单词]
#频率分布
word_dist=nltk.FreqDist（单词）
#删除停止字
stopwords=nltk.corpus.stopwords.words（'english'））
文字（除停止文字外）=nltk.FreqDist（如果w不在停止文字中，则w代表文字中的w）
#输出结果
rslt=pd.DataFrame（最常见的单词（顶部），列=['word'，'Frequency']）

输出rslt：
尝试将df.Subject
替换为justdf
？尝试将df.Subject
替换为justdf
？谢谢Dever，我尝试了第一个选项，但出现了这个错误：“DataFrame”对象没有属性“str”。第二个选项给了我这个其他错误：TypeError:预期的字符串或类似字节的对象activities.filter(['Subject']，axis=1）
不返回series。它返回带有1列的数据帧。@Esther不确定为什么会出现此错误。我可以执行与行txt=df.Subject.str.lower（）.str.replace（r'\\\'，''类似的操作
并且没有收到属性错误。我假设这就是抛出错误的地方，对吗？是的。我想我需要在这里深入挖掘一下。文件可能有问题。我们会随时通知你的！@Esther:检查无、NaN
或df.Subject
中的任何非字符串值，谢谢Dever，我尝试了第一个选项，我得到了这个错误：“DataFrame”对象没有属性“str”。第二个选项给了我这个其他错误：TypeError:应该是字符串或字节，比如objectact




[pandas]相关文章推荐



                                                        
Pandas 将For循环的值插入到列中
pandas 
Pandas 如何使用df.str.extract（）从单元格中提取多个组
pandas 
使用apachearrow将PySpark数据帧转换为Pandas
pandasdataframepyspark 
Pandas 用奇异值分解法求解欠定稀疏矩阵
问题
pandas 
Pandas 导入Dask数据帧时出错，无法导入名称'；是_datetime64tz_数据类型'；
pandasdask 
geopandas无法正确读取geojson
pandas 
Pandas 基于其他列值的插补值
pandas 
Pandas 将缺少序列索引的值与主索引合并
pandas 
Pandas 用字符串的子集替换字符串
pandas 
Pandas 日期索引：选择每个月的第一个元素
pandasdataframe 
Pandas 两个数据帧的完全外部连接
pandasjoinmerge 
Pandas 与groupby求和的条件
pandas 
Pandas 熊猫-要基于引用变量中元素的最后一次出现创建新变量吗？
pandasjupyter-notebook 
Pandas 如何为训练和测试数据设置相同的分类代码？蟒蛇熊猫
pandasmachine-learningscikit-learn 
Pandas 将行添加到数据框，但其值与某些列的预先存在的行相同
pandasdataframe 
Pandas 从另一个dataframe列获取列中列表元素的映射
pandas 
Pandas 如何为tensorflow编译混合数据类型？
pandaskerasneural-network 
Pandas 使用另一个数据帧仅更新数据帧中的某些值
pandasdataframe 
Pandas python描述groupby输出问题
pandas 
Pandas 求两个峰之间的局部极小值
pandas 
                                       





随机文章推荐



                                                        
Cookies 如何立即删除/删除/终止cookie？
cookies 
Cookies 什么是第三方cookie？
cookiesfacebook 
Cookies 如果在HTTP中使用客户端和服务器之间的代理，则如何处理Cookie
cookies 
Cookies 在这种情况下，为什么http请求中存在google analytics cookie值对？
cookiesgoogle-analytics 
Cookies CookieContainer数据丢失，为什么？[C，网页表格]
cookies 
Cookies 饼干在哪里；mp“超级地产”；来自
cookies 
Cookies 在WinRT中使用指定的用户代理和CookieContainer
cookieswindows-runtime 
Cookies NET 4.5 HttpClient仍发送cookie（尽管域已更改）
cookiesdns 
Cookies 来自Akamai的自定义接收器和cookie
cookies 
Cookies Cloudfront签名Cookie和同时访问s3存储桶中的多条路径
cookiesamazon-s3 
Cookies 谷歌分析cookie的用途是什么？
cookiesgoogle-analytics 
Cookies 在CloudFlare中，仅当未设置cookie时才显示缓存页面
cookies 
Cookies 和Scrapy一起进入Quora
cookiesloginwebscrapy 
Cookies 如何在应用程序中检查.AspNet.applicationOK
cookiesasp.net-mvc-5 
Cookies javaScript asp classic cookie不断返回0
cookiesasp-classic 
Cookies 轮廓验证器密码密钥，cookie签名者密钥
cookiesplayframework 
Cookies Jmeter Beanshell不断向参数值添加反斜杠
cookiesjmeter 
Cookies Fancybox要在链接上打开，请仅在第一次单击后转到页面url
cookies 
Cookies JMeter在同一迭代中HTTP请求后清除cookie
cookiesjmeter 
Cookies 如何从响应中获取动态cookie？
cookiesweb-crawler


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
Flash和TCP服务器（Python）之间的对话
									Python
							 									Flash
							 
Python从文件读取突然停止
									Python
							 									File
							 
Python第二次不读取字符串
									Python
							 									String
							 
使用_导入_函数打包python代码
									Python
							 									Python 2.7
							 
创建没有PIL或其他python附加组件的动画GIF文件
									Python
							 									Image
							 									Animation
							 
使用Python从网站检索源代码
									Python
							 									Hyperlink
							 
python列表自动包含不需要的特殊字符\n+；
									Python
							 									Arrays
							 									Python 2.7
							 									List
							 
Python 为什么%d截断了1.5，但%s正确打印了数字？
									Python
							 
Python在填充QTableWidget后停止工作？
									Python
							 
使python中正则表达式匹配的一部分成为可选的
									Python
							 									Regex
							 
如何在python中使用执行一维随机游走的随机数？
									Python
							 									Random
							 
在Python中，如何使用random打印总和小于或等于另一个整数的整数？
									Python
							 
在Python中，如何仅获取列表中的正值？
									Python
							 
Python 用户提交方程的数学运算
									Python
							 
用于检查powershell版本、.net版本和固件版本的Python2.7脚本
									Python
							 									.net
							 									Python 3.x
							 									Python 2.7
							 									Powershell
							 
Python 通过轨迹关键点循环并跳到循环结构的适当部分
我的
									Python
							 									Python 2.7
							 									Loops
							 									For Loop
							 
Python 我想从输出文件中删除u
									Python
							 
Python 类型错误：'；int'；对象不可订阅-尝试创建csv文件时
									Python
							 									Csv
							 									Dictionary
							 
Python中的多峰值数据拟合
将numpy导入为np
从sympy.physics.wigner导入wigner_6j
将matplotlib.pyplot作为plt导入
xr=np.arange（0,33）
[Jo，Ju，I，Ao，Au]=[4.5,4.5,2.5674.4929]
Ao=Ao*0.000033565640954804
Au=Au*0.000033565640954804
xr1=100000000/np.阵列（xr）
位置=xr1
质心=位置。平均值（轴=0）
newo=0.005+
									Python
							 
Python类实例问题（init接受五个参数；只传递两个）
									Python
							 
Python Pyinstaller使用外部库创建可执行文件
									Python
							 									Python 3.x
							 
Python 如何在字典的值中通过标记提取所有值？
									Python
							 									List
							 									Dictionary
							 
Python 我想删除列表的重复项，在条件语句中使用count（）函数时是否可以这样做？
									Python
							 									List
							 
如何在python中检查元组列表中是否存在validate元素？
									Python
							 									List
							 
Python 最终总结计算不正确
									Python
							 									If Statement
							 									Variables
							 
Python 无法从powershell运行behave命令获取错误“；术语'；表现良好'；未被识别为cmdlet的名称；
									Python
							 
Python pd.DataFrame返回值错误：数组必须在同一范围内
									Python
							 									Pandas
							 
在python解释器中，如何在list（）中追加数据而不在变量中赋值
									Python
							 									Python 3.x
							 
Python 烧瓶：如何清晰地显示数据库中的数据
									Python
							 									Flask
							 
python如何在一个函数中计算年龄和姓名
from datetime导入日期
def date_person（）：
name=input（'输入您的姓名并按Enter'）
姓氏=输入（'输入您的姓氏并按Enter'）
出生年份=输入（'输入您的出生年份，然后按Enter'）
name\u list=name.split（）
姓氏列表=姓氏分割（）
打印（姓名列表、姓氏列表、出生年份）
first=名称[1][0]
第二名=姓氏[1][0]
年内天数=365.2425
年龄=整数（（date.today（
									Python
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Web
Deep Learning
Autohotkey
Apache2
Linq To Sql
Redirect
Drupal 6
Phpstorm
Curl
Apache Flink
Qt4
Smalltalk
Gitlab
Docker Compose
Sdk
Computer Science
Firefox Addon
Marklogic
Xamarin.ios
Jestjs
Groovy
Google Chrome
Kendo Ui
Content Management System
Cypress
Xna
Wxpython
Formatting
Debian
Filesystems
Cakephp
Zsh
Webrtc
Netbeans
Highcharts
Coding Style
Hazelcast
Unity3d
Sequelize.js
C
Oracle
Video Streaming
Xamarin.android
Phantomjs
Windows 8
Sql Server
Spring Cloud
Ecmascript 6
Ant
Corda
Plone
Functional Programming
Odoo
Autodesk Forge
Version Control
Electron
Jasper Reports
Google Cloud Platform
Com
Grid
Joomla
Optimization
Leaflet
Azure Devops
Sql
Wolfram Mathematica
Inheritance
Spring
Azure Sql Database
Azure Functions
Maven 2
Opencv
Hbase
Generics
Artifactory
Fortran
Xslt
Ionic Framework
Computer Vision
Lotus Notes
Gulp
Udp
File
Azure Service Fabric
Firebase
Outlook
Memory Leaks
Login
Dotnetnuke
Cassandra
Youtube
Google Visualization
Flask
Chef Infra
Antlr
Tsql
Continuous Integration
Sublimetext2
Jpa
Deployment
Coq
Influxdb
Stored Procedures
Liferay
Protocol Buffers
Scroll
Google App Maker
Android
Node.js
Big O
Django Rest Framework
Open Source
Tridion
Fonts
Time Complexity
Laravel 5
Rxjs
Cron
Airflow
Amazon Redshift
Debugging
Error Handling
Xpages
Google Chrome Devtools
Types
Salesforce
Asp Classic
Asp.net Mvc 3
Laravel 4
Activemq
Python 3.x
Hyperledger Fabric
Amazon Web Services
Prometheus
Ssis
Responsive Design
Sugarcrm
Gmail
Jetty
Twitter Bootstrap 3
Apache Pig
Eclipse
Here Api
Weblogic
Module
Symfony
Stanford Nlp
Mapping
Floating Point
Ms Access
Flutter
Blockchain
Triggers
Nhibernate
Usb
Api
Reference
Neural Network
Snmp
Parallel Processing
Rss
Polymer
Algorithm
Xmpp
Drupal
Sphinx
Ubuntu
Single Sign On
Multithreading
Monitoring
Serial Port
Apache Nifi
Gdb
Frameworks
Speech Recognition
Arrays
Couchbase
Orchardcms
Alfresco
Templates
Iframe
Parsing
Encoding
Sprite Kit
Django Models
Animation
Office Js
Dom
Quickbooks
Google Chrome Extension
Libgdx
Hadoop
Lisp
Dictionary
Google Cloud Firestore
Email
Ipad
Itext
Spring Mvc
Discord
Active Directory


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网