在R中从语料库中搜索已删除的文档_R_Dataframe_Tm_Corpus - Fatal编程技术网

在R中从语料库中搜索已删除的文档

r dataframe

在R中从语料库中搜索已删除的文档,r,dataframe,tm,corpus,R,Dataframe,Tm,Corpus,我想在分析文本之前对其进行预处理 mydat 代码 mydat=read.csv("C:/kr_csv.csv", sep=";",dec=",") tw.corpus <- Corpus(VectorSource(mydat$descr)) tw.corpus <- tm_map(tw.corpus, removePunctuation) tw.corpus <- tm_map(tw.corpus, removeNumbers) tw.corpus = t

我想在分析文本之前对其进行预处理

mydat

代码

 mydat=read.csv("C:/kr_csv.csv", sep=";",dec=",")

  tw.corpus <- Corpus(VectorSource(mydat$descr))
  tw.corpus <- tm_map(tw.corpus, removePunctuation)
  tw.corpus <- tm_map(tw.corpus, removeNumbers)
  tw.corpus = tm_map(tw.corpus, content_transformer(tolower))
  tw.corpus = tm_map(tw.corpus, stemDocument)


#deleting emptu documents 

doc.m <- DocumentTermMatrix(tw.corpus)


rowTotals <- apply(doc.m , 1, sum) #Find the sum of words in each Document
doc.m.new   <- doc.m[rowTotals> 0, ]

mydat=read.csv（“C:/kr_csv.csv”，sep=“；”，dec=“，”）
tw.corpus在对语料库进行预处理和词干分析后，您将计算每个文档中剩余的单词数。当然，没有文字的“文件”计数为零。此外，只有字母和标点符号的文档也是空的，因为您删除了这些字符串
在数据中，有许多“文档”是空行。总体而言，语料库中有28个“文档”，但其中一半以上是空行（即它们包含零个单词）
您可以在行总数中计算每个文档的字数。如果您检查行总数
中的哪些条目等于零，您将获得随后从doc.m
中删除的文档编号：
rowTotals
# 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 
# 3  5  1  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0 10  2  8  8  2  0  0  0  7 

您可以看到文档4、5、6、7、8、9、10、11、12、13等都包含零个单词，因此不在doc.m
中。您可以使用which（）
自动获取这些号码：
rowTotals
# 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 
# 3  5  1  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0 10  2  8  8  2  0  0  0  7 

which( rowTotals == 0)
# [1] 4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 25 26 27




[dataframe]相关文章推荐



                                                        
Dataframe SAS数据步长最大值（按组）
dataframesas 
Dataframe 将数据框转换为数据集后的选择是否优化？
dataframeapache-spark 
Dataframe 当np.nan时，sqlalchemy orm从pandas数据帧大容量插入
dataframeormsqlalchemy 
Dataframe 如何将spark数据框写入clickhouse
dataframeapache-spark 
在spark中，RDD、Dataframe和Dataset中哪一个更适合进行avro列式操作？
dataframeapache-spark 
DataFrames.jl-按类型或名称子字符串选择列
dataframejulia 
Dataframe 在for循环中为pyspark数据帧创建动态名称
dataframeapache-sparkfor-loopvariablespyspark 
Dataframe 用于从数据帧查找所有间隔重叠的Spark
dataframeapache-spark 
带有not运算符的pyspark dataframe where子句
dataframepyspark 
Dataframe 如何创造,；访问数据集的分区？
dataframeapache-spark 
                                       





随机文章推荐



                                                        
Select Xpath-如何根据子对象的属性选择父对象？
selectxpath 
Select 当结果可能为空时，如何选择PL/SQL中的变量？
selectplsql 
Select 如何将集合选择与一个关联一起使用
selectcollections 
Select jqGrid-使用特殊字符选择菜单
selectjqgrid 
Select 选择一个单词，然后自动选择所有匹配的单词？
selectautomationnotepad++ 
Select 使用多列从panadas数据框中选择
selectpandas 
Select 从组合框中选择数据并在标签c中显示id
selectcombobox 
如何创建一个SQL SELECT语句，该语句在一个表中有两个字段引用另一个表中的同一字段
selectmariadb 
和+或在一个Select语句中
selectabap 
Select 选择选项时，显示数据库中的数据-自定义字段（签出）
selectwoocommerce 
如何从redux saga select（）获取状态？
select


                                        

                                        
                                        


                                                
                                                        [r]相关推荐
                                                        
如何在R中找到平衡面板数据（又名，如何找到面板中的哪些条目在给定窗口中是完整的）
									R
							 
R中的内存问题
									R
							 
使用'时出现意外输出；neuralnet'；在R
									R
							 									Neural Network
							 
R 具有固定行和列和的自举4x4矩阵
									R
							 
R 上三角形中的所有零值
									R
							 									Matrix
							 
根据变量提取data.frame每个块中的数据
									R
							 									Dataframe
							 
R：我应该如何指定；init"；及；固定的；R？中arima函数的参数？
									R
							 									Statistics
							 
MAC不工作的RODBC。使用unixODBC和Rstudio
									R
							 									Macos
							 
在R中的glm（）中出错
									R
							 
为什么rbindXts'；s dup参数未公开？
									R
							 
在使用R中的传单创建的worldmap中缩小时世界的多个副本
									R
							 									Leaflet
							 
R、 ggplot2：如何增加特定geom_平铺条之间的空间以成对分组？
									R
							 									Plot
							 
R 多股票回溯测试
									R
							 
R中order函数中字符串的奇怪顺序
									R
							 
R 为什么'data.table:：unique'don'；不行？
									R
							 
R 三维散点图中的密度云？
									R
							 									3d
							 
使用索引将data.frame单个（分层）列转换为多列
									R
							 									Dataframe
							 
R if/else语句只计算else语句
									R
							 									If Statement
							 
R 按季度频率从字符转换时间变量
									R
							 									Dataframe
							 
R 轴位于右侧（和底部）的单面板晶格图
									R
							 
R：在系数路径图中绘制线末端的值
									R
							 
求R中两因子列之间的欧氏距离
									R
							 
使用roxygen2在R中构建包时未创建文档
									R
							 									Documentation
							 
RHEL Bash脚本用于R闪亮发布
									R
							 									Linux
							 									Bash
							 
在R包的描述文件中使用连字符
									R
							 
Rshiny在发布应用程序后抛出错误
									R
							 									Dataframe
							 									Shiny
							 
R 包含分类变量的套索子集选择
									R
							 
计算R中矩阵格式的成对多边形的面积重叠
									R
							 									Matrix
							 
R 将geom_line（stat='；count'；）与带有分组变量的geom_smooth（）组合
									R
							 
R 在ggplot2中，是否支持颜色名称中的空格？
									R
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Ipad
Vb6
Tomcat
Automated Tests
Proxy
Pine Script
Fullcalendar
Wso2
Post
Scikit Learn
Smtp
Cobol
Apache Pig
Wicket
Laravel 5
D
Arangodb
Interface
Autodesk Forge
Tfs
Delphi
Nhibernate
Google Analytics
Bootstrap 4
Image
Qt
Amazon Ec2
Haskell
Rss
Sequelize.js
Gis
Cygwin
Sdk
Arrays
Sparql
Cmd
Join
Flash
Events
Php
C# 3.0
Ubuntu
Cors
Visual Studio 2017
Azure Service Fabric
Odoo
Office365
Joomla
Geometry
Sql Server 2005
Java
Language Agnostic
Excel
Graph
Codeigniter
Azure Data Factory
Jmeter
Asp.net Mvc
Breeze
Botframework
Activerecord
Unicode
Docusignapi
Ios7
Openshift
Loops
Parsing
Memory Management
Ajax
Keycloak
Date
Firefox Addon
Identityserver4
Cucumber
Search
Internet Explorer
Android Layout
Typescript
Collections
Authentication
Protractor
Youtube
Jasper Reports
Google Bigquery
Eclipse Plugin
Jsp
Jqgrid
Sed
Kernel
Linker
Hbase
Couchbase
Openerp
Hash
Pip
Llvm
Python 2.7
Azure Sql Database
Exception Handling
Markdown
Socket.io
Awk
Lotus Notes
Apache Spark
Recursion
Opencv
Amazon Cloudformation
Terminal
Model View Controller
Autocomplete
Vbscript
Optimization
Ffmpeg
Logging
Mdx
Routing
Julia
Xcode
Jestjs
Web Services
Svn
Sublimetext3
Memory
Material Ui
Web
Teamcity
Yii2
Qml
Pointers
Elm
Cordova
Xsd
Sharepoint 2013
Android Fragments
Mercurial
Junit
Migration
Snowflake Cloud Data Platform
Vim
Google Cloud Storage
Terraform
Phpstorm
Android Ndk
Exception
Android Studio
Blazor
Django Models
Virtualbox
Liferay
Axapta
Ruby On Rails 3.2
Google Plus
Azure Ad B2c
Db2
Python
Reporting Services
Xmpp
Opengl
Bison
Node.js
EmptyTag
Menu
Ember.js
Google Compute Engine
Cluster Computing
Emacs
Ios
Kendo Ui
Algorithm
Shiny
Configuration
Vmware
Testing
Facebook
Intellij Idea
Plone
Gps
Twig
Javafx 2
Validation
Mongoose
Nuget
Dynamics Crm 2011
Azure Functions
Url
Yii
Webstorm
Permissions
Sharepoint 2007
Asterisk
Openid
Scheme
Synchronization
Asp.net Mvc 3
Enums
Air
Ibm Mq
Monitoring
Sugarcrm
Antlr4
Isabelle


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网