R 将数据帧转换为语料库_R_Quanteda - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/64.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 将数据帧转换为语料库_R_Quanteda - Fatal编程技术网

R 将数据帧转换为语料库

r

R 将数据帧转换为语料库,r,quanteda,R,Quanteda,我使用[这里]的例子：我用它来消除一些噪音： `mytext <- paste(unlist(df$text), collapse =" ") mytext2 <- gsub("<code>.+?</code>", "", mytext) cleanFun <- function(htmlString) { return(gsub("<.*?>", "", htmlString)) } mytext3 <- cleanFun(

我使用[这里]的例子：

我用它来消除一些噪音：

`mytext <- paste(unlist(df$text), collapse =" ")
mytext2 <- gsub("<code>.+?</code>", "", mytext)
cleanFun <- function(htmlString) {
    return(gsub("<.*?>", "", htmlString))
}
mytext3 <- cleanFun(mytext2)
df2 <- gsub("\n", "", mytext3)`

但是，该文档未列出，我收到稀疏的0.0%

myDfm不完全确定问题是什么，但是如果您想清理df
中的文本，然后将其转换为语料库，那么下面是一种方法：
df$text <- gsub("<.*?>", "", df$text)
corp <- corpus(df, text_field = "text")
dfm <- dfm(corp, remove_punct = TRUE, remove = stopwords('en'))
> dfm
Document-feature matrix of: 3 documents, 32 features (62.5% sparse).

df$text为什么要用粘贴（collapse=“”）
将文本字符串连接成一个字符串？由于df2中的文档数量是一个，dfm当然是0%稀疏的，因为dfm中的每个特征都必须在df2中的单个文档中呈现。@amatsuo_net让df2保持原样是正确的吗？这里的问题是粘贴（…，collapse=”“），它将向量的各个元素粘贴到一个元素中。因此，当您创建dfm时，您会得到一个文档。由于您的所有功能都取自单个文档，因此根据定义，它将是0%稀疏的。要获取单个文档，请不要将元素粘贴在一起。
`mytext <- paste(unlist(df$text), collapse =" ")
mytext2 <- gsub("<code>.+?</code>", "", mytext)
cleanFun <- function(htmlString) {
    return(gsub("<.*?>", "", htmlString))
}
mytext3 <- cleanFun(mytext2)
df2 <- gsub("\n", "", mytext3)`

df$text <- gsub("<.*?>", "", df$text)
corp <- corpus(df, text_field = "text")
dfm <- dfm(corp, remove_punct = TRUE, remove = stopwords('en'))
> dfm
Document-feature matrix of: 3 documents, 32 features (62.5% sparse).




[imagemagick]相关文章推荐



                                                        
Imagemagick 用php执行图像魔术命令
imagemagick 
如何在imagemagick中裁剪边距？
imagemagick 
ImageMagick人脸变形的遮罩变形
imagemagick 
使用Imagemagick将图像缩放到桌面大小，无边框
imagemagick 
如何将imagemagick与此文件合成图像？
imagemagick 
使用ImageMagick向透明（png）图像添加边框/轮廓
imagemagick 
如何使用imagemagick垂直附加2个图像？
imagemagick 
Imagemagick 如何使用蒙太奇来防止带有透明度的暗边？
imagemagick 
如何确定imagemagick dll的版本？
imagemagick 
Imagemagick 将png图像转换为有损avif
imagemagick 
                                       





随机文章推荐



                                                        
Open source 有开源网站吗？
open-source 
Open source 开源登录系统，什么好？
open-sourceloginauthentication 
Open source snakes或分水岭分割算法是否有开源实现？
open-sourceimage-processingcomputer-vision 
Open source 如果我的程序只是偶尔调用GPL程序，那么我的所有程序都应该是开源GPL吗？
open-source 
Open source 有开源的威胁建模工具吗？
open-source 
Open source 如果项目是在codeplex.com上管理的，我可以在github或googlecode上托管镜像吗？我应该吗？
open-source 
Open source 开源项目中的重实现算法
open-source 
Open source 有开源的粘贴库吗？
open-source 
Open source 在哪里可以找到可靠的K-medoid（不是K-means）开源软件/工具？
open-source 
Open source 我需要为我的开源项目提供版权吗？
open-source 
Open source 源文件头中的版权信息
open-source 
Open source 如何将VoiceBase Player UI代码集成到我的React应用程序中
open-source


                                        

                                        
                                        


                                                
                                                        [r]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Sencha Touch 2
Memory Leaks
Path
Ios
Blockchain
Ios7
Here Api
Discord
C++ Cli
Shopify
Amp Html
Java
Hadoop
Clang
Embedded
Sparql
Replace
Data Binding
Hash
Sharepoint
Sms
Struct
Stata
Ssl
Numpy
Racket
Computer Vision
Hyperledger Fabric
Command Line
Time Complexity
Ios8
Tensorflow
Llvm
Powershell
Ms Access
Lotus Notes
Plone
X86
Flash
Openshift
Excel Formula
Content Management System
Mapping
Loopbackjs
Kotlin
Xamarin.forms
Symfony
Cocoa Touch
Caching
Cygwin
Log4net
Phpmyadmin
Typo3
Knockout.js
Tcp
Api
Linker
Sql Server 2005
Excel
Angularjs
Wcf
Android Fragments
Angular
Wix
Fullcalendar
Hive
Oop
Parsing
Jqgrid
Sequelize.js
Magento
Jquery
Ethereum
Cocoa
Asp.net Mvc 5
Extjs
Project Management
Wordpress
Merge
Cuda
Windows Phone
Opencart
Dojo
Html
Artificial Intelligence
Uml
Mapbox
Debian
Aws Lambda
Network Programming
Ruby On Rails 4
Junit
Ruby On Rails 3
Rdf
C++11
Google App Engine
Dask
Mule
Data Structures
Salesforce
Webgl
Jmeter
Jhipster
Mfc
Elixir
Jasper Reports
Io
Sails.js
Deployment
Prolog
Polymer
Filter
Firebase
Atom Editor
Codeigniter
Colors
Algorithm
Swiftui
Dictionary
C#
Javafx
Tkinter
Openlayers 3
Math
Reactjs
Ibm Mq
Build
Yii2
Botframework
Hybris
Speech Recognition
Arrays
Jira
Node.js
Json
Editor
Hyperlink
Objective C
Blackberry
Azure Functions
Django Rest Framework
Verilog
C# 3.0
Amazon Ec2
Tinymce
Serial Port
Oracle Apex
Git
Ios6
Jquery Ui
Google Compute Engine
Dialogflow Es
Sass
Centos
Seo
Gruntjs
Telerik
Process
Visual Studio 2017
Sql Server
Nlp
Devexpress
React Native
Ssh
Air
Windows Phone 7
Apache Flink
Jenkins
Flask
Tcl
Javascript
Safari
Osgi
Cucumber
Silverlight
Scripting
Calendar
Rabbitmq
Xampp
Pandas
Nservicebus
Url
Css
Google Sheets
Properties
Robotframework
Doctrine Orm
Virtualbox
Scikit Learn
EmptyTag
Ipad
Titanium
Cakephp
Apache
Methods
Ibm Midrange
Sphinx
Memory
Jdbc
Ruby On Rails 3.2
Spring Integration


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网