在R中使用Quanteda时，从文本语料库中删除非ASCII字符的最佳方法是什么？_R_Nlp_Tm_Corpus_Quanteda - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/82.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/react-native/7.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在R中使用Quanteda时，从文本语料库中删除非ASCII字符的最佳方法是什么？_R_Nlp_Tm_Corpus_Quanteda - Fatal编程技术网

在R中使用Quanteda时，从文本语料库中删除非ASCII字符的最佳方法是什么？

r nlp

在R中使用Quanteda时，从文本语料库中删除非ASCII字符的最佳方法是什么？,r,nlp,tm,corpus,quanteda,R,Nlp,Tm,Corpus,Quanteda,我急需帮助。我有一个语料库，我已经把它转换成一种通用语言，但有些单词没有正确地转换成英语。因此，我的语料库具有非ASCII字符，如U+00F8 我正在使用Quanteda，我已使用以下代码导入我的文本： EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingFrom = "UTF-8-BOM") EUCorpus试试： text（EUCorpus）您可以

我急需帮助。我有一个语料库，我已经把它转换成一种通用语言，但有些单词没有正确地转换成英语。因此，我的语料库具有非ASCII字符，如

U+00F8

我正在使用Quanteda，我已使用以下代码导入我的文本：

 EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingFrom = "UTF-8-BOM")

EUCorpus试试：
text（EUCorpus）您可以使用iconv完成此操作。有关详细信息，请参见此答案：gsub（'[^-~]'，''，x）
是一种可能更快的方法吗？我在度假，所以没有R来测试我自己。我们怎么知道如何从UTF-8转换成ASCII？详细说明这一点的文件会有所帮助。谢谢在终端上尝试file mytextfile.txt
，它列出了文本文件的已知编码。stringi中也有一些检测方法，即stri_enc_detect（）
。我更喜欢使用@Tylerlinker建议的正则表达式来实现额外的操作（如删除额外的空格），并使用十六进制值来提高可读性，即“[^\x20-\x7E]
texts(EUCorpus) <- iconv(texts(EUCorpus), from = "UTF-8", to = "ASCII", sub = "")




[nlp]相关文章推荐



                                                        
Nlp 是否有一种识别不同形式“的算法？”；你"；在一个句子中，也就是如何解析一个英语句子
nlp 
Nlp 使用斯坦福Coref的回指消解
nlpstanford-nlp 
Nlp 如何找出英语语言的熵
nlp 
Nlp 如何向MeCab添加停止词？
nlp 
Nlp 在谷歌新闻中下载一篇文章的文本
nlpweb-crawlerselenium-webdriver 
斯坦福解析树nlp中的概念提取
nlpstanford-nlp 
Nlp 如何在Stanford Pos tagger中创建自己的模型？
nlpstanford-nlp 
Nlp Stanford解析器：不返回折叠的依赖项
nlpstanford-nlp 
Nlp 在哪里可以找到搜索引擎查询的语料库？
nlp 
Nlp 哪种类型的神经网络适合文本分类（摘录摘要）
nlpneural-network 
Nlp IBM Watson对话与自然语言理解之间的差异
nlp 
Nlp 当需要更具体的输入时，将抽象或未定义的引用映射到实体
nlp 
Nlp 为什么NLTK NaiveBayes分类器对一条记录进行了错误分类？
nlp 
Nlp Seq2seq LSTM未能生成合理的摘要
nlpkeras 
Nlp 克里斯·曼宁是个了不起的人；及标签；每O"；将变成（[1,9]，[2,9]，[3,8]，[4,8]，[1,1,4,4]）。“如何”；克里斯；是用[1,9]编码的吗？
nlpstanford-nlp 
Nlp 自然语言处理中的单图、双图和Posgram
nlp 
Nlp PyTorch-稀疏张量没有跨步
nlppytorch 
Nlp 单词嵌入技术为什么有效
nlp 
Nlp 有没有一种方法可以计算出一个模型有多大才能适合我的VRAM？
nlp 
Nlp 我怎样才能创作单字呢
nlp 
                                       





随机文章推荐


                                        

                                        
                                        


                                                
                                                        [r]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
C# 4.0
Servlets
Windows Installer
Tinymce
Ubuntu
Linker
Cors
Dom
Antlr4
Ecmascript 6
Knockout.js
Socket.io
Cypress
Swift3
Smtp
Asp.net Mvc
Activemq
Sencha Touch 2
Replace
Linux
Process
Sip
Jira
Floating Point
Netlogo
Kubernetes
Node.js
Xml
Join
Authentication
Cloud
Material Ui
Pip
Opengl
Spring Cloud
Wpf
Prometheus
Iphone
Air
Gremlin
Three.js
Io
Swift2
Rabbitmq
Scikit Learn
Glassfish
Office365
Random
Smalltalk
Class
Html
Spring Batch
Plsql
Actionscript 3
Calendar
Kernel
Amp Html
Jmeter
Selenium Webdriver
Coffeescript
Quickbooks
File Io
.net 4.0
Validation
Concurrency
Optimization
Javafx
Core Data
Ip
Virtual Machine
Forms
Cassandra
Graphql
Recursion
Filter
Azure Data Factory
Ibm Mq
Pagination
Uitableview
Mapbox
Log4net
Verilog
Clojure
Tsql
Appium
Intellij Idea
Sms
Gwt
Mongodb
Syntax
Bazel
Interface
Akka
Visual C++
Indexing
Logstash
Eclipse Plugin
Pytorch
Jar
Haskell
Merge
Acumatica
Amazon Redshift
Go
Programming Languages
Microservices
Raspberry Pi
Grid
Eclipse
Service
Meteor
Cocoa Touch
Windows Store Apps
Discord.js
Pandas
Continuous Integration
Fiware
Nestjs
Seo
Configuration
Windows Runtime
Groovy
Vue.js
Internet Explorer
Applescript
Silverlight
Serialization
Umbraco
Google Bigquery
Sitecore
Office Js
Orientdb
Winapi
For Loop
Input
Openerp
Unix
Ipython
Nhibernate
Gmail
Directx
Airflow
Svn
Google Cloud Dataflow
Url
Ssh
Report
Rx Java
Version Control
C#
Blockchain
Hive
Ibm Midrange
Memory
Laravel 5
Erlang
Time
Terminal
Razor
Regex
Character Encoding
Keras
Variables
Jpa
Python 2.7
Axapta
Imagemagick
Data Binding
Computer Vision
Typescript
Prestashop
View
Java Me
Tomcat
Cmake
Xamarin.ios
Design Patterns
Jwt
Openlayers 3
Rss
Twitter
Iis
Mapping
Llvm
Loops
Url Rewriting
Sas
Xamarin.forms
Cron
Xpath
Tridion
Angular
Dns
Fullcalendar
Asp.net Mvc 5
Maven 2
Dependency Injection
Azure Sql Database
Events
Enums
Vagrant


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网