Machine learning 当文本中的单词不经常重复时，如何准备用于文本分类的特征向量？_Machine Learning_Nlp_Text Mining_Information Retrieval_Stemming - Fatal编程技术网

Machine learning 当文本中的单词不经常重复时，如何准备用于文本分类的特征向量？

machine-learning nlp

Machine learning 当文本中的单词不经常重复时，如何准备用于文本分类的特征向量？,machine-learning,nlp,text-mining,information-retrieval,stemming,Machine Learning,Nlp,Text Mining,Information Retrieval,Stemming,我需要对一组电子邮件执行文本分类。但我文本中的所有单词都非常稀疏，即每个单词相对于所有文档的频率都非常低。单词不会经常重复。由于要训练分类器，我认为以频率作为权重的文档术语矩阵是不合适的。你能告诉我我还需要用什么样的方法吗谢谢真正的问题是，如果你的单词如此稀疏，那么学习的分类器将无法推广到真实世界的数据。然而，有几种解决方案 1.）使用更多数据。这是一个很简单的问题。但是，您不仅可以添加标记数据，还可以在半监督学习中使用未标记数据 2.）使用更多数据（b部分）。您可以查看迁移学习设置。在这里，

我需要对一组电子邮件执行文本分类。但我文本中的所有单词都非常稀疏，即每个单词相对于所有文档的频率都非常低。单词不会经常重复。由于要训练分类器，我认为以频率作为权重的文档术语矩阵是不合适的。你能告诉我我还需要用什么样的方法吗

谢谢

真正的问题是，如果你的单词如此稀疏，那么学习的分类器将无法推广到真实世界的数据。然而，有几种解决方案

1.）使用更多数据。这是一个很简单的问题。但是，您不仅可以添加标记数据，还可以在半监督学习中使用未标记数据
2.）使用更多数据（b部分）。您可以查看迁移学习设置。在这里，您可以在具有类似特征的大型数据集上构建分类器。这可能是twitter流，然后根据您的域调整此分类器
3.）正确使用处理管道。您的问题可能源于次优的处理管道。您正在进行词干分析？在电子邮件中，steming一词应该映射到stem上。通过与词典进行同义词匹配，可以进一步推动这一点

[nlp]相关文章推荐

Nlp 如何使用reuters-21578数据集和svm.net进行文本分类？ nlp machine-learning

如何为'；乌尔都语'；在OpenNLP中？ nlp

Nlp 获取该词所属的类别，如食物、地点、衣服 nlp

Nlp NER的maxent分类器的伪代码是什么？ nlp

Nlp 自然语言处理工具 nlp

Nlp 如何加载word2vec向量？ nlp

Nlp 线性链条件随机场序列模型-NER nlp stanford-nlp

Nlp 如何从非结构化文本中提取精确信息 nlp

Nlp Spacy-自定义停止字不起作用 nlp

Nlp 使用Ruta在最多10个单词的窗口中将2个注释链接在一起 nlp

Nlp word2vec、glove和elmo之间有什么区别？ nlp

Nlp 如何让spaCy使用通用依赖项 nlp

NLP：基于规则与机器学习 nlp

Nlp 如何将BertforSequenceClassification模型权重加载到BertforTokenClassification模型中？ nlp pytorch

Elasticsearch语言分析器-在文本分析后返回检索到的字段 nlp

如何解决nlp情感分析中的疑难句 nlp

Nlp 手套导入错误-语料库-无法导入 nlp stanford-nlp

Nlp 低效的标记化导致更好的结果 nlp

Nlp 用于评估文本连贯性的注释数据集 nlp

Nlp 超短字符串的可训练字符串相似性模型 nlp

随机文章推荐

Google cloud dataflow 谷歌云数据流：使用DirectPipelineRunner访问管道中的谷歌云发布/订阅（本地作业）？ google-cloud-dataflow

Google cloud dataflow 在google数据流管道的末尾，是否有更简单的方法将聚合器刷新到GCS google-cloud-dataflow

Google cloud dataflow 可以为数据流实例使用自定义计算机吗？ google-cloud-dataflow

Google cloud dataflow 作为数据流侧输入的大numpy矩阵 google-cloud-dataflow

Google cloud dataflow Apache Beam-org.Apache.Beam.sdk.util.UserCodeException:java.sql.SQLException:无法创建PoolableConnectionFactory（不支持该方法） google-cloud-dataflow

Google cloud dataflow 有边界集合的Google云数据流是否在批处理模式下移动水印？ google-cloud-dataflow

Google cloud dataflow 访问数据流管道内的文件 google-cloud-dataflow

Google cloud dataflow 谷歌云数据流管道在大约25天后暂停 google-cloud-dataflow

Google cloud dataflow Google云数据流：在连续8次测量GC抖动后关闭JVM google-cloud-dataflow

Google cloud dataflow 究竟是什么管理beam中的水印？ google-cloud-dataflow

[machine learning]相关推荐

Machine learning 需要好的方法来选择和调整“a”；“学习率”；
Machine Learning Statistics Neural Network

Machine learning 机器学习技术在化学中的应用
Machine Learning

Machine learning 现有的语音识别研究是否可以区分不同人群的语音？
Machine Learning Speech Recognition

Machine learning 与支持向量机相关的混淆
Machine Learning Artificial Intelligence

Machine learning 如何训练一个只有正数据和中性数据的分类器？
Machine Learning Nlp

Machine learning 机器学习分类器的不同用法
Machine Learning

Machine learning 无监督感兴趣区域与词袋模型的异同
Machine Learning Computer Vision

Machine learning 寻找依赖于8参数的逼近函数
Machine Learning Neural Network

Machine learning 分类和预测有什么区别？
Machine Learning

Machine learning 当我们使用交叉熵时，如何修正NAN或INF？
Machine Learning

Machine learning 在模式识别和机器学习中混淆梯度的使用
Machine Learning

Machine learning Vowpal Wabbit没有预测二进制值，可能是过度训练？
Machine Learning

Machine learning 张量流加载模型给出了不同的预测
Machine Learning Tensorflow

Machine learning 用于分类和聚类的特征之间的关系
Machine Learning

Machine learning 如何将批处理机制添加到Tensorflow教程中的输入函数中，以克服tf.Sparsetensor对象？
Machine Learning Tensorflow

Machine learning 如何使用有限的数据集为科学文本生成标签？
Machine Learning

Machine learning 我们应该尝试什么：低学习率还是高学习率？
Machine Learning Tensorflow Neural Network Deep Learning

Machine learning 将keras-CNN应用于新数据集
Machine Learning Neural Network Keras

Machine learning 多变量梯度下降失败，导致NaN
Machine Learning Octave

Machine learning 谷歌云ML引擎：在培训/预测之前应用自定义功能
Machine Learning

Machine learning 为什么神经网络的输出值会增加；爆炸'；？
Machine Learning Neural Network

Machine learning 如何为完全连接的神经网络找到合适的架构？我想解决一些涉及不同大小序列的问题，并在序列中间的某个元素上给出一个数字输出。我使用的是双向RNN，所以我需要将它的两个输出压缩为一个数字。这既是一个具体的问题，也是一个一般性的问题——我如何才能找到适合这个问题的网络体系结构？总的来说，如何在任何问题中找到合适的完全连接的网络体系结构？因为我没有看到任何常见的完全连接的架构，而在计算机视觉的例子中，有一些常见的卷积架构可以使用。
Machine Learning Deep Learning Neural Network

Machine learning 如何根据过去的数据预测未来的数据？
Machine Learning Deep Learning

Machine learning 不同成本函数的利弊
Machine Learning

Machine learning 如何在IMBREAND中获取已创建样本的索引
Machine Learning

Machine learning 如果数据集不平衡，如何测试机器学习算法？
Machine Learning

Machine learning 如何使python中的自定义代码在使用Pytorch张量和矩阵函数时利用GPU
Machine Learning Pytorch

Machine learning 陷入包含20个特征的数据集的聚类分析（全部为数字）
Machine Learning

Machine learning 在梯度下降过程中，根据训练步长绘制梯度大小NN
Machine Learning Neural Network

Machine learning 我可以评估我的模型吗'；LOOCV在整个数据集上的性能如何？
Machine Learning

Tags

Chef Infra Nativescript Cocos2d Iphone Spring Integration Google Maps Swift Web Scraping Computer Science Swift3 Sql Server 2005 Maven Timer Visual Studio Code Memory Management Class Arrays Vba Javascript Jenkins Common Lisp Openssl Ms Word Sequelize.js Big O Shell Apache Openerp Flash Django Models Cordova Time Complexity Devexpress Doctrine Laravel 5 Telerik Azure Functions Random Nosql Operating System Error Handling Docker Compose Aem Centos Solr Xampp Itext Paypal Visual Studio 2013 Airflow Ssh Jsf Yocto Processing Exception Ffmpeg Azure Active Directory Ubuntu Autocomplete Cucumber Dll File Upload Coq Jupyter Notebook Monitoring Sapui5 Sublimetext3 Ravendb Swing Google Cloud Storage Dependencies Cmd Serial Port Numpy Pascal Webgl Gradle Gcc Odata Botframework Grafana View Scheme Sql Server 2008 Qt Google Chrome Devtools Interface Email Directx Google Cloud Platform Xamarin.android Pyspark Windows 7 Cron Requirejs Internet Explorer 8 Openshift Breeze Python 3.x Ada Path Symfony1 Zend Framework Sharepoint 2013 Dotnetnuke Scripting Security Model Swagger Asp.net Core Mvc .net Character Encoding Xpath Asp.net Mvc 2 Robotframework Install4j Codeigniter Orm Salesforce Chart.js Visual Studio 2008 Phantomjs Macros Menu Time Azure Layout Reference Sql Server 2012 Nest Curl Terraform Svg C Perl Office365 Alfresco Model View Controller Composer Php Math Twitter Bootstrap 3 Deep Learning Microservices Markdown Tableau Api Influxdb Coldfusion Erlang Telegram Msbuild Jasmine Drupal Bots C++ Graphql Sparql Winforms Binding Vim Mysql Java 8 Permissions Rxjs Microsoft Graph Api Cassandra Typescript Cocoa Touch Sitecore Pdf Apache Kafka Kentico Hyperledger Fabric Ip Apache Flink Sencha Touch 2 Opengl Es Symfony Zsh Haskell Oracle Vector Jquery Mobile Isabelle Xamarin.ios Websocket Lua Spring Batch Oauth 2.0 Asp Classic Sharepoint 2010 Reflection Tridion Statistics Yii Autohotkey Loops Tcp Vagrant Function Redux Uwp Automation

Copyright © 2024. All Rights Reserved by - Fatal编程技术网