Nlp Gensim Word2Vec和x27的长度错误；英语词汇_Nlp_Gensim_Word2vec - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/heroku/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp Gensim Word2Vec和x27的长度错误；英语词汇_Nlp_Gensim_Word2vec - Fatal编程技术网

Nlp Gensim Word2Vec和x27的长度错误；英语词汇

nlp

Nlp Gensim Word2Vec和x27的长度错误；英语词汇,nlp,gensim,word2vec,Nlp,Gensim,Word2vec,我试图通过以下方式培训Gensim Word2Vec的 X = train['text'] model_word2vec = models.Word2Vec(X.values, size=150) model_word2vec.train(X.values, total_examples=len(X.values), epochs=10) 培训结束后，我得到了一个长度74的小词汇表（model_word2vec.wv.vocab），其中只包含字母表中的字母我怎样才能掌握正确的词汇

我试图通过以下方式培训Gensim Word2Vec的


X = train['text']    

model_word2vec = models.Word2Vec(X.values, size=150)
model_word2vec.train(X.values, total_examples=len(X.values), epochs=10)

培训结束后，我得到了一个长度74
的小词汇表（model_word2vec.wv.vocab
），其中只包含字母表中的字母
我怎样才能掌握正确的词汇
更新
我以前试过这个：
tokenizer = Tokenizer(lower=True)
tokenized_text = tokenizer.fit_on_texts(X)
sequence = tokenizer.texts_to_sequences(X)

model_word2vec.train(sequence, total_examples=len(X.values), epochs=10

但是我得到了同样错误的词汇量。
为模型提供它需要的语料库类型：一系列文本，其中每个文本都是字符串标记列表。如果您为它提供非标记化字符串，它会认为每个字符都是一个标记，给出您看到的结果
 我已经试过了，但我得到了相同的结果。错误的词汇表大小。您必须仍然在传递字符串或其他内容，而不是字符串列表的iterable序列。我在网上找到的关于text\u to\u sequences（）
方法的唯一文档表明，它将文本转换为整数列表，这是错误的。请尝试打印sequence[0]
，如果打印不起作用，请打印iter（sequence）.next（）
以查看传递给Word2Vec
的单个文本的示例。如果它不是一个字符串列表，比如['hello'，world']
，那么您就没有给Word2Vec
正确的输入。我在标记化过程中发现了一个问题。我改变了标记化方法，现在它开始工作了。




[hive]相关文章推荐



                                                        
Hive 配置单元中每行的百分比计算
hive 
BigInsights 3.0中Hive 0.12的怪异问题
hive 
Hive Dbeaver连接到配置单元-SQLException:不支持方法
hive 
Hive 配置单元DSN设置连接问题
hive 
Hive Namenode的元数据和配置单元的元存储
hive 
Hive 蜂巢结构图
hive 
Hive 如何在orc配置单元表中插入数据
hive 
如何通过java代码检查cloudera服务（如hive、Impala）是否正在运行？
hive 
Hive 如何根据用户/角色模拟以色调隐藏/显示各个配置单元数据库
hive 
Hive 如何过滤进入AWS配置单元表的多行JSON数据
hive 
Hive 如何使用包含空格的标识符对列进行别名？
hive 
Hive 如何施放阵列<；int>；把蜂箱串起来？
hive 
如何在pyspark或hive中使用xml解析替换基于其他xml的xml数据
hivepyspark 
Hive Athena未在msck修复表之后添加分区
hive 
Hive 遭遇；无法更改表时出错。”；在配置单元中更改表列位置时
hive 
Hive 语义分析中的配置单元失败错误无效的表别名或列引用
hive 
Hive 如何使用配置单元消除URL中的查询？
hive 
Hive 配置单元中的外部表未显示数据
hive 
Hive 配置单元-使用相同的表记录B从记录a更新列值
hive 
Hive 如何更新配置单元表行
hive 
                                       





随机文章推荐


                                        

                                        
                                        


                                                
                                                        [nlp]相关推荐
                                                        
Nlp 有免费的树库吗？
									Nlp
							 
Nlp Mark V.Shaney仍然是生成文本的最佳方式吗？
									Nlp
							 
Nlp 有没有办法通过pip安装来安装nodebox英语语言学库？
									Nlp
							 									Pip
							 
Nlp 在斯坦福主题建模工具包（TMT）中，主题对应的数字是什么意思（在输出文件“summary.txt”中）？
									Nlp
							 									Stanford Nlp
							 
Nlp 检测并忽略命名实体的提及并提取有效的命名实体
									Nlp
							 
斯坦福corenlp中Berkley解析器中的交换
									Nlp
							 									Stanford Nlp
							 
为了能够使用和培训斯坦福NLP进行意图分析，我需要了解NLP的哪些知识？
									Nlp
							 									Stanford Nlp
							 
Nlp AnalysisEngine和CAS Consumer之间到底有什么区别？
									Nlp
							 
Nlp 如何在简历/简历中找到人名？
									Nlp
							 									Stanford Nlp
							 
斯坦福NLP POS Tagger对非常简单的短语有问题吗？
									Nlp
							 									Stanford Nlp
							 
如何为定制NameFinder模型进行OpenNLP培训？
									Nlp
							 
Nlp 从无到有的情绪分析
									Nlp
							 
Nlp 如何从文本中提取关系
									Nlp
							 									Stanford Nlp
							 
Nlp 用于构建聊天机器人的对话数据
									Nlp
							 
Nlp 如何在Stanford NER培训中使用pos标签作为功能？
									Nlp
							 									Stanford Nlp
							 
Nlp 在spaCy中，是'；en'；和'；核心网'；模型不同？
									Nlp
							 
Nlp 如何在Python中运行JAVA API
									Nlp
							 									Java
							 
Nlp 解析文本输入，如SRGS语音输入
									Nlp
							 
带频率的多标签分类-NLP（BERT）
									Nlp
							 
使用AllenNLP解释HuggingFace模型
									Nlp
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Java Me
Webpack
Triggers
Apache Pig
Activerecord
Layout
Haskell
Delphi
Zend Framework
Bootstrap 4
Asynchronous
Session
Xpages
File Upload
Discord
Sql Server 2012
Kendo Ui
Webrtc
Android Emulator
Linux Kernel
Embedded
Cocos2d Iphone
Phantomjs
Hyperlink
Subsonic
Data Structures
Recursion
Smtp
Process
Omnet++
Autodesk Forge
Import
Automated Tests
Computer Science
Machine Learning
Pyspark
Speech Recognition
Rxjs
Sphinx
Events
Gis
Dom
Windows Mobile
Apache Spark
R
Arduino
Routing
Nestjs
Xquery
C#
Https
Safari
Office365
Documentation
Servlets
Web Crawler
Jsp
Coding Style
Common Lisp
Octave
Xmpp
Kubernetes
Sockets
Configuration
Web Services
System Verilog
Dialogflow Es
Gwt
Drop Down Menu
Concurrency
Loops
Symfony
Database Design
Imagemagick
Curl
Qml
Select
Keras
Openstack
Oracle Apex
Lua
Wordpress
Soap
Matplotlib
Android Studio
Opencl
Twig
Generics
Teradata
Python Sphinx
Isabelle
Ecmascript 6
Kentico
Autohotkey
Cobol
Groovy
Netbeans
Cloud Foundry
Internet Explorer 8
Hazelcast
Operating System
Windows 7
Methods
Encoding
Email
Opengl
Formatting
Udp
Sorting
Sublimetext3
Phpmyadmin
Airflow
Cors
Silverlight 4.0
Ssis
Web Applications
Xamarin.android
Computer Vision
Grid
Pycharm
Hash
Javafx
Rust
Pandas
Android Layout
Yii
Scala
Silverstripe
Corda
Heroku
Prometheus
Gridview
Mapreduce
Google Cloud Firestore
Discord.py
Macros
Sitecore
Wicket
Ionic2
Xcode4
Amazon Redshift
Django
Dictionary
Plsql
Redux
Windows Services
Synchronization
Mule
Graphql
Linux
Single Sign On
Mobile
Jqgrid
Parameters
Azure Functions
Anaconda
Glassfish
Jboss
Spring Integration
Login
Kotlin
Ffmpeg
Sql
Performance
Filesystems
Mariadb
Jekyll
Spring Cloud
Variables
Fonts
Windbg
Hibernate
Grafana
Routes
Playframework 2.0
Responsive Design
Scroll
Cordova
Drupal
Dns
Passwords
Reflection
Map
Actionscript 3
Azure Active Directory
Objective C
Nosql
Webstorm
Ios5
Pytorch
Sip
Time Complexity
Gatsby
Testing
Typo3
Pascal
Plot
Parallel Processing
Visual Studio 2010
Twitter Bootstrap
Orm


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网