Nlp len（标记器）和tokenizer.vocab_size之间的区别是什么_Nlp_Tokenize_Huggingface Transformers_Huggingface Tokenizers - Fatal编程技术网

Nlp len（标记器）和tokenizer.vocab_size之间的区别是什么

nlp

Nlp len（标记器）和tokenizer.vocab_size之间的区别是什么,nlp,tokenize,huggingface-transformers,huggingface-tokenizers,Nlp,Tokenize,Huggingface Transformers,Huggingface Tokenizers,我正试图在一个经过训练的拥抱变形金刚模型的词汇表中添加一些新词。为了更改标记器的词汇表并增加模型的嵌入大小，我执行了以下操作： tokenizer.add_tokens(['word1', 'word2', 'word3', 'word4']) model.resize_token_embeddings(len(tokenizer)) print(len(tokenizer)) # outputs len_vocabulary + 4 但是在我的语料库上训练模型并保存后，我发现保存的标记器词汇

我正试图在一个经过训练的拥抱变形金刚模型的词汇表中添加一些新词。为了更改标记器的词汇表并增加模型的嵌入大小，我执行了以下操作：

tokenizer.add_tokens(['word1', 'word2', 'word3', 'word4'])
model.resize_token_embeddings(len(tokenizer))
print(len(tokenizer)) # outputs len_vocabulary + 4

但是在我的语料库上训练模型并保存后，我发现保存的标记器词汇量没有改变。再次检查后，我发现上面提到的代码没有改变词汇表大小（tokenizer.vocab_大小仍然相同），只有len（tokenizer）改变了

所以现在我的问题是,；tokenizer.vocab_size和len（tokenizer）之间有什么区别？

从中，如果搜索方法

vocab_size

，您可以在文档字符串中看到它返回的大小不包括添加的令牌：

基本词汇表的大小（不包括添加的标记）

然后通过对标记器对象调用

len（）

方法，该方法本身调用

\uuuu len\uuu

方法：

def __len__(self):
    """
    Size of the full vocabulary with the added tokens.
    """
    return self.vocab_size + len(self.added_tokens_encoder)

因此，您可以清楚地看到，前者返回的大小不包括添加的令牌，而后者包括添加的令牌，因为它本质上是前者（

vocab\u size

）加上
len（添加的令牌编码器）

[push notification]相关文章推荐

Push notification 推送服务器实现技术？ push-notification

Push notification 如何在Windows Phone 8.1中创建支持推送的应用程序？ push-notification windows-phone-8.1

Push notification 有了GMail API，什么'；获取新消息的首选方式是什么？ push-notification

Push notification 未通过Pushwoosh在Windows Universal App（Windows 8.1）上接收推送通知 push-notification windows-phone-8.1

Push notification 在iOS 10上处理用户通知 push-notification

Push notification IBM MobileFirst平台事件源推送通知 push-notification ibm-mobilefirst

Push notification Xamarin Android使用SetSound for Notification频道在通知时播放自定义声音 push-notification xamarin.android

Push notification 世博会如何为推送通知管理1000个FCM令牌？ push-notification

Push notification Google Drive API-单个通知的点击次数不止一次 push-notification google-drive-api

随机文章推荐

Reactjs 为什么在我使用npm安装包之后，CSS样式不应用于react中的组件 reactjs npm gulp

ReactJS:AnimationValue.interpolate for sin和cos reactjs react-native

Reactjs 更新属性时出错'；nativeBackgroundAndroid'；由：RCTView管理的视图的 reactjs react-native

Reactjs 反应警告：“；失败的道具类型：检查器不是一个函数； reactjs

Reactjs 如何使用带有React/Redux的组件将2个模态合并为1个模态？ reactjs redux

ag网格中使用Reactjs的标头组件示例 reactjs ag-grid

Reactjs 为路由中的“路由”提供的属性“组件”无效。道具有问题吗？ reactjs

Reactjs React JS-setState和不需要的重新渲染 reactjs

Reactjs 在慢速组件渲染时显示加载占位符 reactjs

Reactjs 如何在运行时设置/重置react元素的属性 reactjs react-native

Reactjs 是否有一些方法可以检测窗口对象上的更改？ reactjs

Reactjs 普通转换运行后如何转换模块 reactjs openlayers jestjs

Reactjs React Native中的流式音频记录 reactjs react-native audio

Reactjs react应用程序中的LocalFower:未定义self reactjs

Reactjs 爱奥尼亚健康插件无法连接到google fit reactjs cordova

Reactjs 错误：不变量失败：不应使用<；链接>；a<；路由器>，没有导航发生 reactjs

Reactjs 针对nativeEvent offsetX和offsetY，反应酶在MouseDown上未定义 reactjs events jestjs html5-canvas

Reactjs 使用react挂钩的响应性侧边栏 reactjs responsive-design

Reactjs Typescript将自定义对象指定给任何对象 reactjs typescript

Reactjs 方法调用"；等待axios.post”的消息；并且返回的结果不会被阻止 reactjs

[nlp]相关推荐

Nlp 韩语、泰语和印度尼西亚语词性标记
Nlp

Nlp Jython的Antlr vs NLTK
Nlp Antlr

用于大型数据集分类的NLP软件背景
Nlp

Nlp 文本挖掘的基本算法是什么？
Nlp

Nlp 分类情绪数据的来源？
Nlp Machine Learning

Nlp WEKA中SVM训练的标称属性中标称值的最大数量是多少？
Nlp

Nlp 什么是自然语言处理中的词性标记
Nlp Stanford Nlp

Nlp 是否有一个句子词性标注正确，但单词成分错误？
Nlp Stanford Nlp

Nlp 如何将NamedEntityTag用作RelationExtractor中RelationReference中的EntityStation？
Nlp Stanford Nlp

Nlp 依赖关系解析和案例结构分析之间的关系是什么？
Nlp

使用Stanford CoreNLP提取电子邮件地址和电话号码
Nlp Stanford Nlp

Nlp 如何在文档中查找相关术语
Nlp

Nlp CBOW v.s.skip gram：为什么要颠倒上下文和目标词？
Nlp Tensorflow Deep Learning

Nlp TF-IDF和余弦相似性的替代方案（比较不同格式的文档）
Nlp

Nlp 实时机器翻译的最佳评价方法？
Nlp

Nlp 同一性与同位共指
Nlp

Nlp Keras LSTM的内部工作原理
Nlp Deep Learning Keras

Nlp 语言处理-同义词分析
Nlp

Nlp TextRank算法的时空复杂度
Nlp Artificial Intelligence Big O

NLP：在块中解析共指代词
Nlp Stanford Nlp

Nlp 我想根据一些句子的语义对它们进行分类。在这里我如何使用Doc2Vec？还是有比这更好的方法？
Nlp

Nlp 连贯性得分（u_mass）-18分是好还是坏？
Nlp

Nlp 了解fasttext的get_Session_vector（）和get_word_vector（）
Nlp

Nlp 用camemBERT进行关键词提取
Nlp

Nlp 基于随机森林的多标签分类
Nlp

Nlp 基于transformer的语言模型是否过度适用于释义识别任务？什么工具可以克服这一点？
Nlp

Nlp Pytorch TablerDataset加载csv花费的时间太长
Nlp Pytorch

Tags

Entity Framework Core Localization Ms Word Orientdb Eclipse Rcp Ios6 Lisp Deep Learning Pagination Xcode Report Validation Umbraco Google Chrome Flash Ethereum Gdb Openssl Log4net Xmpp Stm32 Db2 Animation Sparql Fortran Character Encoding Functional Programming Fonts Instagram Sharepoint Kubernetes Memory Management Ssis Sails.js Sugarcrm Mvvm Bluetooth Select Map Netbeans Seo Swift Network Programming Windows 7 Pascal Opengl Es Struts2 Keyboard Firebase Programming Languages Bots Linkedin Less Delphi Webrtc Marklogic Uml Asterisk Enums Command Line Vb.net Cocos2d X Cron Msbuild Requirejs Mule Jetty Playframework 2.0 Macos Opencart Internet Explorer 8 Lambda Kdb Nestjs Wicket Go Joomla Big O Here Api Prestashop Inno Setup Aurelia Jakarta Ee Iis Drools Apache Zookeeper Drupal Prometheus Opengl Migration Oracle Apex Apache2 Influxdb C++11 Testing Sbt Extjs4 Fullcalendar Google Chrome Devtools C# 3.0 Embedded Vagrant Amazon Web Services Asp.net Mvc 3 Image Processing Push Notification Numpy Loops Hybris Scikit Learn Sip Transactions Dart Twitter Image Sencha Touch Charts Stata Directory Excel Formula Cluster Computing Prolog Shell Sql Server 2008 Julia Database Url View Fluent Nhibernate Xml Internet Explorer Grafana Random Ionic2 Dom Html5 Canvas Jar Phpmyadmin Intellij Idea Angular Material Windows Bash Git Gcc Netty User Interface Redux Vmware Dotnetnuke Itext Vim Qml Postgresql Amp Html Oracle11g Hibernate Model View Controller Csv Shopify Docker Tsql Wix Matplotlib Listview Debian Next.js Apache Flex Wcf Path Actionscript 3 Visual Studio 2012 Language Agnostic Web Crawler Perforce Ftp Ssas Drupal 7 Visual Studio 2013 Xaml Dns Apache Certificate Gis Python 3.x D Jpa Asp Classic Maps Struct Amazon Cloudformation Cookies Routes Notifications Templates Installation Glassfish Html Google Analytics Api Yii Gridview

Copyright © 2024. All Rights Reserved by - Fatal编程技术网