Pandas 通过排除某些词汇表，更快地加载fasttext模型_Pandas_Scikit Learn_Nlp_Stanford Nlp_Fasttext - Fatal编程技术网

Pandas 通过排除某些词汇表，更快地加载fasttext模型

pandas scikit-learn nlp stanford-nlp

Pandas 通过排除某些词汇表，更快地加载fasttext模型,pandas,scikit-learn,nlp,stanford-nlp,fasttext,Pandas,Scikit Learn,Nlp,Stanford Nlp,Fasttext,在本地机器上加载Facebook Research发布的经过预训练的fasttext WordVector需要很长时间，我喜欢这样： model = fs.load_word2vec_format('wiki.en.vec') print(model['test']) # get the vector of the word 'test' 我试图通过删除数据集中未出现的单词的单词向量来减少加载时间。也就是说，我想将预训练向量模型简化为组成我需要分析的数据集的单词，数据集是预训练模型的子集

在本地机器上加载Facebook Research发布的经过预训练的fasttext WordVector需要很长时间，我喜欢这样：

model =  fs.load_word2vec_format('wiki.en.vec') 
print(model['test']) # get the vector of the word 'test'

我试图通过删除数据集中未出现的单词的单词向量来减少加载时间。也就是说，我想将预训练向量模型简化为组成我需要分析的数据集的单词，数据集是预训练模型的子集
我正准备尝试通过提取所需的字向量并保存到新模型来构建新模型，但类型将从FastTextKeyedVectors更改为FastText：

如何减少我的加载时间？我的方法有意义吗？还是我走错了路？
如果可以迭代.vec格式，那将是消除不需要的单词的最快方法。要了解这一点，您应该查看数据库的结构。如果它与xml格式很接近，那么这应该是可行的，并且python中如何迭代xml文件已经有了广泛的文档
然而，关于您的方法，假设您只是以字典的形式在RAM中加载了整个
模型
，只是一个简单的提示，请使用理解语法：

model={model[word] for word in model if word in mywords}
其中，
mywords
是您要保留的单词列表。
这会抛出错误“int不可编辑”，但所涉及的结构都不是int类型。您能帮忙吗？
model={model[word] for word in model if word in mywords}

[scikit learn]相关文章推荐

Scikit learn TypeError:不可损坏的类型 scikit-learn

Scikit learn 递归特征消除&；使用scikit学习的网格搜索：弃用警告 scikit-learn

Scikit learn 无法导入名称MLPrePressor scikit-learn neural-network

Scikit learn 当我使用sklearn并行模块时“；从cdnmf快速导入“更新cdnmf快速”；，它的并行化不起作用 scikit-learn

Scikit learn sklearn.cross_验证是由sklearn.model_选择触发的弃用警告 scikit-learn anaconda

Scikit learn 分类-修正huber损失：如何更能容忍异常值？ scikit-learn

Scikit learn 基于LIBSVM在scikit.smv.SVC中启用概率估计 scikit-learn

Scikit learn 如何在scikit学习管道中绑定参数？ scikit-learn keras

Scikit learn 使用CV的递归特征删除不'；t减少特征计数 scikit-learn

Scikit learn 使用“时会发生什么？”；“U级重量”；及；"；svm.scv（）中同时存在的参数？ scikit-learn

Scikit learn scikit学习PCA-变换结果 scikit-learn

Scikit learn 导入错误：无法导入名称'_打印经过的时间'； scikit-learn

Scikit learn sklearn'的意外行为；s典型相关分析（CCA） scikit-learn statistics

Scikit learn 如何修复valueError：要解包的值太多（预计3个） scikit-learn

Scikit learn 修剪后如何得到修剪后的随机森林模型？ scikit-learn

Scikit learn 带有sklearn随机林的Dask ML导致连接关闭 scikit-learn dask

Scikit learn 关于正类和sklearn metric pos_label=0的混淆 scikit-learn

随机文章推荐

Mariadb 使用concat（）生成列别名 mariadb

Mariadb 减少每个请求的查询时间 mariadb

[pandas]相关推荐

Pandas 熊猫排序串联系列：按日期加速切片
Pandas

Pandas 使用平均值、STDEV和计数统计信息按多个列对数据帧分组
Pandas Statistics

Pandas 在保留索引列的同时转置熊猫中的数据帧
Pandas Indexing Dataframe

Pandas 熊猫图图例=False不工作
Pandas Matplotlib Plot

Pandas 存储数据帧列表的有效方法
Pandas

Pandas 如何选择第一个值为NaN的列？
Pandas

Pandas 找出数据帧中两列之间的空值
Pandas

Pandas 从最大值到第10个值排序，并输出其对应的行
Pandas Dataframe

Pandas 如何根据多索引定义的范围对一列中的值范围求和
Pandas

Pandas 使用精度召回曲线时确定的阈值
Pandas Scikit Learn

Pandas 数据帧之间的匹配间隔
Pandas Dataframe

Pandas 根据数据帧中的值（每行前20列）进行列选择，数据帧具有多列，同时保留所有行
Pandas Dataframe

Pandas 根据条件创建标签
Pandas Numpy

Pandas 多索引向量设置
Pandas

Pandas 将groupby对象转换为dataframe，同时保留组语义
Pandas

Pandas 在特定条件下过滤柱？
Pandas

Pandas 熊猫导出为_csv（），列名周围带引号
Pandas Csv

如何用字符串“替换pandas数据帧中的所有NAN？”；无”；
Pandas

将KDE与scikitlearn和pandas结合起来进行绘图。然而，分布不在数据范围之内
Pandas Python 2.7 Scikit Learn

Pandas 在索引和一列上连接3个数据帧
Pandas

Pandas 将数据帧加载到具有int64数据类型的配置单元中
Pandas Hadoop Hive

为什么Pandas和GeoPandas能够使用DBAPI（psycopg2）连接读取数据库表，但必须依靠SQLAlchemy来编写？上下文
Pandas Dataframe Sqlalchemy

Pandas “Line2D”对象没有属性“种类”
Pandas Datetime

Pandas 熊猫通过matplotlib和seaborn进入图表
Pandas Matplotlib

Pandas 熊猫：如何对数据框中的一系列列进行排序？
Pandas Dataframe Sorting

在Python中使用Pandas提高处理大型csv文件的速度
Pandas Csv

Pandas 熊猫是一种可供选择的性能？
Pandas Dataframe

PySpark数据帧行上的Pandas udf循环
Pandas Dataframe Apache Spark Pyspark

Pandas 从特定列生成随机数
Pandas Random

Pandas read_html无法读取表格
Pandas

Tags

Jira Https Swing Processing Heroku Jenkins Jwt Swift3 Android Ndk Docker Compose Ignite Spring Batch Smtp Silverlight Stream Gtk Unity3d Hybris Javafx .net 4.0 Mpi Openssl Rss Search Kdb Xaml Postgresql Ibm Midrange Ftp Build Netlogo Ip Qml Cors Udp Visual Studio 2013 Angular6 Office365 Windows 7 Openstack Camera Discord.js Php Objective C Jpa Intellij Idea Coding Style C String Ios5 F# Android Layout Video Teamcity Artificial Intelligence Cakephp Playframework 2.0 Twitter Bootstrap 3 For Loop Amazon Redshift Browser Xquery Email Installation Virtual Machine Webrtc Passwords Html .net Core Nativescript Typo3 Android Coldfusion Android Fragments Quickbooks Notifications Java Ipython Jersey Maven Prolog Dns Razor Maps Mediawiki Orientdb Windows Phone Activerecord Selenium Antlr Drupal Serialization Dynamics Crm Keras Content Management System Formatting Sphinx Sqlite Odoo Network Programming Awk Pip Calendar Curl Soap Time Complexity Wicket Playframework Grid Asp Classic Tfs Parsing Sip Hyperledger Fabric Sqlalchemy Nsis Lotus Notes Acumatica Model View Controller Encryption Makefile Raspberry Pi Iis 7 Listview Hash Flutter Apache Spark Routes Usb Stored Procedures Jestjs Git Robotframework Filesystems Mfc Cryptography Django Models Visual Studio 2010 Qt Canvas Dask Uitableview Ffmpeg Actions On Google Bootstrap 4 Python Ruby On Rails Xmpp Ms Access Mapping Deployment Lambda Nservicebus Magento2 Glassfish Binding Reflection Nginx Plone Scala Sprite Kit Process Zsh Templates Outlook Here Api Netbeans Sencha Touch Discord.py Tinymce Debian Types Activemq Django Ant Shiny Azure Sql Database Spring Doctrine Orm Amazon Cloudformation Jetty Verilog Sorting Data Binding Database Design Markdown Google Apps Script Javascript Jquery Mobile Dojo Date Actionscript 3 Yaml Binary Apache Flex Gridview Time Typescript Cloud Foundry Pandas Xampp

Copyright © 2024. All Rights Reserved by - Fatal编程技术网