Python 我可以将自定义令牌规则应用于spaCy中按前缀拆分的令牌吗？_Python_Tokenize_Spacy_Prefix - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/flash/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 我可以将自定义令牌规则应用于spaCy中按前缀拆分的令牌吗？_Python_Tokenize_Spacy_Prefix - Fatal编程技术网

Python 我可以将自定义令牌规则应用于spaCy中按前缀拆分的令牌吗？

python

Python 我可以将自定义令牌规则应用于spaCy中按前缀拆分的令牌吗？,python,tokenize,spacy,prefix,Python,Tokenize,Spacy,Prefix,我定制了一个spaCy标记器，带有额外的规则和前缀，分别将w/和f/视为，带有和for。前缀正确地将它们分开，但是引理和规范的自定义规则没有在这种情况下应用下面是代码的摘录 def create_tokenizer(nlp): rules = dict(nlp.Defaults.tokenizer_exceptions) rules.update({ 'w/': [{ORTH: 'w/', LEMMA: 'with', NORM: 'with'}],

我定制了一个spaCy

标记器

，带有额外的规则和前缀，分别将

w/

和

f/

视为

，带有和for
。前缀正确地将它们分开，但是引理和规范的自定义规则没有在这种情况下应用
下面是代码的摘录
def create_tokenizer(nlp):
    rules = dict(nlp.Defaults.tokenizer_exceptions)
    rules.update({
        'w/': [{ORTH: 'w/', LEMMA: 'with', NORM: 'with'}],
        'W/': [{ORTH: 'W/', LEMMA: 'with', NORM: 'with'}],
        'f/': [{ORTH: 'f/', LEMMA: 'for', NORM: 'for'}],
        'F/': [{ORTH: 'F/', LEMMA: 'for', NORM: 'for'}],
    })

    custom_prefixes = (
        r"[wW]/",
        r"[fF]/",
    )

    prefix_re = spacy.util.compile_prefix_regex(nlp.Defaults.prefixes + custom_prefixes)

    return Tokenizer(
        nlp.vocab,
        rules=rules,
        prefix_search=prefix_re.search,
    )

这是结果
>>> doc = nlp("This w/ that")
>>> doc[1]
w/
>>> doc[1].norm_
'with'

在这个w/那个
的情况下，w/
被拆分，但它没有应用自定义规则（即规范
是w/
而不是带
）。要将自定义规则应用于按前缀/中缀/后缀拆分的令牌，我需要做什么？
不幸的是，在spacy v2中，无法将前缀和后缀也作为例外进行分析。为了支持这样的情况，标记器异常将在即将发布的spacy v3版本中得到更广泛的处理，但我不知道何时发布
我认为在spacy v2中，最好的方法是使用一个快速的后处理组件，将引理/范数分配给单独的令牌，如果它们与ORH模式匹配。啊，那太糟糕了。我将为这些异常执行自定义管道组件。谢谢
>>> doc = nlp("This w/that")
>>> doc[1]
w/
>>> doc[1].norm_
'w/'




[flash]相关文章推荐



                                                        
                                       





随机文章推荐



                                                        
正在将AOSP源上载到专用Gitlab服务器
gitlab 
获取所有Gitlab问题
gitlab 
将Gitlab问题转移到Youtrack
gitlab 
如何在GitLab中默认为所有者禁用删除项目权限？
gitlab 
多个分支中的.gitlab-ci.yml的多个版本
gitlab 
Gitlab CI/CD管道问题
gitlab 
如何在gitlab中创建存储库徽章？
gitlab 
Gitlab中生成的超时错误
gitlab 
使用Gitlab CI/CD部署后运行命令
gitlab 
如何从私有gitlab回购中创建公共发布？
gitlab 
如何在服务器端或Gitlab级实现git钩子
gitlab 
GitLab CI、monorepo和功能分支
gitlab 
Gitlab GitAhead:尝试推送时请求凭据-无法继续
gitlab 
Gitlab 在giltab README.md中自动更新项目中使用的库版本
gitlab 
Gitlab runner在一个作业完成之前开始另一个作业
gitlab 
某些用户不再出现在“中”@&引用；Gitlab标记文本字段中的自动完成
gitlabmarkdown 
Gitlab 何时：下游管道中的手动导致上游报告故障
gitlab 
如何排除gitlab代码质量扫描json文件中未包含的文件或文件夹，以减少代码质量问题
gitlab 
在GitLab中，是否可以通过管道自动创建问题？
gitlab 
Gitlab K8s executor-非K8s环境的名称空间
gitlab


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
Python 一条巨蟒一行？如果x在y中，那么做x
number=[1,2,3,4,5,6,7,8,9]
数字=1
									Python
							 									Ruby
							 
附加到Python中的列表列表，带有条件
									Python
							 									List
							 
Python 如何为Pytables Array创建定义atom
									Python
							 									Numpy
							 
Python SQLAlchemy MySQL直接连接
									Python
							 									Mysql
							 									Sqlalchemy
							 
Python 将数字应用于字符串的序列生成
									Python
							 									String
							 									Python 2.7
							 
Python 从目录中的文件列表中删除元素
									Python
							 									List
							 
Python 减少Dart中包装器对象的数量
									Python
							 									Oop
							 									Python 2.7
							 									Dart
							 
如何使Anaconda python在Windows上的Emacs中工作
									Python
							 									Windows
							 									Emacs
							 									Anaconda
							 
继承自sklearn.linear#u模型不'；在Python中无法按预期工作
									Python
							 									Scikit Learn
							 
Python Gunicorn即使在创建新应用程序时也会超时
									Python
							 									Django
							 									Configuration
							 
Python Matplotlib不显示标签或数字
									Python
							 									Matplotlib
							 
Python 使用.loc时设置CopyWarning
									Python
							 									Pandas
							 
Python 如何在Flask中模拟函数装饰器？
									Python
							 									Unit Testing
							 									Flask
							 
Python3 wifi模块返回对象，而不是wifi网络列表
									Python
							 									Python 3.x
							 									Networking
							 
Python 服从某种分布的随机数
									Python
							 									Random
							 
Python 基于其他数据框（按日期）中的列标题成员身份设置数据框（按日期）中的布尔值
									Python
							 									Pandas
							 
Python 将一个整数分解为尽可能接近平方的因子
									Python
							 									Algorithm
							 
Python 将图像重新投影到图像中的3D对应像素（立体视觉）
									Python
							 									Opencv
							 
Python Splinter无头选项被拒绝
									Python
							 									Python 3.x
							 									Firefox
							 
Python 信号未从线程传递到GUI
									Python
							 									Multithreading
							 									Qml
							 
Python 视频流套接字编程面临的问题
									Python
							 									Sockets
							 									Serial Port
							 
Python 对数据帧内列表的值进行排序'；s柱
									Python
							 									Pandas
							 									Dataframe
							 
Python 从XML文件中获取多个元素并将其转换为样式化元素
									Python
							 									Xml
							 									Python 3.x
							 									Csv
							 
Python 线条样式匹配-打开CV？
									Python
							 									Opencv
							 
Python 比较两个数据帧中的值
									Python
							 									Pandas
							 
Python 无法在Ubuntu中pip安装regex
									Python
							 									Regex
							 									Ubuntu
							 									Gcc
							 
Python：在查找大型数组的乘积时，如何最好地减少浮点错误？
									Python
							 									Numpy
							 
Python django admin startproject未创建manage.py
									Python
							 									Django
							 
Python Checkbutton只读取一次值
Python Checkbutton只读取一次值
									Python
							 									Button
							 									Checkbox
							 									Tkinter
							 
Python'；s cmd.cmd不区分大小写的命令
									Python
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Api
Pointers
Linux
Javafx 2
Winapi
Symfony1
Webstorm
Dotnetnuke
Spring Integration
Delphi
Nestjs
Asp.net Web Api
Ios5
Sails.js
Soap
Puppet
Tabs
Xamarin.forms
Amazon Redshift
Cmd
.htaccess
Parallel Processing
Ionic Framework
Hadoop
Dynamics Crm
Loopbackjs
Logstash
Db2
Project Management
Utf 8
Visual Studio 2015
Lotus Notes
Flask
Nsis
Postman
Go
Exception
Vuejs2
Azure Service Fabric
File
Weblogic
Teamcity
Caching
Abap
Cookies
Gps
Charts
Dart
Jersey
Graphviz
Macos
Oracle Apex
Protractor
Templates
Rally
Jdbc
D
Grep
Facebook Graph Api
Spring Boot
Silverstripe
Qml
Jhipster
Boost
Jms
Search
Yocto
Tensorflow
Visual Studio 2012
Actions On Google
Video Streaming
Scala
Exception Handling
Uml
Elixir
Pip
Design Patterns
Tinymce
Error Handling
Opencart
Phpstorm
Path
Wcf
Google Analytics
Air
Events
Here Api
Snowflake Cloud Data Platform
Hyperlink
Apache Flink
Itext
Random
Macros
Mapreduce
Twig
Google Compute Engine
Pycharm
Eclipse
Yii2
Umbraco
Jar
Anaconda
Gnuplot
Gis
Cuda
Rdf
Adobe
Unicode
User Interface
Ssl
Cygwin
Character Encoding
Sprite Kit
Sqlalchemy
Raspberry Pi
Groovy
Computer Science
Visual C++
Map
Model
Visual Studio
Three.js
Compiler Errors
Syntax
Xpath
Jestjs
Android Layout
Azure Functions
Download
Asterisk
Microsoft Graph Api
Github
Safari
Webgl
Video
R
Silverlight
Formatting
Graphql
Http
Canvas
Netsuite
Android Emulator
Iphone
Openerp
Ajax
Tcl
Artifactory
Javafx
Angular
Keyboard
Parameters
Imagemagick
Version Control
Azure Data Factory
Apache Kafka
Devexpress
Udp
Streaming
Smtp
Xsd
Entity Framework 4
Zurb Foundation
Ant
Dependency Injection
Actionscript
Wxpython
Amazon Dynamodb
Symfony
Hash
Keras
Vector
Clojure
Cocos2d Iphone
Doctrine Orm
Ada
D3.js
Ansible
Servlets
Material Ui
Apache Flex
Generics
Linkedin
Gstreamer
Data Structures
Mpi
Extjs4
Shopify
Redux
Geometry
Lua
Domain Driven Design
Windows
Windows Phone
Spring
Odoo
Floating Point
Big O
Solr
Testing
Machine Learning


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网