Pandas 根据一个词在另一个词中的出现情况创建新列_Pandas_Dataframe_Substring - Fatal编程技术网

Pandas 根据一个词在另一个词中的出现情况创建新列

pandas dataframe

Pandas 根据一个词在另一个词中的出现情况创建新列,pandas,dataframe,substring,Pandas,Dataframe,Substring,我有一列10k行长。每列包含['PDF'、'ZIP'、'HTML'中的一列]。文本中每个条目的最大长度为14个字符如何获得： pd.DataFrame({'text':['fewfwePDFerglergl','htrZIPg','gemlHTML']}) text 0 wePDFerglergl 1 htrZIPg 2 gemlHTML 我尝试了df.text[0]。为单个条目查找（'ZIP'），但不知道如何将所有条目缝合在一起，以测试并返回列中每一行的正确值有什么

我有

一列10k行长。每列包含['PDF'、'ZIP'、'HTML'中的一列]。文本中每个条目的最大长度为14个字符

如何获得：

pd.DataFrame({'text':['fewfwePDFerglergl','htrZIPg','gemlHTML']})
    text
0   wePDFerglergl
1   htrZIPg
2   gemlHTML

我尝试了

df.text[0]。为单个条目查找（'ZIP'）

，但不知道如何将所有条目缝合在一起，以测试并返回列中每一行的正确值

有什么建议吗？

我们可以在这里将regex标志用于区分大小写的

（？i）

或者我们使用

flags=re.IGNORECASE

参数：

words =  ['pdf','zip','html']
df['file_type'] = df['text'].str.extract(f'(?i)({"|".join(words)})')

输出

import re
df['file_type'] = df['text'].str.extract(f'({"|".join(words)})', flags=re.IGNORECASE)

如果您想将

文件类型

作为小写，请链接：

详细信息：管道（

）是正则表达式中的

或运算符。因此：
                text file_type
0  fewfwePDFerglergl       pdf
1            htrZIPg       zip
2           gemlHTML      html

我们在伪代码中得到以下内容：
从字符串中提取“pdf”或“zip”或“html”
您可以使用正则表达式来执行以下操作：
"|".join(words)

'pdf|zip|html'

这将匹配任何所需的子字符串。要在适当的情况下按顺序提取这些匹配项，请使用一行代码：
import re
regex = re.compile(r'(PDF|ZIP|HTML)')

这将返回以下列表：
file_type = [re.search(regex, x).group().lower() for x in df['text']]

然后添加列：
['pdf', 'zip', 'html']

import re
regex = re.compile(r'(PDF|ZIP|HTML)')

file_type = [re.search(regex, x).group().lower() for x in df['text']]

['pdf', 'zip', 'html']

df['file_type'] = file_type




[dataframe]相关文章推荐



                                                        
Dataframe 基于字符串长度的Julia数据帧过滤
dataframejulia 
Dataframe 如果其他两列不符合筛选条件，则从列中获取值
dataframe 
Dataframe Deedle F#-查找索引组中的最大行数
dataframef# 
Dataframe 如何向Spark数据框添加一列，其中包含mean和count等聚合？
dataframepyspark 
Dataframe 如何使用geom_线连接多个连续缺失的数据值？
dataframe 
Dataframe 如何使用多列值聚合数据帧中的多列
dataframer 
Dataframe R中组内所有行之间的数值差
dataframer 
Dataframe 将HDF5作为Dask数据帧读取时出错，原因是什么？
dataframedask 
Dataframe Spark数据帧筛选器vs配置单元where子句
dataframeapache-sparkhive 
Dataframe 指定x轴尺寸julia statsplots包
dataframejulia 
Dataframe 基于条件对同一列中的值求和
dataframe 
Dataframe 拼花文件加载到内存的内部过程
dataframememory 
                                       





随机文章推荐



                                                        
Jboss 5.0 EJB3.0异步代理
jbossasynchronous 
如何为JBoss 4.2.2.GA中的EJB指定不同于默认值的jndi名称？
jboss 
为什么hyperic可以'；自动发现我的Jboss AppSvr？
jboss 
将队列从JBoss 4.2.3迁移到JBoss 5.1
jbossjms 
可以在jboss中管理ldap上下文吗？
jbossldap 
JBossESB、JBRMS和JBPM
jbossdrools 
Jboss 在EJB中使用javax.resource.spi.work.work的StreamGobbler
jbossstream 
Jboss 4.2.3-8个CPU中的一个CPU上的高负载
jboss 
当JBoss因为其他系统而无法处理消息时，如何停止MDB'；失败
jbossibm-mq 
Jboss WebSphere 7.0远程客户端回滚全局用户事务
jbosstransactionswebsphere 
JBoss&；莺：没有这样的文件加载
jboss 
Jboss Wildfly 8.1.0以备用配置独立运行
jboss 
Jboss KIE工作台登录后未加载
jbossdrools 
将RESTEasy JAX-RS应用程序部署到JBoss-JBAS018040:无法启动上下文
jboss 
Magnolia CMS Jboss服务器配置（中间件任务）
jbosscontent-management-system 
JBOSS Cli添加连接器、接受器和连接工厂
jboss 
Jboss EAP 6.1服务器日志文件数量继续增加
jboss 
Jboss 如果我没有使用某些模块，是否必须在wildfly10.1.0 standalone.xml中包含所有模块？
jboss 
Jboss 此处不允许使用Wildfly子系统配置属性
jboss 
无法启动使用不同端口尝试的jboss
jboss


                                        

                                        
                                        


                                                
                                                        [pandas]相关推荐
                                                        
Pandas 移动多索引时间序列的最有效方法
									Pandas
							 
Pandas 函数，使用以前计算的值
									Pandas
							 
Pandas 熊猫排序串联系列：按日期加速切片
									Pandas
							 
Pandas Python：如何对一列进行分类平均？
									Pandas
							 
Pandas 如何计算有多少不同的URL使用熊猫
									Pandas
							 
Pandas 如何根据多索引定义的范围对一列中的值范围求和
									Pandas
							 
Pandas 如何计算自定义时间列的滚动和？
									Pandas
							 
Pandas 标记大小/带窗口大小的alpha缩放/放大打印/分散
									Pandas
							 									Matplotlib
							 
Pandas 根据条件创建标签
									Pandas
							 									Numpy
							 
Pandas 时间差计算误差
									Pandas
							 									Datetime
							 
Pandas 将熊猫中的一列按另一列分组？
									Pandas
							 									Sorting
							 
Pandas 多索引向量设置
									Pandas
							 
Pandas 将groupby对象转换为dataframe，同时保留组语义
									Pandas
							 
Pandas 熊猫导出为_csv（），列名周围带引号
									Pandas
							 									Csv
							 
如何用字符串“替换pandas数据帧中的所有NAN？”；无”；
									Pandas
							 
Pandas 如何从数据帧中找到与数组完全相同的行索引？
									Pandas
							 									Dataframe
							 									Indexing
							 
Pandas 如何从示例dataframe的“创建时间”列中获取小时数，并将其作为另一个dataframe进行计数
									Pandas
							 
Pandas 如何将数据帧（df）列的每个值的第一位提取到新的数据帧（df1）
									Pandas
							 
Pandas 基于另一个数据帧执行替换
									Pandas
							 									Dataframe
							 
Pandas 删除Python系列中带有特殊字符的前缀
									Pandas
							 									Replace
							 
Pandas 将数据帧加载到具有int64数据类型的配置单元中
									Pandas
							 									Hadoop
							 									Hive
							 
pandas-如何使用多索引在数据帧的深层检索极小值ID
									Pandas
							 									Dataframe
							 									Indexing
							 
Pandas 熊猫通过matplotlib和seaborn进入图表
									Pandas
							 									Matplotlib
							 
Pandas 如何使用'NaN'值显示索引；对于熊猫中的每一列？
									Pandas
							 
Pandas 合并两个数据帧时如何应用条件逻辑
									Pandas
							 									Dataframe
							 
Pandas 熊猫分级索引&x27；s使用n-d numpy数组作为索引的数据帧
									Pandas
							 									Numpy
							 									Dataframe
							 
Pandas 我希望将一列的元素复制到另一列，但跳过一个元素&；忽略最后一个，因为它会生成错误
									Pandas
							 									For Loop
							 
在pandas中创建分层列的问题
									Pandas
							 									Dataframe
							 
Pandas 数据帧中时间序列的日期和月平均值排序
									Pandas
							 									Dataframe
							 									Sorting
							 
Pandas 使用带有时间列的熊猫数据帧
									Pandas
							 									Sorting
							 									Datetime
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Msbuild
Compiler Construction
Network Programming
Hybris
Debugging
Automation
Cuda
Eclipse Rcp
Python 3.x
String
Install4j
Sass
Processing
Push Notification
Composer Php
Computer Vision
Variables
Magento
Socket.io
Generics
Character Encoding
Cakephp
Mapbox
Model View Controller
Jupyter Notebook
Atom Editor
Csv
Webview
Ios7
Laravel
Swing
Iphone
Bots
Cocos2d Iphone
Oauth 2.0
Rabbitmq
Google Visualization
Silverlight
Sip
Pytorch
Here Api
Sed
Virtualbox
Android Ndk
Maven 2
Odata
Canvas
Vb6
Prometheus
Tkinter
Replace
Url
Dependencies
Migration
E Commerce
Gtk
Windows 10
Stored Procedures
Flash
Antlr4
Cron
Itext
Apache Pig
Woocommerce
Content Management System
Linux Kernel
Jvm
Xna
Subsonic
Input
Awk
Scikit Learn
Command Line
Windows 8
Firefox Addon
Utf 8
Menu
Haskell
Php
Gstreamer
Ruby On Rails 3.1
Validation
Nestjs
Recursion
Backbone.js
Java 8
Web Scraping
Ssis
Notepad++
Maps
Lua
Swift
Scroll
Random
Asterisk
Modelica
Xpath
Project Management
Playframework 2.0
Iis
Centos
Bison
Google Drive Api
Chart.js
Linq To Sql
Animation
Button
Reflection
Kentico
Continuous Integration
Active Directory
Memory Management
Com
Logic
X86
Nsis
C# 3.0
Netlogo
Google Cloud Dataflow
Acumatica
Sqlalchemy
Routing
Mdx
Syntax
Visual C++
Android Studio
Oop
Jaxb
Google Maps Api 3
Webpack
Apache
Azure Devops
Cygwin
Cookies
File
Editor
Data Structures
Ag Grid
Security
Glassfish
Cluster Computing
Design Patterns
Plsql
Layout
Twilio
Fullcalendar
Google Apps Script
Windbg
Weblogic
Url Rewriting
Pagination
Floating Point
Powerbi
C++11
Intellij Idea
Pycharm
Ftp
Joomla
Charts
Opengl
Rx Java
Ember.js
Ipad
Makefile
Sitecore
Azure
Autocomplete
Google Colaboratory
File Upload
Calendar
Numpy
Seo
Facebook
Jwt
Class
Html
Powershell
Oracle10g
Apache Spark
Serialization
Orm
Installation
Process
Influxdb
Octave
Yaml
Dart
Wso2
Serial Port
Ruby On Rails 4
C#
Vba
Common Lisp
Oauth
Visual Studio 2010
Gps
Android Layout
Google Chrome
Wolfram Mathematica
Select
Gruntjs


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网