Python 3.x 熊猫：数据帧的重组_Python 3.x_Pandas_Data Cleaning - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 熊猫：数据帧的重组_Python 3.x_Pandas_Data Cleaning - Fatal编程技术网

Python 3.x 熊猫：数据帧的重组

python-3.x pandas

Python 3.x 熊猫：数据帧的重组,python-3.x,pandas,data-cleaning,Python 3.x,Pandas,Data Cleaning,我正在寻找清理以下数据的方法：我想输出如下内容：第一列为标记化单词，另一列为相关标签 Pandas和NLTK是否有一个特定的策略来一次性获得这种类型的输出提前感谢您的帮助或建议对于第一个表格，只需拆分第一列并重复第二列： import pandas as pd data = [['foo bar', 'O'], ['George B', 'PERSON'], ['President', 'TITLE']] df1 = pd.DataFrame(data, columns=['col1

我正在寻找清理以下数据的方法：

我想输出如下内容：

第一列为标记化单词，另一列为相关标签

Pandas和NLTK是否有一个特定的策略来一次性获得这种类型的输出

提前感谢您的帮助或建议

对于第一个表格，只需拆分第一列并重复第二列：

import pandas as pd

data = [['foo bar', 'O'], ['George B', 'PERSON'], ['President', 'TITLE']]
df1 = pd.DataFrame(data, columns=['col1', 'col2'])

print(df1)

df2 = pd.concat([pd.Series(row['col2'], row['col1'].split(' '))
                 for _, row in df1.iterrows()]).reset_index()
df2 = df2.rename(columns={'index': 'col1', 0: 'col2'})
print(df2)

输出：

        col1    col2
0    foo bar       O
1   George B  PERSON
2  President   TITLE

        col1    col2
0        foo       O
1        bar       O
2     George  PERSON
3          B  PERSON
4  President   TITLE

至于拆分第1列，您需要查看支持正则表达式的拆分方法，该方法应允许您处理各种语言分隔符：

如果没有给出第1个表，那么在1中就没有办法做到这一点，因为pandas没有内置NLP功能。
使用解决方案，不接受下面或重复中的答案。是的，不幸的是，接受的答案并不总是指像从dupe复制的解决方案这样的最佳答案：(

[pandas]相关文章推荐

在pandas中放置具有多个键的行 pandas

在pandas/matplotlib中获取散点图的Colorbar实例 pandas matplotlib plot

使用seaborn with pandas防止钢筋重叠 pandas matplotlib ipython

Pandas 如何选择数据帧中有两个以上条目的索引？ pandas

pandas groupby中的自定义聚合函数 pandas

Pandas 同时读取熊猫中的HDF5文件 pandas concurrency

Pandas 在Dataframe中看不到完整列 pandas

Pandas 在DataFrame上创建新列，其中的条目是从另一列中随机选择的条目 pandas

Pandas 仅提供列标题的合并函数-更新我想要达到的目标。 pandas merge

Pandas 新的数据帧列'；计数'；对于每个ID且小于日期 pandas dataframe

Pandas 如何读取CSV、分隔符、分隔符错误 pandas csv

Pandas 值的长度与使用np.linspace的索引长度不匹配 pandas for-loop

PyODBC+Pandas+Read_SQL:错误：光标的连接已关闭 pandas

Pandas 使用np.select和np.where替换基于条件的df中的值 pandas replace

Pandas 即使将“日期”列设置为“索引”，日期也不起作用 pandas date indexing

Pandas 打印两列，其中一列有条件？ pandas

Pandas python用日期绘制多个条形图范围 pandas datetime matplotlib

Pandas 类型错误：'&燃气轮机'；在'；str'；和'；int'；熊猫 pandas

Pandas 按列筛选熊猫并随机化 pandas

Pandas 如何解析df列中的嵌套列？ pandas dataframe parsing

随机文章推荐

Openstack 对象存储-快速重启问题 openstack

Openstack 无法从远程计算机访问Swift REST服务 openstack

Openstack 重新启动时从ISO启动将再次从icehouse中的ISO安装它 openstack

Openstack juno中子带gre隧道，qrouter未ping vm，vm未从dhcp获取ip openstack

如何在rdo openstack中建立网关接口？ openstack

如何使用openstack API v3列出可访问卷 openstack

Openstack 重新启动Ubuntu系统后如何重新启动devstack？ openstack

OpenStack自定义仪表板 openstack

Openstack 我们是否在开放堆栈中具有发送电子邮件功能？ openstack

Openstack Swift安装：管理openrc openstack

使用openstack客户端，带有静态IP的接口不会自动出现 openstack

[python 3.x]相关推荐

Tags

Spring Integration Cocoa Touch Ms Office Phantomjs Angular Material Prestashop Sqlite Networking Activemq Linux Pyspark Iis 7 Vmware Typo3 C# 3.0 Ms Access Pentaho Django Rest Framework Composer Php Datetime Asterisk Apache Spark Opencart Extjs4 Hbase Directx Jmeter Meteor Web Applications Dart Codeigniter Error Handling Socket.io Devexpress Java Me Kendo Ui Workflow Gnuplot Google Cloud Firestore Deployment Math Computer Vision Tinymce Pip Actionscript 3 Delphi Windows Phone 7 Google Cloud Dataflow Report Markdown Apache Kafka Stm32 Session Openlayers Orm Amp Html Sphinx Import Drools Snmp Single Sign On Windows Nosql Vbscript Elm Mongoose Sails.js Excel Formula Triggers Llvm Instagram Asp.net Google Visualization Enums Visual Studio Webrtc Ecmascript 6 Rust Sip Leaflet Firefox Addon Dynamics Crm 2011 Outlook Exception Virtual Machine List Uml Applescript Google Chrome Devtools Intellij Idea Jar Layout Android Layout Flask Backbone.js Xampp Xmpp Certificate Ubuntu Titanium Xpath Plot Sencha Touch Json Sml Usb Maps Highcharts Protocol Buffers Ant Opengl Es Udp Permissions Service Recursion Umbraco Silverstripe Perforce Tabs Artifactory Youtube Api Gridview Google Maps Sas Teamcity Notepad++ Tags Unix Ios6 Ms Word Apache2 Xcode4 Objective C Laravel 4 Ldap Twitter Ibm Midrange Sublimetext2 Orientdb Erlang Vaadin Sublimetext3 Sql Server Couchbase Terminal Asp.net Core Mvc Mips Pointers Swift2 Jestjs Asp.net Mvc 2 Scala Openerp Wso2 Tridion Kotlin Visual Studio 2015 Amazon Web Services Clang Batch File Google App Engine Sql Server 2008 Io Scrapy Gis Kubernetes Vagrant C++ Cli Mod Rewrite Database Design Drop Down Menu Antlr4 Html5 Canvas Dojo Symfony1 Asp.net Mvc 5 Linq To Sql Hash Jhipster Coldfusion Asp.net Web Api Stripe Payments Interface C# Amazon Cloudformation Time Terraform Xamarin.android Phpstorm Seo Google Apps Script Swing Responsive Design Sharepoint 2007 Xsd Autohotkey Sharepoint 2010 Latex Drupal Centos Collections

Copyright © 2024. All Rights Reserved by - Fatal编程技术网