计算整个CSV文件以及Python中每行中某些单词的出现次数_Python_Dataframe_Csv_Dataset_Counter - Fatal编程技术网

计算整个CSV文件以及Python中每行中某些单词的出现次数

python dataframe csv

计算整个CSV文件以及Python中每行中某些单词的出现次数,python,dataframe,csv,dataset,counter,Python,Dataframe,Csv,Dataset,Counter,我正在处理来自多个服务器的数据，并为每个服务器生成一个CSV文件。我已设法在一个文件中编译来自所有服务器的数据，合并文件中的数据如下所示- Description,dc1pp1sellv01,dc1pp2sellv01,dc2pp1sellv01 1.1 Database Placement,PASSED,PASSED,PASSED 1.2 Use dedicated least privilaged account,PASSED,PASSED,PASSED 1.3 Diable MySQL h

我正在处理来自多个服务器的数据，并为每个服务器生成一个CSV文件。我已设法在一个文件中编译来自所有服务器的数据，合并文件中的数据如下所示-

Description,dc1pp1sellv01,dc1pp2sellv01,dc2pp1sellv01
1.1 Database Placement,PASSED,PASSED,PASSED
1.2 Use dedicated least privilaged account,PASSED,PASSED,PASSED
1.3 Diable MySQL history,PASSED,PASSED,FAILED
2.1 Ensure old passwords is set to 1,PASSED,DEPRICATED,NA

上述文件中的每个服务器列都可以具有以下任一结果值-

[“通过”、“失败”、“异常”、“不适用”、“不推荐”]

从上面的CSV文件中，我想计算结果并创建一个如下所示的数据集

Description,dc1pp1sellv01,dc1pp2sellv01,dc2pp1sellv01,PASSED,FAILED,EXCEPTION,NA,DEPRECATED
1.1 Database Placement,PASSED,PASSED,PASSED,3,0,0,0,0
1.2 Use dedicated least privilaged account,PASSED,PASSED,PASSED,3,0,0,0,0
1.3 Diable MySQL history,PASSED,PASSED,FAILED,2,1,0,0,0
2.1 Ensure old passwords is set to 1,PASSED,DEPRICATED,NA,1,0,0,1,1

这里有一个建议（相当详细，以强调正在发生的事情）：

我假设您的数据位于名为

data.csv

的文件中。你必须调整一下。我希望它能起作用

PS：您的示例数据中有一个拼写错误：

debricated

应该是

不推荐的

。这将导致非预期的输出

没有不必要的辅助变量的更紧凑版本如下所示：

import csv

events = ["PASSED", "FAILED", "EXCEPTION", "NA", "DEPRECATED"]
with open('data.csv', 'r') as fin, open('data_out.csv', 'w') as fout:
    in_, out = csv.reader(fin), csv.writer(fout)
    out.writerow(next(in_) + events)
    out.writerows(line + [sum(1 if event == entry else 0 for entry in line[1:])
                          for event in events]
                  for line in in_)

这里有一个建议（相当详细，以强调正在发生的事情）：

我假设您的数据位于名为

data.csv

的文件中。你必须调整一下。我希望它能起作用

PS：您的示例数据中有一个拼写错误：

debricated

应该是

不推荐的

。这将导致非预期的输出

没有不必要的辅助变量的更紧凑版本如下所示：

import csv

events = ["PASSED", "FAILED", "EXCEPTION", "NA", "DEPRECATED"]
with open('data.csv', 'r') as fin, open('data_out.csv', 'w') as fout:
    in_, out = csv.reader(fin), csv.writer(fout)
    out.writerow(next(in_) + events)
    out.writerows(line + [sum(1 if event == entry else 0 for entry in line[1:])
                          for event in events]
                  for line in in_)

您可以使用统计特定单词的出现次数。假设您已打开

.csv

文件并存储在字符串

输入中：您可以执行以下操作：
from collections import Counter

res_values = ("PASSED", "FAILED", "EXCEPTION", "NA", "DEPRECATED")

input = ("Description,dc1pp1sellv01,dc1pp2sellv01,dc2pp1sellv01\n"
         "1.1 Database Placement,PASSED,PASSED,PASSED\n"
         "1.2 Use dedicated least privilaged account,PASSED,PASSED,PASSED\n"
         "1.3 Diable MySQL history,PASSED,PASSED,FAILED\n"
         "2.1 Ensure old passwords is set to 1,PASSED,DEPRICATED,NA")

print('\n'.join(
    [line + ',' + ','.join(
        [str(Counter(line.split(','))[res])
         if i != 0
         else res
         for res in res_values]
    )
     for i, line in enumerate(input.split('\n'))]))

我使用列表理解来更好地优化流程（因为文件可能非常大），但这里有另一个更清晰的代码，它做的事情与此完全相同：
split = input.split('\n')                      # Split the input line by line
for i, line in enumerate(split):               # For each line of the input
    if i == 0:                                 # Write full result name (for the first line)
        split[i] += ',' + ','.join(res_values)
    else:                                      # Count and write result occurrences
        counts = Counter(line.split(','))
        for res in res_values:
            split[i] += ',' + str(counts[res])
print('\n'.join(split))                        # Join the full string

我提出了一个可执行的解决方案，但出于优化目的，逐行读取文件当然比将其存储在字符串变量中要好。
您可以使用它来计算特定单词的出现次数。假设您已打开.csv
文件并存储在字符串输入中：您可以执行以下操作：
from collections import Counter

res_values = ("PASSED", "FAILED", "EXCEPTION", "NA", "DEPRECATED")

input = ("Description,dc1pp1sellv01,dc1pp2sellv01,dc2pp1sellv01\n"
         "1.1 Database Placement,PASSED,PASSED,PASSED\n"
         "1.2 Use dedicated least privilaged account,PASSED,PASSED,PASSED\n"
         "1.3 Diable MySQL history,PASSED,PASSED,FAILED\n"
         "2.1 Ensure old passwords is set to 1,PASSED,DEPRICATED,NA")

print('\n'.join(
    [line + ',' + ','.join(
        [str(Counter(line.split(','))[res])
         if i != 0
         else res
         for res in res_values]
    )
     for i, line in enumerate(input.split('\n'))]))

我使用列表理解来更好地优化流程（因为文件可能非常大），但这里有另一个更清晰的代码，它做的事情与此完全相同：
split = input.split('\n')                      # Split the input line by line
for i, line in enumerate(split):               # For each line of the input
    if i == 0:                                 # Write full result name (for the first line)
        split[i] += ',' + ','.join(res_values)
    else:                                      # Count and write result occurrences
        counts = Counter(line.split(','))
        for res in res_values:
            split[i] += ',' + str(counts[res])
print('\n'.join(split))                        # Join the full string

我已经提出了一个可执行的解决方案，但出于优化目的，逐行读取文件当然比将其存储在字符串变量中要好




[dataframe]相关文章推荐



                                                        
Dataframe SAS数据步长最大值（按组）
dataframesas 
Dataframe 将数据框转换为数据集后的选择是否优化？
dataframeapache-spark 
Dataframe 当np.nan时，sqlalchemy orm从pandas数据帧大容量插入
dataframeormsqlalchemy 
Dataframe 如何将spark数据框写入clickhouse
dataframeapache-spark 
在spark中，RDD、Dataframe和Dataset中哪一个更适合进行avro列式操作？
dataframeapache-spark 
DataFrames.jl-按类型或名称子字符串选择列
dataframejulia 
Dataframe 在for循环中为pyspark数据帧创建动态名称
dataframeapache-sparkfor-loopvariablespyspark 
Dataframe 用于从数据帧查找所有间隔重叠的Spark
dataframeapache-spark 
带有not运算符的pyspark dataframe where子句
dataframepyspark 
Dataframe 如何创造,；访问数据集的分区？
dataframeapache-spark 
                                       





随机文章推荐



                                                        
.htaccess 通过htaccess重定向整个子目录
.htaccess 
.htaccess htaccess-重定向以忽略嵌套的子目录，如果可能，使整个站点成为非www
.htaccessredirect 
httpd.conf命令到.htaccess
.htaccessmod-rewrite 
.htaccess 可以在htaccess中包含单独的文件以获得重定向列表吗？
.htaccessredirect 
.htaccess 基于项目名称重写URL
.htaccessurl 
.htaccess-不使用iframe的带屏蔽的转发域
.htaccessurl-rewriting 
当我通过编辑.htaccess文件获得404时，如何返回200？
.htaccessurl-rewriting 
.htaccess www到非www重定向问题
.htaccessmod-rewriteredirect 
Joomla.htaccess重写
.htaccessjoomlaurl-rewriting 
.htaccess是否从URL中删除符号？
.htaccessredirect 
.htaccess Magento-国家代码友好URL'；s
.htaccessmagentourl-rewriting 
.htaccess 301重定向子域及其'；s页
.htaccess 
我需要在.htaccess中为不同的域和不同的目录结构创建301重定向
.htaccessredirect 
.htaccess 当我尝试访问目录时出现htaccess问题
.htaccess 
.htaccess 有根系统时HTTP到HTTPS
.htaccesssslhttps 
.htaccess 在多域设置中将旧URL重定向到新URL
.htaccessredirect 
.htaccess获取index.php的参数值
.htaccesshttp 
.htaccess 重写url以隐藏查询字符串并将.php转换为路径
.htaccessurlurl-rewriting 
.htaccess重定向到带有变量的升级文件夹
.htaccessredirectdirectory 
.htaccess HTAccess重写规则后是否停止对文件夹的直接调用？
.htaccessmod-rewrite


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
Python 无法清理Openshift中的pip安装
									Python
							 									Pip
							 									Openshift
							 
Python 在哪里使用=like运算符？like和=like之间的区别？
									Python
							 									Openerp
							 
ipython cv2.imwrite（）不'；t工作-不产生错误，但也不产生文件
									Python
							 									Opencv
							 									Ipython
							 
在cygwin特别是emacs中使用Anaconda Python，特别是ipython
									Python
							 									Emacs
							 									Cygwin
							 									Ipython
							 
使用Wand（Python）进行图像识别
									Python
							 									Imagemagick
							 
Python 使用命令时，数据帧中的格式浮动
									Python
							 									Pandas
							 
Python 在绘图中调整参数值的最佳方法
									Python
							 									Matplotlib
							 
Python AWS Kinesis对象没有属性：update\u shard\u count
									Python
							 									Amazon Web Services
							 
Python 在brightway2中创建非常简单的LCIA方法
									Python
							 
Python 库中的变量内部函数
									Python
							 									Python 3.x
							 
Python if、elif、else不运行if、elif或else语句
									Python
							 									Python 2.7
							 									If Statement
							 
Python 当前获取的TypeError状态为：*：'；的操作数类型不受支持；功能'；和'；浮动'；
									Python
							 
Python 将预先计算的置信区间添加到seaborn tsplot
									Python
							 									Pandas
							 
Python 在PyCharm的源代码树中显示警告？
									Python
							 									Pycharm
							 
Python 未定义的符号：部署Flask app时来自Unicode的PyUnicodeCS2_
									Python
							 									Apache
							 									Amazon Ec2
							 
Python 在可移植文件（例如windows.exe文件）中分发Django应用程序
									Python
							 									Django
							 
Python 通过SQL Alchemy在触发器中打印导致insert问题的语句
									Python
							 									Sql Server
							 									Azure
							 									Sqlalchemy
							 
如何遍历python坐标列表并相应地更改y轴？
									Python
							 									Arrays
							 									List
							 
包裹一个双层**c++；与cython的函数
我有一个C++函数，它返回指针双*< /COD>——特别是高维矩阵——我想用Cython把它包到一些Python代码中。我该怎么做
									Python
							 									C++
							 									Pointers
							 
Python ~/anaconda/bin/conda:没有这样的文件或目录
									Python
							 									Macos
							 									Anaconda
							 
Python 在多索引数据帧中交换两行
									Python
							 									Pandas
							 
Python 创建API以返回在matplotlib中创建的绘图
									Python
							 									Amazon Web Services
							 									Api
							 									Matplotlib
							 									Aws Lambda
							 
Python 如何将tensorflow softmax替换为max，以便在神经网络的输出层生成一个热向量？
									Python
							 									Tensorflow
							 									Neural Network
							 
如何读取Minecraft.mca文件，以便在python中提取单个块？
									Python
							 
Python imshow（）导致Chaquopy出现问题并使android应用程序崩溃
									Python
							 									Android
							 
Python 如何修改数据帧的索引？
									Python
							 									Python 3.x
							 									Pandas
							 									Dataframe
							 
Python 使用模糊匹配算法确定名称列中是否存在相似词
									Python
							 									Pandas
							 
Python SQLAlchemy和Postgres-如何在json值中使用子字符串进行搜索
									Python
							 									Json
							 									Postgresql
							 									Sqlalchemy
							 
在R中可视化Python编写的箱线图的问题
									Python
							 									R
							 									Python 3.x
							 
Python Matplotlib 3d条形图按顺序打印*部分*条形图
									Python
							 									Matplotlib
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Qt
Teradata
Phpmyadmin
Microservices
Testng
Passwords
Java 8
Excel Formula
Google Chrome Devtools
Timer
Vuejs2
Karate
Proxy
C++11
Microsoft Graph Api
Android Studio
Tabs
Reference
.net 4.0
Google Maps Api 3
Report
Unity3d
Loopbackjs
Video Streaming
User Interface
Cocos2d Iphone
Extjs4
Vbscript
Chef Infra
Charts
Tinymce
Opencv
Phpunit
Sitecore
Ionic2
Ethereum
Continuous Integration
Ssrs 2008
Sequelize.js
Unix
Struct
Workflow
Jms
Kendo Ui
Build
Codenameone
Tensorflow
Time Complexity
Keycloak
Excel
Computer Science
Oracle10g
Compilation
Docker Compose
Tfs
Puppet
Android Layout
Machine Learning
Openssl
Corda
Google Chrome Extension
Class
Gremlin
Asterisk
Weblogic
Plone
Clearcase
Filesystems
Cmake
C#
Lisp
Sas
Raspberry Pi
Centos
Amp Html
Sprite Kit
Asp.net Mvc 4
Indexing
Jakarta Ee
Python
Menu
Shopify
Cocoa
Compression
Youtube
Sml
Yii2
Ocaml
Bluetooth
Php
Prolog
Spring Cloud
Sbt
Nhibernate
Pentaho
Model
Doctrine Orm
Umbraco
Jsf 2
Datetime
Database
String
Amazon Ec2
Image
Hash
Stm32
Biztalk
Mvvm
Linkedin
Mod Rewrite
Google Cloud Firestore
Websocket
Robotframework
Dom
Maven
Arduino
Highcharts
Ruby On Rails
Login
Serialization
Url Rewriting
Cordova
Cassandra
Ruby On Rails 3
Kubernetes
Uitableview
Linq To Sql
Jwt
Stanford Nlp
Merge
X86
Google Calendar Api
Twitter
Vhdl
Windows Phone 8.1
Frameworks
Macros
Hive
Spring Batch
Seo
Julia
Configuration
Autohotkey
Cron
Ffmpeg
Scikit Learn
Apache Pig
Opencart
Udp
Error Handling
Caching
Performance
Heroku
Orm
Oauth 2.0
Ios5
Xamarin.ios
Oop
Node.js
Wix
Rspec
Soap
Actions On Google
Embedded
Session
Vaadin
C++
Ssas
Azure
Jenkins
Operating System
Bison
Formatting
Firefox
Shiny
Subsonic
Parallel Processing
Oracle Apex
Activemq
Jasper Reports
Octave
Playframework
Latex
Aws Lambda
Jdbc
Postgresql
Wso2
Postman
Programming Languages
Ada
Webpack
Graph
Sublimetext2
Graphviz
Intellij Idea
Composer Php
Dart
Model View Controller
Django Rest Framework
Drools
Artifactory


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网