Python 比较行中的元素_Python - Fatal编程技术网

Python 比较行中的元素

python

Python 比较行中的元素,python,Python,我有这样的数据 contig34706 sp|A1IVM0|A1IVM0_TRIDB 96 contig118453 sp|A1IVM0|A1IVM0_TRIDB 98 contig12943 tr|A7XPA0|A7XPA0_TRIDB 96 contig92741 tr|A7XPA0|A7XPA0_TRIDB 96 contig92741 tr|A8QU19|A8QU19_TRIDB 94 contig523 tr|A9U8G7|A9U8G

我有这样的数据

contig34706   sp|A1IVM0|A1IVM0_TRIDB  96
contig118453  sp|A1IVM0|A1IVM0_TRIDB  98
contig12943   tr|A7XPA0|A7XPA0_TRIDB  96    
contig92741   tr|A7XPA0|A7XPA0_TRIDB  96    
contig92741   tr|A8QU19|A8QU19_TRIDB  94
contig523     tr|A9U8G7|A9U8G7_TRIDB  94    
contig14487   tr|A9U8G7|A9U8G7_TRIDB  95
contig80716   tr|A9U8G7|A9U8G7_TRIDB  93

我想知道文件中有多少重叠和蛋白质，但显然没有考虑重复的元素，所以我想将第[1]行中的元素相互比较，并计数和打印元素，但是重复的元素。第[0]行也是如此

import re
count = 0
lines = open("file.txt", "r").readlines()
for line in lines:
    new_list=re.split(r'\t+',line.strip())
    contig=new_list[0]
    protien=new_list[1]
    for element in contig:
        if element != element:
            count += 1
        else:

嗯，我不知道如何结束，如果这是一个正确的方式。。。我的期望输出

 sp|A1IVM0|A1IVM0_TRIDB  96
 tr|A7XPA0|A7XPA0_TRIDB  96        
 tr|A8QU19|A8QU19_TRIDB  94
 tr|A9U8G7|A9U8G7_TRIDB  94

我想知道档案里有多少份接触者和蛋白质

这是一种方法：

from collections import defaultdict
count_contig = defaultdict(int)
count_protein = defaultdict(int)
with open('file.txt') as f:
    for line in f:
        line = line.split()
        count_contig[line[0]] += 1
        count_protein[line[1]] += 1
print 'Number of unique contigs:', len(count_contig)
print 'Number of unique proteins:', len(count_protein)

输出：

sp|A1IVM0|A1IVM0_TRIDB   96
tr|A7XPA0|A7XPA0_TRIDB   96
tr|A8QU19|A8QU19_TRIDB   94
tr|A9U8G7|A9U8G7_TRIDB   94

唯一重叠数：7

独特蛋白质数量：6

您可以访问每个重叠/蛋白质的实际出现次数，如下所示：

count_contig['contig92741'] # returns 2
count_contig['unknown_contig'] # returns 0, thanks to defaultdict

要列出重叠群/蛋白质的唯一数量，只需访问字典的键：

print 'Unique contigs are:', count_config.keys()
print 'Unique protens are:', count_protein.keys()

输出：

sp|A1IVM0|A1IVM0_TRIDB   96
tr|A7XPA0|A7XPA0_TRIDB   96
tr|A8QU19|A8QU19_TRIDB   94
tr|A9U8G7|A9U8G7_TRIDB   94

独特的contig有：['contig12943'、'contig523'、'contig80716'、'contig118453'、'contig14487'、'contig34706'、'contig92741']

独特的蛋白质有：['tr | A9U8G7 | A9U8G7 | TRIDB'，'tr | A7XPA0 | A7XPA0 | TRIDB'，'tr | A8QU19 | A8QU19 | TRIDB'，'sp | A1IVM0 | A1IVM0 | TRIDB'，'sp | A5A8T8 | A5A8T8 | TRIDB'，'QTTR | A8QTZ7 | A8QTZ7 | TRIDB']

这真是太棒了，你应该试着了解更多

track=()
lines = open("file.txt", "r").readlines()
for line in lines:
    new_list=line.split()
    if new_list[1] not in track:
        print new_list[1]," ", new_list[2]
        track = (track, new_list[1])

我想知道档案里有多少份接触者和蛋白质

这是一种方法：

from collections import defaultdict
count_contig = defaultdict(int)
count_protein = defaultdict(int)
with open('file.txt') as f:
    for line in f:
        line = line.split()
        count_contig[line[0]] += 1
        count_protein[line[1]] += 1
print 'Number of unique contigs:', len(count_contig)
print 'Number of unique proteins:', len(count_protein)

输出：

sp|A1IVM0|A1IVM0_TRIDB   96
tr|A7XPA0|A7XPA0_TRIDB   96
tr|A8QU19|A8QU19_TRIDB   94
tr|A9U8G7|A9U8G7_TRIDB   94

唯一重叠数：7

独特蛋白质数量：6

您可以访问每个重叠/蛋白质的实际出现次数，如下所示：

count_contig['contig92741'] # returns 2
count_contig['unknown_contig'] # returns 0, thanks to defaultdict

要列出重叠群/蛋白质的唯一数量，只需访问字典的键：

print 'Unique contigs are:', count_config.keys()
print 'Unique protens are:', count_protein.keys()

输出：

sp|A1IVM0|A1IVM0_TRIDB   96
tr|A7XPA0|A7XPA0_TRIDB   96
tr|A8QU19|A8QU19_TRIDB   94
tr|A9U8G7|A9U8G7_TRIDB   94

独特的contig有：['contig12943'、'contig523'、'contig80716'、'contig118453'、'contig14487'、'contig34706'、'contig92741']

独特的蛋白质有：['tr | A9U8G7 | A9U8G7 | TRIDB'，'tr | A7XPA0 | A7XPA0 | TRIDB'，'tr | A8QU19 | A8QU19 | TRIDB'，'sp | A1IVM0 | A1IVM0 | TRIDB'，'sp | A5A8T8 | A5A8T8 | TRIDB'，'QTTR | A8QTZ7 | A8QTZ7 | TRIDB']

这真是太棒了，你应该试着了解更多

track=()
lines = open("file.txt", "r").readlines()
for line in lines:
    new_list=line.split()
    if new_list[1] not in track:
        print new_list[1]," ", new_list[2]
        track = (track, new_list[1])

如果第[2]行是新的，它将被打印并添加到元组中以跟踪重复

输出：

sp|A1IVM0|A1IVM0_TRIDB   96
tr|A7XPA0|A7XPA0_TRIDB   96
tr|A8QU19|A8QU19_TRIDB   94
tr|A9U8G7|A9U8G7_TRIDB   94

如果第[2]行是新的，它将被打印并添加到元组中以跟踪重复

输出：

sp|A1IVM0|A1IVM0_TRIDB   96
tr|A7XPA0|A7XPA0_TRIDB   96
tr|A8QU19|A8QU19_TRIDB   94
tr|A9U8G7|A9U8G7_TRIDB   94

您始终可以返回一个带有每个的计数的

dict

：

contigs = """contig34706   sp|A1IVM0|A1IVM0_TRIDB  96
contig118453  sp|A1IVM0|A1IVM0_TRIDB  98
contig12943   tr|A7XPA0|A7XPA0_TRIDB  96    
contig92741   tr|A7XPA0|A7XPA0_TRIDB  96    
contig92741   tr|A8QU19|A8QU19_TRIDB  94
contig523     tr|A9U8G7|A9U8G7_TRIDB  94    
contig14487   tr|A9U8G7|A9U8G7_TRIDB  95
contig80716   tr|A9U8G7|A9U8G7_TRIDB  93"""

from collections import Counter

contigs = [c.split()[1] for c in contigs.split("\n")]
contig_cnts = Counter(contigs)

如果您不关心计数，甚至可以设置一个

set

：

contig_set = set(contigs)

您始终可以返回一个带有每个的计数的

dict

：

contigs = """contig34706   sp|A1IVM0|A1IVM0_TRIDB  96
contig118453  sp|A1IVM0|A1IVM0_TRIDB  98
contig12943   tr|A7XPA0|A7XPA0_TRIDB  96    
contig92741   tr|A7XPA0|A7XPA0_TRIDB  96    
contig92741   tr|A8QU19|A8QU19_TRIDB  94
contig523     tr|A9U8G7|A9U8G7_TRIDB  94    
contig14487   tr|A9U8G7|A9U8G7_TRIDB  95
contig80716   tr|A9U8G7|A9U8G7_TRIDB  93"""

from collections import Counter

contigs = [c.split()[1] for c in contigs.split("\n")]
contig_cnts = Counter(contigs)

如果您不关心计数，甚至可以设置一个

set

：

contig_set = set(contigs)

你能把预期的输出，这将解释很多：）sp | A1IVM0 | A1IVM0 | TRIDB 96 sp | A5A8T8 | A5A8T8 | TRIDB 98 tr | A7XPA0 | A7XPA0 | TRIDB 96 tr A8QTZ7 | A8QTZ7 | TRIDB 94 tr A8QU19 | TRIDB 94 tr A9U8G7 | a9g7 |请不要重复这个问题，所以每个人都会看到。我收集了一些数据以使其更清晰。如果您试图以非重复的方式打印行以便于使用人眼进行计数，也许最好让代码进行计数？您能将预期的输出，这将解释很多：）sp | A1IVM0 | A1IVM0 | u TRIDB 96 sp | A5A8T8 | A5A8T8 | u TRIDB 98 tr | A7XPA0 | A8QTZ7 | u TRIDB 94 tr | A8QU19 | A8QU19 | u TRIDB 94 tr A9U8G7 | A9U8G7 |请不要重复这样的问题，所以每个人都会看到。我收集了一些数据以使其更清晰。如果你试图以非重复的方式打印这些行以便于使用人眼进行计数，也许最好让代码进行计数？惊人的答案！！非常感谢。如果我想让它打印出独特的重叠群和蛋白质的名称，该怎么办？

集合中有一个计数器
。只需将defaultdict（int）
替换为该值即可。惊人的答案！！非常感谢。如果我想让它打印出独特的重叠群和蛋白质的名称，该怎么办？集合中有一个计数器
。只需将defaultdict（int）
替换为它。它说“无法导入名称计数器”，但与“defaultdict”一起工作，是因为python版本吗？@user3224522是的，对于py2.7+来说是新的，如果您使用的是早于python2.7的任何东西，它将不在其中。虽然您可以很容易地从activestate创建这个[bag recipe]（），使其具有与计数器相同的行为，但它表示“无法导入名称计数器”，但是可以与“defaultdict”一起使用，这是由于python版本吗？@user3224522是的，对于py2.7+来说是新的，如果您使用的是早于python2.7的任何东西，它将不在那里。虽然您可以很容易地从activestate创建此[bag recipe]（），使其具有与计数器相同的行为




[windows services]相关文章推荐



                                                        
Windows services 如何在windows XP中更改系统默认区域设置？
windows-servicesinternationalization 
Windows services 无法访问SAN存储设备
windows-servicesftpfilesystems 
Windows services WIX安装的程序未正确卸载
windows-serviceswix 
Windows services 服务器开发工具？
windows-services 
Windows services 如何防止在卸载前弹出要求关闭服务的弹出窗口
windows-serviceswix 
Windows services 重新启动windows服务本身
windows-services 
Windows services regedit服务和services.msc服务列表之间的差异？
windows-services 
Windows services RabbitMQ Windows-自动启动服务器
windows-servicesrabbitmq 
Windows services 将Tcl应用程序作为Windows服务安装时出错
windows-servicestcl 
                                       





随机文章推荐



                                                        
Streaming C#中高吞吐量流数据应用的体系结构？
streaming 
Streaming 通过ffserver将3gp媒体内容流式传输到移动设备
streaming 
Streaming 恒定缓冲&；音频/视频不同步RTMP流
streamingadobe 
Streaming 在负载模式下的Camel CXF服务器上，默认情况下已打开流
streamingapache-camel 
Streaming 使用ionic和phonegap传输音频会进行压缩吗？
streamingionic-framework 
Streaming Gstreamer。多个pcap到avi
streaminggstreamer


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
Python 如何在SQLAlchemy中对M2M执行简单的next（）方法？
									Python
							 									Sqlalchemy
							 
Python:构建树
									Python
							 
Python 在注册/创建帐户期间，如果models.py中没有“retyppassword”字段，如何比较password和retypepassword？
									Python
							 									Django
							 									Forms
							 									Templates
							 									Passwords
							 
Python GUI拖放问题
									Python
							 									User Interface
							 
Python 如何从多对多关系表中获取第三个属性？
									Python
							 									Django
							 									Django Models
							 
在python中像变量一样命名对象
									Python
							 									Python 3.x
							 
Python 从行中剥离\r\n
									Python
							 
Python 这是PyMC中的错误吗？
									Python
							 
Python 条件可选参数的argparse
									Python
							 
使用；“存在”；使用Python将列表项作为if条件语句
									Python
							 									List
							 									Python 3.x
							 
以迭代和递归的方式在列表中交换对-Python3
									Python
							 									List
							 									Recursion
							 
Python 熊猫分部和2个dfs
									Python
							 									Pandas
							 									Dataframe
							 
python：计算列中重复项的数量
									Python
							 									Pandas
							 
Python 以numpy表示的重对数
									Python
							 									Arrays
							 									Python 3.x
							 									Numpy
							 
用于读取日志文件以确定未找到的URL列表的python脚本（404）
									Python
							 									File Io
							 
Python 包含给定字符的单词内部的正则表达式
									Python
							 									Regex
							 
Python 消息：过时元素引用：元素未附加到页面文档
									Python
							 									Selenium
							 									Selenium Webdriver
							 
Python 抓取LD-JSON数据的Scrapy
									Python
							 									Scrapy
							 
Python-累积列
									Python
							 									Pandas
							 
Python函数，该函数接受一个正整数n并返回所有小于n的正整数的平方和
									Python
							 
在Python（可能是熊猫）中从文件读取数组时，处理和跳过第一行（包含元数据）的优雅方式？
									Python
							 									Arrays
							 									Pandas
							 									Numpy
							 									Import
							 
Python AttributeError:“list”对象没有属性“timeout”-尝试使用BeautifulSoup处理多个URL
									Python
							 									Parsing
							 
Python 我怎样才能像这样输出列表
									Python
							 									Python 3.x
							 
Python 卷积神经网络中的形状误差
									Python
							 									Machine Learning
							 									Keras
							 									Neural Network
							 
Python Django tests.py Django.db.utils.IntegrityError:唯一约束失败：auth_user.username
									Python
							 									Django
							 									Unit Testing
							 
从python中的字符串列表中提取最大数目
									Python
							 									Python 3.x
							 
Python 多个大型嵌套循环的小型循环与小型嵌套循环的大型循环性能？
									Python
							 									Arrays
							 									Performance
							 									Loops
							 
Python Flask/Jquery-尝试请求值，但出现此错误：引发异常。BadRequestKeyError（键）
									Python
							 									Jquery
							 									Flask
							 
python中基于条件的删除日期
									Python
							 									Dataframe
							 									Time
							 
Python 在for循环中旋转以创建dict时出现keyrerror
									Python
							 									Dictionary
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Sms
Mercurial
Google App Maker
Xml
Sip
Rxjs
Vhdl
Imagemagick
Hybris
Eclipse Rcp
Paypal
Jdbc
Google Maps Api 3
Vuejs2
Javafx
Dataframe
Eclipse
Jetty
Joomla
Pagination
Parameters
Notepad++
Virtual Machine
Linq To Sql
Protocol Buffers
Itext
Wcf
Floating Point
Filter
Reporting Services
Highcharts
Frameworks
Tree
Amazon Redshift
Boost
Jqgrid
Polymer
Debian
Atom Editor
Ios7
Octave
D
Playframework 2.0
Google Chrome Extension
Clearcase
Jquery Plugins
Teamcity
Microsoft Graph Api
Sql Server
Compression
Path
Woocommerce
Wpf
Drupal 6
Haskell
Silverlight
Iframe
Machine Learning
Cassandra
Delphi
Mqtt
Symfony1
C
Big O
Angular Material
Firefox Addon
Three.js
Autodesk Forge
Hbase
Mariadb
Jira
Pip
Activemq
Air
Aurelia
Asp.net Mvc 5
Asp.net
Socket.io
Dask
C++
Teradata
Methods
Azure Sql Database
Rest
Android Fragments
Docker Compose
Database Design
Openshift
Redis
Web
Openid
Wicket
Passwords
Loops
Apache Spark
Types
Bash
Blackberry
Xampp
Docusignapi
Azure Data Factory
Visual Studio 2010
Geolocation
Facebook
Wolfram Mathematica
Google Sheets
Office365
Keyboard
Plot
Racket
Arrays
Ajax
Typescript
Ssrs 2008
Ftp
Syntax
Scroll
Directory
Macros
Couchbase
Iis 7
Emacs
Internet Explorer
Github
Angular
Sql Server 2005
Templates
Twig
Content Management System
Sql
String
Logic
Jsf
Antlr4
Datatables
Asynchronous
Twitter
Google Cloud Firestore
Mfc
Ethereum
Ocaml
Netty
Talend
Deep Learning
Replace
Tcl
Spring Cloud
Glsl
Windows 7
Ruby On Rails 4
Prometheus
Iphone
Xsd
Nest
Yii
Numpy
Documentation
List
Ibm Midrange
Silverstripe
Mapping
Printing
Assembly
Matlab
Youtube
Maven
Shell
Artificial Intelligence
Udp
Fiware
Pine Script
Checkbox
Cron
Spring Security
File
Gulp
Testing
Ravendb
Bluetooth
Javascript
Amazon S3
Gps
Terraform
Directx
Bots
Cobol
Shiny
Testng
Eclipse Plugin
Python Sphinx
Iis
Smalltalk
Tkinter
Nginx
Lotus Notes
Django
Ffmpeg
Sass
Karate
Fullcalendar
Mvvm


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网