Python 合适的分隔符是什么?

Python 合适的分隔符是什么?,python,pandas,Python,Pandas,我有一个文本文件,其结构如下: >hsa:9934 K04299 purinergic receptor P2Y, G protein-coupled MINSTSTQPPDESCSQNLLITQQIIPVLYCMVFIAGILLNGVSGWIFFYVPSSKSFIIYL KNIVIADFVMSLTFPFKILGDSGLGPWQLNVFVCRVSAVLFYVNMYVSIVFFGLISFDRY >hsa:9934 K04299 purinergic receptor P2Y, G pr

我有一个文本文件,其结构如下:

>hsa:9934 K04299 purinergic receptor P2Y, G protein-coupled
MINSTSTQPPDESCSQNLLITQQIIPVLYCMVFIAGILLNGVSGWIFFYVPSSKSFIIYL
KNIVIADFVMSLTFPFKILGDSGLGPWQLNVFVCRVSAVLFYVNMYVSIVFFGLISFDRY
>hsa:9934 K04299 purinergic receptor P2Y, G protein-coupled
MINSTSTQPPDESCSQNLLITQQIIPVLYCMVFIAGILLNGVSGWIFFYVPSSKSFIIYL
KNIVIADFVMSLTFPFKILGDSGLGPWQLNVFVCRVSAVLFYVNMYVSIVFFGLISFDRY
--------------------------------------------------------------
|>hsa:9934 K04299 purinergic receptor P2Y, G protein-coupled |
|MINSTSTQPPDESCSQNLLITQQIIPVLYCMVFIAGILLNGVSGWIFFYVPSSKSFIIYL|
|KNIVIADFVMSLTFPFKILGDSGLGPWQLNVFVCRVSAVLFYVNMYVSIVFFGLISFDRY|
--------------------------------------------------------------
|>hsa:9934 K04299 purinergic receptor P2Y, G protein-coupled |
|MINSTSTQPPDESCSQNLLITQQIIPVLYCMVFIAGILLNGVSGWIFFYVPSSKSFIIYL|
|KNIVIADFVMSLTFPFKILGDSGLGPWQLNVFVCRVSAVLFYVNMYVSIVFFGLISFDRY|
--------------------------------------------------------------
我需要按以下表格结构加载和转换此文件:

>hsa:9934 K04299 purinergic receptor P2Y, G protein-coupled
MINSTSTQPPDESCSQNLLITQQIIPVLYCMVFIAGILLNGVSGWIFFYVPSSKSFIIYL
KNIVIADFVMSLTFPFKILGDSGLGPWQLNVFVCRVSAVLFYVNMYVSIVFFGLISFDRY
>hsa:9934 K04299 purinergic receptor P2Y, G protein-coupled
MINSTSTQPPDESCSQNLLITQQIIPVLYCMVFIAGILLNGVSGWIFFYVPSSKSFIIYL
KNIVIADFVMSLTFPFKILGDSGLGPWQLNVFVCRVSAVLFYVNMYVSIVFFGLISFDRY
--------------------------------------------------------------
|>hsa:9934 K04299 purinergic receptor P2Y, G protein-coupled |
|MINSTSTQPPDESCSQNLLITQQIIPVLYCMVFIAGILLNGVSGWIFFYVPSSKSFIIYL|
|KNIVIADFVMSLTFPFKILGDSGLGPWQLNVFVCRVSAVLFYVNMYVSIVFFGLISFDRY|
--------------------------------------------------------------
|>hsa:9934 K04299 purinergic receptor P2Y, G protein-coupled |
|MINSTSTQPPDESCSQNLLITQQIIPVLYCMVFIAGILLNGVSGWIFFYVPSSKSFIIYL|
|KNIVIADFVMSLTFPFKILGDSGLGPWQLNVFVCRVSAVLFYVNMYVSIVFFGLISFDRY|
--------------------------------------------------------------
我尝试了以下代码:

dataset = pd.read_csv(path, sep = ">")
但它并没有像我预期的那样有效

如何获得准确的格式?

您可以使用str.split('>'),这样每个值都有一个数组。 除非'>'可能出现在哈希中,否则可以使用str.split('>'),这样每个值都会有一个数组。
除非“>”可能出现在哈希表中,否则我不清楚您的问题。您的阅读要求似乎是一个简单的基于行的文本输入。您想创建一个数据框还是一个新的文本文件?@Prune,这是一个基于多行的文本输入。@Steven Rumbalski我想创建一个数据框。我的问题现在解决了。谢谢大家。:)我不清楚你的问题。您的阅读要求似乎是一个简单的基于行的文本输入。您想创建一个数据框还是一个新的文本文件?@Prune,这是一个基于多行的文本输入。@Steven Rumbalski我想创建一个数据框。我的问题现在解决了。谢谢大家。:)为了进一步补充这一点,如果您保证
hsa
始终存在,那么您可以在
>hsa
@oneindelik上拆分,您的解决方案没有如我预期的那样工作,但它将我带到了解决方案中。非常感谢!:)为了进一步补充这一点,如果您保证
hsa
始终存在,那么您可以在
>hsa
@oneindelik上拆分,您的解决方案没有如我预期的那样工作,但它将我带到了解决方案中。非常感谢!:)