Python 在pandas中格式化.txt文件_Python_Csv_Pandas_File Io_Data Science

Python 在pandas中格式化.txt文件

python csv pandas file-io

Python 在pandas中格式化.txt文件,python,csv,pandas,file-io,data-science,Python,Csv,Pandas,File Io,Data Science,我想采用以下格式的.txt文件： StateOne[edit] RegionOne (UniversityOne)[1] RegionTwo (UniversityTwo) RegionThree (UniversityThree)[2] 并将这些数据清理并以这种格式的数据帧返回： State RegionName 0 StateOne RegionOne 1 StateOne RegionTwo 2 StateOne RegionThree 例如，我

我想采用以下格式的.txt文件：

StateOne[edit]

RegionOne (UniversityOne)[1]

RegionTwo (UniversityTwo)

RegionThree (UniversityThree)[2]

并将这些数据清理并以这种格式的数据帧返回：

State   RegionName
0   StateOne    RegionOne
1   StateOne    RegionTwo
2   StateOne    RegionThree

例如，我有：

Alabama[edit]

Auburn (Auburn University)[1]

Florence (University of North Alabama)

Jacksonville (Jacksonville State University)[2]

我需要将其转换为数据帧：

    State   RegionName
0   Alabama Auburn
1   Alabama Florence
2   Alabama Jacksonville

我有点困惑如何删除像

“[”

这样的字符，并将它们命名为

“State”

。对于

“RegionName”

，当从

中删除每个字符时（“

在需要时结束。在pandas非常新，对一种快速简便的方法感到困惑。

这是假设状态始终具有带

[]

的“编辑”和区域

（）

诀窍是在“[”和“（”（视情况而定）中执行一个键，并保持在字符串的第一部分

string = '''Alabama[edit]

Auburn (Auburn University)[1]

Florence (University of North Alabama)

Jacksonville (Jacksonville State University)[2]'''

i = 0
print(' \t' + 'State' + '\t' + 'RegionName')

for line in string.split('\n'):       # Split by the line breaks
    if line == '':                    # We skip the line if it is empty
        continue
    if 'edit' in line:                # We look for some "edit" and 
        state, spam = line.split('[') # store it in a variable
        continue                      # When we find other
                                      # it will replace
    region_name, spam = line.split(' (')
    i += 1                            # The same but with '('
    print(str(i) + '\t' + state + '\t' + region_name)

我希望这会有帮助！

一般来说，如果你至少尝试过，得到答案会有帮助，并表示感谢你的建议。我是堆栈溢出新手，所以我在这里学习规则。我尝试了

str.split（）

方法，但似乎没有得到我想要的结果。非常感谢你的帮助，我非常感谢你的帮助。