如何在不使用Python创建新行的情况下拆分/t_Python

如何在不使用Python创建新行的情况下拆分/t

python

如何在不使用Python创建新行的情况下拆分/t,python,Python,我在一个文件夹中有文本列表： My O name O is O Alex B . O I O am O from O London B . O 这是我的密码： import re def read_file(filename): file = open(filename).read().strip().split("\n\n") lines = [] for line in file: lines.append(re.split(r'\t|\n', line)) return li

我在一个文件夹中有文本列表：

My O
name O
is O
Alex B
. O

I O
am O
from O
London B
. O

这是我的密码：

import re

def read_file(filename):

file = open(filename).read().strip().split("\n\n")
lines = []
for line in file:

 lines.append(re.split(r'\t|\n', line))

return lines

train_sents = read_file(("train.txt"))

train_sents [0]

输出为：

 [ 'My',
 'O',
 'name',
 'O',
 "is',
 'O',
 'Alex',
 'B',
 '.',
 'O']

我的问题是..是否可以拆分\t而不拆分到新行？例如，输出如下所示：

[('My', 'O'),
 ('name', 'O'),
 ("is', 'O'),
 ('Alex', 'B'),
 ('.', 'O')]

你可以试试这个

def read_file(filename):
    fil = open(filename).read().strip().split("\n\n")
    lines = []
    for line in fil:
        s = []
        m = line.split('\n')
        for i in m:
            s.append(tuple(re.split(r'\t', i)))
        lines.append(s)    
    return lines

train_sents = read_file("file")

print train_sents[0]

输出：

[('My', 'O'), ('name', 'O'), ('is', 'O'), ('Alex', 'B'), ('.', 'O')]

只需拆分每行：

with open(filename) as f:
    print([tuple(line.split()) for line in f])
[('My', 'O'), ('name', 'O'), ('is', 'O'), ('Alex', 'B'), ('.', 'O')]

要通过空行分隔行，请附加到最后一个子列表，或者如果遇到空行，请添加新列表：

with open(infile) as f:
    l = [[]]
    for line in f:
        if line.strip():
            l[-1].append(tuple(line.split()))
        else:
            l.append([])
print(l[0])
print(l[1])

[('My', 'O'), ('name', 'O'), ('is', 'O'), ('Alex', 'B'), ('.', 'O')]
[('I', 'O'), ('am', 'O'), ('from', 'O'), ('London', 'B'), ('.', 'O')]

您还可以使用i分组，使用空行作为分隔符：

from itertools import groupby
with open(infile) as f:
     print([list(map(str.split, v))
       for k, v in groupby(f, key=lambda x: x.strip() != "") if k])


[[['My', 'O'], ['name', 'O'], ['is', 'O'], ['Alex', 'B'], ['.', 'O']], [['I', 'O'], ['am', 'O'], ['from', 'O'], ['London', 'B'], ['.', 'O']]]

如果需要，您可以映射到tuple。

注意，在打印

train\u sents[0]

时，他想要上面的输出，但是我已经尝试过了：[（'my'，'O'），（'name'，'O'），（'is'，'O'），（'Alex'，'B'），]但是\n没有拆分到新行。或者它实际上是一样的？您是否试图以您提到的格式获得输出？为什么它的实际用途是什么？请注意，两者都是相同的。