Python 计算字母组合的出现次数_Python_String_Python 3.x

Python 计算字母组合的出现次数

python string python-3.x

Python 计算字母组合的出现次数,python,string,python-3.x,Python,String,Python 3.x,我试图计算文本文件中每个字母组合出现的次数： “aa”，“ab”，“zy”，“zz” 我已经能够很容易地用集合来计算单个字母的出现次数。计数器，我只是想知道对于两个字母组合是否有类似的方法谢谢导入收藏，itertools def成对（可编辑）： “s->（s0，s1），（s1，s2），（s2，s3），…” a、 b=itertools.T形三通（ITERRABLE）下一个（b，无）返回拉链（a、b） text=“我正在尝试计算文本文件中每个字母组合出现的次数” 计数器=集合。计数器（成对（

我试图计算文本文件中每个字母组合出现的次数：

“aa”，“ab”，“zy”，“zz”

我已经能够很容易地用集合来计算单个字母的出现次数。计数器，我只是想知道对于两个字母组合是否有类似的方法

谢谢

导入收藏，itertools
def成对（可编辑）：
“s->（s0，s1），（s1，s2），（s2，s3），…”
a、 b=itertools.T形三通（ITERRABLE）
下一个（b，无）
返回拉链（a、b）
text=“我正在尝试计算文本文件中每个字母组合出现的次数”
计数器=集合。计数器（成对（文本））

“诀窍”是使用生成器，就像我从python文档复制的生成器一样，访问字母组合。它可以自然地扩展到三个或更多的字母

如果要忽略空格，请首先标记输入。

如果只需要字母，可以过滤非字母，无需在内存中存储任何额外数据，只需将字符链接起来，并每次跟踪上一个字符：

from collections import Counter

txt = "Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, totam rem aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo. Nemo enim ipsam voluptatem quia voluptas sit aspernatur aut odit aut fugit, sed quia consequuntur magni dolores eos qui ratione voluptatem sequi nesciunt. Neque porro quisquam est, qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit, sed quia non numquam eius modi tempora incidunt ut labore et dolore magnam aliquam quaerat voluptatem. Ut enim ad minima veniam, quis nostrum exercitationem ullam corporis suscipit laboriosam, nisi ut aliquid ex ea commodi consequatur? Quis autem vel eum iure reprehenderit qui in ea voluptate velit esse quam nihil molestiae consequatur, vel illum qui dolorem eum fugiat quo voluptas nulla pariatur?"

txt1 = txt[:-1]
txt2 = txt[1:]
print (Counter([t1+t2 for t1, t2 in zip(txt1,txt2)]))

from collections import Counter
from itertools import chain

with open("in.txt") as f:
    prev = f.read(1)
    c = Counter()
    for ch in filter(str.isalpha, chain.from_iterable(f)):
        c[prev + ch] += 1
        prev = ch
print(c)

如果需要所有字符，只需移除过滤器：

with open("in.txt") as f:
    prev = f.read(1)
    c = Counter()
    for ch in chain.from_iterable(f):
        c[prev + ch] += 1
        prev = ch
print(c)

为什么不干脆

计数器（成对（文本））

？好主意。我采纳了你的建议。