Python 大文件读取器,按频率排序,然后按字母顺序高效排序

Python 大文件读取器,按频率排序,然后按字母顺序高效排序,python,Python,我很难理解如何读取和标记一个巨大的文本文件。然后按频率和顺序输出 据我所知,读取一个大文件的最好方法是将大块文件放入缓冲区 def read_in(): with open("text.txt","r") as file: for line in file: <deliminate line> 这是可行的,但它只读取大text.file最后一部分附近的块。我不确定如何创建数据库,以及在哪里创建数据库,并不断更新数据库,直到文件读取完成

我很难理解如何读取和标记一个巨大的文本文件。然后按频率和顺序输出

据我所知,读取一个大文件的最好方法是将大块文件放入缓冲区

def read_in():
    with open("text.txt","r") as file:
        for line in file:
            <deliminate line>
这是可行的,但它只读取大text.file最后一部分附近的块。我不确定如何创建数据库,以及在哪里创建数据库,并不断更新数据库,直到文件读取完成

还是说我必须把东西堆起来?我想注意效率,但不确定哪种方法是最好的


任何指导都将不胜感激。

1。我们谈论的数据量是多少?1MB?1GB?1磅?2.什么频率?信?话?线?这种方法取决于一般的元信息。我强烈建议您在知道存在性能问题之前不要太担心效率。从硬盘读取数据的速度比读取数据后处理它的任何操作都要慢。你可以做一些非常慢的事情,但最终还是会导致磁盘读取成为性能的限制因素(除了硬件升级之外,没有其他什么可以加快速度)。@Art数据量可能会达到1Gib。单词出现的频率。
c = Counter(a).most_common()
sort_w = sorted(c)
sorted_fw = sorted(c, key = lambda x : x[1], reverse = True)