Algorithm 复算法分析

Algorithm 复算法分析,algorithm,big-o,analysis,Algorithm,Big O,Analysis,所以,在我的数据结构课程中,我们最近学习了算法分析和大O分析。到目前为止,我们实际上只将其应用于排序算法,这些算法比较容易分析。我很好奇如何分析更复杂的算法 例如,我为一个我正在工作的程序编写了这个python算法,从一个文件中读取所有字节,并使用4字节标记将它们划分为块,这些标记将数据分隔开来。每个标记都以“h”开头,我有一个单独的可能标记列表,用于确定4字节序列是否为标记。算法定义如下 data = file.read() blocks = [] tagIndexes = [] i = da

所以,在我的数据结构课程中,我们最近学习了算法分析和大O分析。到目前为止,我们实际上只将其应用于排序算法,这些算法比较容易分析。我很好奇如何分析更复杂的算法

例如,我为一个我正在工作的程序编写了这个python算法,从一个文件中读取所有字节,并使用4字节标记将它们划分为块,这些标记将数据分隔开来。每个标记都以“h”开头,我有一个单独的可能标记列表,用于确定4字节序列是否为标记。算法定义如下

data = file.read()
blocks = []
tagIndexes = []
i = data.index(b'h')
try:
    while 1:
        if data[i:i+4] in tags:
            tagIndexes += [i]
        i = data.index(b'h', i+1)
except ValueError:
    pass
for j in range(len(tagIndexes) - 1):
    index = tagIndexes[j]
    nextIndex = tagIndexes[j+1]
    blocks += [block(data[index:index+4], data[index+4:nextIndex])]
lastIndex = tagIndexes[len(tagIndexes) - 1]
blocks += [block(data[lastIndex:lastIndex+4], data[lastIndex+4:])]
return blocks
我不是在问关于如何改进算法的评论。如果以后有必要,我可以自己做。我的问题是,如何确定该算法的最坏情况或大O符号。其中有几个子算法,很容易看到大多数较小算法的最坏情况。例如,python的list.index(val)方法的最坏情况是,如果列表中没有指定的值,那么它只会在整个过程中循环并引发错误O(n)。然而,该方法循环的最坏情况是,如果每个字节都是“h”O(n)。但在这种情况下,每次调用data.index()都会非常快,并立即返回一个值O(1)。第二个循环的最坏情况是每4个字节有一个标记O(n/4)


我如何分析整个算法(而不仅仅是部分算法)可能出现的最坏情况?

您已经意识到,虽然为算法的每个部分找到最坏情况相对容易,但它们有时有些不兼容,即它们不能同时发生。但最坏情况分析并不关心这一点;它的目的是给你一个运行时间/空间使用的上限,因此,如果你最终得到的上限太差以至于它永远不会发生,那也没关系。我们总是对尽可能紧密的界限感兴趣,但有时没有可以用直接的方法证明的真正紧密的界限;在这些情况下,分析结果往往比算法实际执行的结果更糟,这就是为什么最坏情况分析常常被称为“悲观”方法的原因

为了解决最坏情况下的界限没有我们希望的那么紧的问题,有两种方法可以尝试:摊销分析,它处理操作序列的成本,有时比只看单个操作给出更紧的界限;有一种概率分析,它使用概率来观察昂贵的东西需要做的频率是否有助于降低预期的运行时间/空间使用率;还有平均案例分析,基本上是概率分析,假设所有可能的输入都有相同的概率。这三种方法的难度因手头的算法而异,往往用于更高级的算法和数据结构,因为这三种方法往往不适合直接的最坏情况方法


所以总结一下:最坏情况分析并不总是给你严格的界限,这就是为什么它有时被称为悲观。还有其他一些分析技术可以用来尝试获得更严格的界限,但即使是这些技术也不总是有帮助的。考虑到您刚开始使用算法及其分析,我非常怀疑您以前是否听说过这些技术,更不用说应用它们了,因此进行最坏情况分析是非常好的,不要担心结果不是一个严格的界限。

您已经意识到,虽然为算法的每个部分找到最坏的情况相对容易,但它们有时有些不兼容,即它们不能同时发生。但最坏情况分析并不关心这一点;它的目的是给你一个运行时间/空间使用的上限,因此,如果你最终得到的上限太差以至于它永远不会发生,那也没关系。我们总是对尽可能紧密的界限感兴趣,但有时没有可以用直接的方法证明的真正紧密的界限;在这些情况下,分析结果往往比算法实际执行的结果更糟,这就是为什么最坏情况分析常常被称为“悲观”方法的原因

为了解决最坏情况下的界限没有我们希望的那么紧的问题,有两种方法可以尝试:摊销分析,它处理操作序列的成本,有时比只看单个操作给出更紧的界限;有一种概率分析,它使用概率来观察昂贵的东西需要做的频率是否有助于降低预期的运行时间/空间使用率;还有平均案例分析,基本上是概率分析,假设所有可能的输入都有相同的概率。这三种方法的难度因手头的算法而异,往往用于更高级的算法和数据结构,因为这三种方法往往不适合直接的最坏情况方法


所以总结一下:最坏情况分析并不总是给你严格的界限,这就是为什么它有时被称为悲观。还有其他一些分析技术可以用来尝试获得更严格的界限,但即使是这些技术也不总是有帮助的。考虑到您刚开始使用算法及其分析,我非常怀疑您以前是否听说过这些技术,更不用说应用它们了,因此进行最坏情况分析是完全正确的,不要担心结果不是一个严格的界限。

此分析的两个最重要提示是:

  • 请记住,只有最主要的和才重要,而恒定的fac