C 斯特克坏了吗?还是很狡猾?

C 斯特克坏了吗?还是很狡猾?,c,std,strtok,C,Std,Strtok,strtok是不是坏得不可救药 关于C语言中文本解析的许多问题,有人会建议使用strtok, 一个常见的回答是,strtok永远不应该被使用,它被彻底破坏了 一些海报声称,strtok的问题仅限于多线程问题,在单线程环境中是安全的 正确答案是什么? 它有用吗 它坏了吗? 你能用例子来证明你的答案吗?是的,strtok被彻底破坏了,即使是在一个简单的单线程程序中,,我将用一些示例代码来演示这个失败: 让我们从一个简单的文本分析器函数开始,使用strtok收集有关文本句子的统计信息。 此代码将导致未

strtok是不是坏得不可救药

关于C语言中文本解析的许多问题,有人会建议使用
strtok
, 一个常见的回答是,strtok永远不应该被使用,它被彻底破坏了

一些海报声称,strtok的问题仅限于多线程问题,在单线程环境中是安全的

正确答案是什么?
它有用吗
它坏了吗?

你能用例子来证明你的答案吗?

是的,
strtok
被彻底破坏了,即使是在一个简单的单线程程序中,,我将用一些示例代码来演示这个失败:

让我们从一个简单的文本分析器函数开始,使用
strtok
收集有关文本句子的统计信息。 此代码将导致未定义的行为

在本例中,句子是由空格、逗号、分号和句点分隔的一组单词

// Example:
//     int words, longest;
//     GetSentenceStats("There were a king with a large jaw and a queen with a plain face, on the throne of England.", &words, &longest);
// will report there are 20 words, and the longest word has 7 characters ("England").
void GetSentenceStats(const char* sentence, int* pWordCount, int* pMaxWordLen)
{
    char* delims = " ,;.";           // In a sentence, words are separated by spaces, commas, semi-colons or period.
    char* input = strdup(sentence);  // Make an local copy of the sentence, to be modified without affecting the caller.

    *pWordCount = 0;                 // Initialize the output to Zero
    *pMaxWordLen = 0;

    char* word = strtok(input, delims);
    while(word)
    {
        (*pWordCount)++;
        *pMaxWordLen = MAX(*pMaxWordLen, (int)strlen(word));
        word = strtok(NULL, delims);
    }
    free(input);
}
这个简单的函数可以工作。目前还没有bug。


现在,让我们扩充我们的库,添加一个函数来收集文本段落的统计信息。
段落是由感叹号、问号和句号分隔的一组句子

它将返回段落中的句子数,以及最长句子中的单词数。
也许最重要的是,它将使用前面的函数
GetSentenceStats
来提供帮助

void GetParagraphStats(const char* paragraph, int* pSentenceCount, int* pMaxWords)
{
    char* delims = ".!?";             // Sentences in a paragraph are separated by Period, Question-Mark, and Exclamation.
    char* input = strdup(paragraph);  // Make an local copy of the paragraph, to be modified without affecting the caller.

    *pSentenceCount = 0;
    *pMaxWords = 0;
    char* sentence = strtok(input, delims);
    while(sentence)
    {
        (*pSentenceCount)++;

        int wordCount;
        int longestWord;
        GetSentenceStats(sentence, &wordCount, &longestWord);
        *pMaxWords = MAX(*pMaxWords, wordCount);
        sentence = strtok(NULL, delims);    // This line returns garbage data, 
    }
    free(input);
}
此函数看起来也非常简单明了。
但它不起作用,如本示例程序所示。

对strtok的所有调用都是完全正确的,并且都在单独的数据上。
但是结果是未定义的行为

为什么会发生这种情况?
调用
GetParagraphStats
时,它开始一个
strtok
-循环以获取句子。 在第一句话中,它将调用
GetSentenceStats
GetSentenceStats
也将成为一个
strtok
-循环,丢失由
GetParagraphStats
建立的所有状态。 当
GetSentenceStats
返回时,调用者(
GetParagraphStats
)将再次调用
strtok(NULL)
以获取下一个句子。

但是strtok将认为这是一个继续上一个操作的调用,并将继续标记现在已释放的内存! 结果就是可怕的未定义行为

何时使用strtok安全?
即使在单线程环境中,
strtok
也只能在程序员/架构师确定以下两个条件时才能安全使用:

  • 使用strtok的函数决不能调用任何可能也使用strtok的函数。
    如果调用同样使用strtok的子例程,则其自身对strtok的使用可能会中断

  • 使用strtok的任何函数都不得调用使用strtok的函数。
    如果此函数曾被另一个使用strtok的例程调用,则此函数将中断调用方对strtok的使用


在多线程环境中,使用
strtok
更加不可能,因为程序员需要确保在当前线程上只有一次使用
strtok
,而且也没有其他线程使用
strtok

@sashoalm AFAIK非全局,它是函数中的一个静态变量。这就是为什么我们有
strtok_s()
,这样您就可以同时处理不同的字符串。为什么会出现这种情况?有错吗?在我看来这是合理的,(不像strtok static-呃!)@WeatherVane:在linux上,您需要使用
strtok\u r
,它在Posix中,但不在C11中
strtok_s
在C11的可选附录K中,glibc目前未实施该附录。所以这并不是那么简单。整个讨论似乎有一种宗教战争的感觉。任何与您的想法在技术上相关的声明(如上文@Sander De Dycker提供的论点)都已与您就
strtok()
的实施发表了意见。如果你对执行有如此强烈的感觉,你能不能把它提到最后?它不是“坏的”。它有一个定义明确的行为。在某些情况下,该行为会导致问题,但这些情况并不是函数设计的目的。更准确的说法是,
strtok
经常被误用。@Sander:见下面的例子。代码的每一位都被正确、安全地编写,并且
strtok
仍然会导致未定义的行为。不,您的代码无效。你对待strtok的态度就像它是重新进入者一样。但事实并非如此。对于同一个字符串,对
strtok
的后续调用通常被视为是对
strtok
的一个调用,被中断,然后重新输入(因为这两个调用在概念上是相同的)。但是如果你愿意,我会用不同的措辞来表达我之前的评论:
strtok
不是可重入者(它保持全局状态)的同样原因,就是你的代码无效的原因。我想说的是,声称
strtok
被破坏是因为你不能以它从未设计过的方式使用它,这是毫无意义的。当然,
strtok
只能在某些明确定义的条件下安全使用(这就是他们后来添加
strtok_
的原因)。但在这些定义明确的条件下,
strtok
擅长于它所做的事情,而且不会被破坏。
int main(void)
{
    int cnt;
    int len;

    // First demonstrate that the SentenceStats function works properly:
    char *sentence = "There were a king with a large jaw and a queen with a plain face, on the throne of England."; 
    GetSentenceStats(sentence, &cnt, &len);
    printf("Word Count: %d\nLongest Word: %d\n", cnt, len);
    // Correct Answer:
    // Word Count: 20
    // Longest Word: 7   ("England")


    printf("\n\nAt this point, expected output is 20/7.\nEverything is working fine\n\n");

    char paragraph[] =  "It was the best of times!"   // Literary purists will note I have changed Dicken's original text to make a better example
                        "It was the worst of times?"
                        "It was the age of wisdom."
                        "It was the age of foolishness."
                        "We were all going direct to Heaven!";
    int sentenceCount;
    int maxWords;
    GetParagraphStats(paragraph, &sentenceCount, &maxWords);
    printf("Sentence Count: %d\nLongest Sentence: %d\n", sentenceCount, maxWords);
    // Correct Answer:
    // Sentence Count: 5
    // Longest Sentence: 7  ("We were all going direct to Heaven")

    printf("\n\nAt the end, expected output is 5/7.\nBut Actual Output is Undefined Behavior! Strtok is hopelessly broken\n");
    _getch();
    return 0;
}