C# 如何从未知格式解析/提取英语文本,以便在Lucene中建立索引

C# 如何从未知格式解析/提取英语文本,以便在Lucene中建立索引,c#,.net,parsing,text,lucene,C#,.net,Parsing,Text,Lucene,我正试图从未知的文件格式中提取所有“类似英语”的单词和短语,以便在Lucene中进行索引。它基本上充满了随机字符,夹杂着英语单词块。我们的目标是能够提取出高百分比的单词传递给Lucene进行索引-不需要完全准确的解析或100%可读的结果。Lucene中的任何分析器都能完成这项工作吗,或者是否有已知的技术可以从未知文件中提取类似英语的文本。要求我们推荐或查找书籍、工具、软件库、教程或其他非现场资源的问题与堆栈溢出无关。好的,我将重新表述。您的问题是“未知文件格式”。我想您可以读取流并提取所有可打印

我正试图从未知的文件格式中提取所有“类似英语”的单词和短语,以便在Lucene中进行索引。它基本上充满了随机字符,夹杂着英语单词块。我们的目标是能够提取出高百分比的单词传递给Lucene进行索引-不需要完全准确的解析或100%可读的结果。Lucene中的任何分析器都能完成这项工作吗,或者是否有已知的技术可以从未知文件中提取类似英语的文本。

要求我们推荐或查找书籍、工具、软件库、教程或其他非现场资源的问题与堆栈溢出无关。好的,我将重新表述。您的问题是“未知文件格式”。我想您可以读取流并提取所有可打印字符(32个“足够好”了)