Parsing 字符和文本处理资源(编码、正则表达式、NLP)

Parsing 字符和文本处理资源(编码、正则表达式、NLP),parsing,text,encoding,text-processing,linguistics,Parsing,Text,Encoding,Text Processing,Linguistics,我想学习编码、字符和文本的基础知识。理解这些对于处理大量文本非常重要,无论是日志文件还是用于构建集体智能算法的文本源。我目前的知识相当基础:比如“只要我使用UTF-8,我就没事。” 我不是说我需要马上学习高级主题。但我需要知道: 位和字节级编码知识 英语中未使用的字符和字母 多字节编码。(我懂一些中文和日语。解析它们很重要。) 正则表达式 文本处理算法 解析自然语言 我还需要了解数学和语料库语言学。当前和未来的web(语义、智能、实时web)需要处理、解析和分析大型文本 我正在寻找一些资源(

我想学习编码、字符和文本的基础知识。理解这些对于处理大量文本非常重要,无论是日志文件还是用于构建集体智能算法的文本源。我目前的知识相当基础:比如“只要我使用UTF-8,我就没事。”

我不是说我需要马上学习高级主题。但我需要知道:

  • 位和字节级编码知识
  • 英语中未使用的字符和字母
  • 多字节编码。(我懂一些中文和日语。解析它们很重要。)
  • 正则表达式
  • 文本处理算法
  • 解析自然语言
我还需要了解数学和语料库语言学。当前和未来的web(语义、智能、实时web)需要处理、解析和分析大型文本


我正在寻找一些资源(可能是书?),让我开始一些子弹(我在这里找到了许多关于堆栈溢出的正则表达式的有用讨论。因此,您不需要建议有关该主题的资源。)

与大多数一般的“我想了解X主题”问题一样,维基百科是一个很好的起点:

  • 除了维基百科,Joel Spolsky的编码也非常好
  • 对于所有unicode字符来说,这是一个很好的免费资源
  • 这个正则表达式可以有所帮助
  • 特别是在NLP日语上,您可以 看看这个 项目
  • 在文本处理上,打开 源项目可能很有用