NLP:建立(小型)语料库,或;在哪里可以获得大量不太专业的英语文本文件?”;

NLP:建立(小型)语料库,或;在哪里可以获得大量不太专业的英语文本文件?”;,nlp,linguistics,corpus,Nlp,Linguistics,Corpus,有人对在小语料库中查找日常英语文本的档案或集合有什么建议吗?我一直在使用古腾堡项目的书籍作为工作原型,并希望融入更多的现代语言。这里的A间接指向一个伟大的,我没有想到的,非常好。对于这个特定的程序,usenet技术档案或编程邮件列表会使结果倾斜,难以分析,但任何类型的一般博客文本、聊天记录或任何可能对其他人有用的内容都会非常有用。此外,一个没有太多标记的部分或可下载的研究语料库,或者一些寻找维基百科文章的合适子集的启发式方法,或者任何其他想法,都是非常值得赞赏的 (顺便说一句,我是一个好公民,通

有人对在小语料库中查找日常英语文本的档案或集合有什么建议吗?我一直在使用古腾堡项目的书籍作为工作原型,并希望融入更多的现代语言。这里的A间接指向一个伟大的,我没有想到的,非常好。对于这个特定的程序,usenet技术档案或编程邮件列表会使结果倾斜,难以分析,但任何类型的一般博客文本、聊天记录或任何可能对其他人有用的内容都会非常有用。此外,一个没有太多标记的部分或可下载的研究语料库,或者一些寻找维基百科文章的合适子集的启发式方法,或者任何其他想法,都是非常值得赞赏的

(顺便说一句,我是一个好公民,通过r/t下载,使用一个故意慢下来的脚本,不要求服务器承载这样的材料,以防你认为把我指给某个巨大的东西会有道德风险。)

更新:用户S0rin指出,维基百科不要求爬网,而是提供。古腾堡项目有一个指定的策略,底线是,尽量不要爬行,但如果需要的话:“将机器人配置为在请求之间至少等待2秒。”

更新2由于回答者指出了这些问题,WikMedia转储是一条出路。我最终使用了这里的英文版本:,还有一个大约一半大小的西班牙语垃圾场。它们是一些需要清理的工作,但是非常值得,它们在链接中包含了很多有用的数据



你已经涵盖了显而易见的问题。我能想到的唯一其他方面是:

1) 新闻文章/博客


2) 杂志在网上发布了很多免费的材料,你可以得到一个很好的跨领域的主题。

维基百科听起来是一个不错的选择。有一种可能有用的方法,但我不知道它是如何工作的。到目前为止,我只使用自定义爬行器甚至
wget
浏览过维基百科

然后,您可以在RSS提要中搜索提供全文的页面。RSS,因为没有HTML标记会妨碍您

删除邮件列表和/或Usenet有几个缺点:你将获得AOLbonics和Techspeak,这将严重倾斜你的语料库

经典的语料库是宾州树库和英国国家语料库,但它们是付费的。你可以阅读,甚至可以询问他们。也许您可以使用这些工具找到有用的数据

实际上,我有一个正在建设的小项目,它允许在任意网页上进行语言处理。它应该在未来几周内准备好使用,但到目前为止,它还不是真正的刮刀。但是我可以为它编写一个模块,我想,功能已经存在了。

  • 使用
    • 需要大量清理
  • 看看里面有什么东西对你有帮助
    • 语料库通常很小
  • 人们有一些免费的语料库
    • 标记
    • 你可以使用他们的工具包来抓取你自己的语料库
  • 是免费的,几乎所有学术机器翻译系统的基础
    • 口语,翻译
  • 这些文件是免费的,但仅在CD上提供
你总是可以得到你自己的,但要注意:HTML页面经常需要大量清理,所以你只能使用RSS提要


如果你在商业上这样做的话,这可能是一个可行的选择。

查看维基百科的数据,我注意到他们已经这样做了。我认为这可能是一篇有趣的文章,但并不容易理解——事实证明,它无处不在,而且它的结构和可预测性足以使它能够被清理干净,有帮助的标题是“网络上一个位置的一堆电影剧本和剧本”,对于任何遇到类似问题的人来说可能都是有用的。

如果你愿意付钱,你应该查看语言数据联盟提供的数据,例如宾州树状银行。

维基百科似乎是最好的方式。是的,您必须解析输出。但是由于维基百科的分类,你可以很容易地得到不同类型的文章和单词。e、 通过解析所有的科学类别,你可以得到很多科学词汇。有关地点的详细信息将偏向于地名等。

您可以在此处获得报价内容(有限形式):


这些内容也恰好是免费的。

另外,4000万字是一个理想的大小,我一直使用到现在,Europarl数据是完美的。如果RSS提要使用CDATA,也可能不那么干净,CDATA允许HTML嵌入提要中。请注意,维基百科要求人们不要使用网络爬虫来查看页面。请看:它们通过“导出”页面提供运行时访问。请看:几周前,我确实从维基百科找到了一个很棒的数据集,我将更新答案。维基媒体基金会提供了一些令人难以置信的资源。电视和电影剧本的一个问题是他们会受到版权保护。所以你必须小心版权问题。