Machine learning 用于自然语言处理的文本数据集

Machine learning 用于自然语言处理的文本数据集,machine-learning,nlp,speech-recognition,Machine Learning,Nlp,Speech Recognition,我一直在网络上搜索,发现CNN和NPR等媒体提供了访问他们成绩单的链接。要获得它们,需要编写一些类似于爬虫的东西,但这并不方便。原因是我试图在我的自然语言处理项目中使用一些电视节目、采访、广播、电影的成绩单作为培训数据。因此,我想知道网络上是否有免费的收藏或数据库,这样我就可以一次下载所有的收藏或数据库,而无需自己编写爬虫程序了?我建议使用。我还要提到美国国家语料库,但那里的文字记录只有电话或面对面的对话——没有新闻、电视节目等 你还提到了CNN和NPR。这里有1996年的成绩单。嗨,开尔文!请

我一直在网络上搜索,发现CNN和NPR等媒体提供了访问他们成绩单的链接。要获得它们,需要编写一些类似于爬虫的东西,但这并不方便。原因是我试图在我的自然语言处理项目中使用一些电视节目、采访、广播、电影的成绩单作为培训数据。因此,我想知道网络上是否有免费的收藏或数据库,这样我就可以一次下载所有的收藏或数据库,而无需自己编写爬虫程序了?

我建议使用。我还要提到美国国家语料库,但那里的文字记录只有电话或面对面的对话——没有新闻、电视节目等


你还提到了CNN和NPR。这里有1996年的成绩单。

嗨,开尔文!请让我们知道你已经做了什么样的研究。此外,请注意()此处允许提出一些主观问题,但这些问题应“邀请分享经验而非观点”,“坚持以事实和参考资料支持观点”也请参见此处指南的#1()征求建议。我礼貌地不同意@ThomasJungblut的观点,因为这里不是征求建议的地方。它应该是一种信息丰富的方式。@ThomasJungblut那么你对这些问题的看法是什么:不要试图在这里发表无用的负面评论,请专注于帮助人们完成有用的事情。@ThomasJungblut有很多与NLP相关的话题,拥有一个好的语料库是开发过程的重要组成部分。问题不在于推荐一个“最好的”语料库,而在于找到一个适合你任务的语料库——不是主观的。这些数据集看起来很棒!谢谢你@Yasen!