Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/77.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 数据科学家的基本技能_R - Fatal编程技术网

R 数据科学家的基本技能

R 数据科学家的基本技能,r,R,数据科学家的相关技能是什么?随着每天都有新技术出现,人们如何挑选最基本的东西 与本次讨论相关的一些想法: 在NoSql和非关系数据库出现之前,PostgreSQL非常了解SQL和MySQL等数据库的使用。MongoDB、CouchDB等越来越流行于处理web级数据 了解像R这样的统计工具就足以进行分析了,但要创建应用程序,可能需要将Java、Python等添加到列表中 现在,数据以文本、URL、多媒体等形式出现,与它们的操作相关的模式也不尽相同 那么集群计算、并行计算、云计算、AmazonEC

数据科学家的相关技能是什么?随着每天都有新技术出现,人们如何挑选最基本的东西

与本次讨论相关的一些想法:

  • 在NoSql和非关系数据库出现之前,PostgreSQL非常了解SQL和MySQL等数据库的使用。MongoDB、CouchDB等越来越流行于处理web级数据
  • 了解像R这样的统计工具就足以进行分析了,但要创建应用程序,可能需要将Java、Python等添加到列表中
  • 现在,数据以文本、URL、多媒体等形式出现,与它们的操作相关的模式也不尽相同
  • 那么集群计算、并行计算、云计算、AmazonEC2、Hadoop呢
  • OLS回归现在有人工神经网络、随机森林和其他相对奇异的机器学习/数据挖掘算法。作伴

想法?

只想提出一些想法供其他人阐述:

在某种高得离谱的抽象层次上,所有数据工作都涉及以下步骤:

  • 数据收集
  • 数据存储/检索
  • 数据操作/综合/建模
  • 结果报告
  • 讲故事

数据科学家至少应该在这些领域都有一些技能。但根据专业的不同,一个人可能会在有限的范围内花费更多的时间

我认为掌握一两个商业数据库很重要。在我咨询的金融界,我经常在大型iron上看到DB/2和Oracle,在分布式服务器上看到SQL Server。这基本上意味着能够读写SQL代码。您需要能够将数据从存储器中取出并放入分析工具中

就分析工具而言,我认为R越来越重要。我还认为知道如何使用至少一个其他stat包也是非常有利的。可能是SAS或SPSS。。。这实际上取决于你为之工作的公司或客户以及他们的期望


最后,您可以难以置信地掌握所有这些软件包,但仍然不是很有价值。在特定领域拥有相当数量的主题专业知识,并能够与相关用户和管理者沟通围绕您的分析和发现的问题,这一点非常重要。

矩阵代数是我的首选。

JD一针见血:讲故事。虽然他确实忘记了另一个重要的故事:你为什么使用它的故事。能够回答这个问题无疑是你能培养的最重要的技能


剩下的只是锤子。别误会,像R这样的东西很棒。R是一整袋锤子,但重要的一点是知道如何使用锤子之类的东西来制造有用的东西

JD的想法很棒,要想更深入地了解这些想法,请阅读Michael Driscoll的精彩帖子:

  • 技能#1:统计(学习)
  • 技能#2:数据饥渴(痛苦)
  • 技能#3:可视化(讲故事)
    • 合作的能力

    如今,几乎在任何学科中,伟大的科学都很少由个人完成。

    有几个计算机科学主题对数据科学家很有用,其中许多都被提到:分布式计算、操作系统和数据库


    ,即理解计算的时间和空间要求,是数据科学家最重要的计算机科学课题。它有助于实现高效的代码,从统计学习方法到数据收集;以及确定您的计算需求,例如多少RAM或多少Hadoop节点。

    耐心-既可以以合理的方式获得结果,又可以返回并更改为“实际”需要的结果。

    引自简介:

    首先,您以一种 你可以和。。。第二,你 绘制数据,以了解需要什么 正在进行。。。第三,迭代 在图形和模型之间构建 简明的定量总结 数据。。。最后,你回头看看 你所做的,以及你所思考的 您需要哪些工具在中做得更好 未来

    步骤1几乎肯定涉及到数据挖掘,可能涉及数据库访问或web抓取。了解创建数据的人也很有用。(我在“网络”项下填写。)

    第2步是指可视化/绘图技能

    第三步是统计或建模技能。因为这是一个愚蠢的宽泛的范畴,委托给建模者的能力也是一项有用的技能

    最后一步主要是关于软技能,如内省和管理类技能

    问题中还提到了软件技能,我同意它们非常有用。列出了您应该具备的所有基本软件技能。

    在这里,问题通过一个漂亮的维恩图以一般方式解决:


    在麻省理工学院开放课程ware 18.06上学习线性代数,并用《线性代数导论》一书代替你的学习。线性代数是数据分析中除上述技能外的基本技能之一

    根据我的经验,满足某一职位所需的技能通常与满足某一特定职位所需的技能(通常与职位描述中所述的技能大不相同)相差甚远。这是一个问题吗?或者更多关于数据科学家技能的陈述,可能相关,也可能不相关?我认为这应该有主观标签。讲故事+1。任何一只带计算器的猴子都能算出数字。肯尼特,作为一名经济学家,我经常把我的工作描述为前