2017-08-10

基于R语言的统计分析 | R当中使用HDFS数据

  为了分析储存在Hadoop Distributed File System(HDFS)中的数据,我们会用到各式各样的软件或者语言。这其中,最具代表的就是HIVE, Pig, Spark, Python, Scala和R了。 使用HIVE, Pig可以对大容量数据济宁快速简单的整理,Spark则可以帮助大家使用例如machine learning方式的in-memory分析。 而R就是比之前所有的统计分析巩固都要容易上手的一个不可或缺的工具。 在这个章节里,我们在众多统计分析工具中,只选择R进行讲述。为了分析在大数据eco系统构成后锁累积的数据,需要在特定的服务器上安装R。但是即便是安装好了R,也并非可以直接像在本地分析数据一样进行操作。 首先,从系统角度而言,R需要能够链接到Hadoop。当系统设置结束以后需要在R console(或者是R Studio)中使用函数和package去连接Hadoop。现在,我们来给各位逐步讲解在系统层面将R和Hadoop链接之后如何使用Package和函数来操作Hadoop内部的大数据。 1.1. 大数据eco系统环境参数设置 为了在大数据eco系统中使用R,需要设置环境参数。关于一些基本设置参数的信息,我为大家列了一个表格,请各位参考。   Sys.setenv() : 环境参数设定函数 命令语句 执行内容 […]