一、spark 学习

   1、 spark学习的三种地方:

           (1)Spark.apache.org    官方文档

           (2)spark的源代码的官方网站 https://github.com/apache/spark

           (3)spark的官方的博客 https://databricks.com/blog

             大数据改变了世界,spark改变了大数据

    2、 Apache Spark™ is a fast and general engine for large-scale data processing.      

         处理速度快,相比mapreduce(比mapreduce快10倍左右)

    3、spark四大 特性:

         速度快

         使用简单:可以使用Java、scala、Python、R开发,spark提供了80多个算子

        通用性:Spark 提供了大数据一栈式解决方案。包含了流计算、图计算、机器学习、SQL等。

        运行在任何地方: Spark可以运行在Hadoop的YARN、Mesos, standalone,或者运行在云上。  Spark 处理的数据,可以存储在HDFS, Cassandra, HBase,和S3等等。

    4、spark四种模式:(前两种国内用的比较多)

         (1)spark alone

                    client 、cluster

         (2)spark on yarn

                     client 、cluster

         (3)spark on Mesos(类似于yarn的一个资源调度器)

         (4)Spark on EC2 

     5、什么是RDD(可分区的分布式数据集)

     6、spark架构需要了解的几个基本概念

          Appliction \ Appliction jar\ ….等等

    

 

补充:工作当中用的比较多的是spark 1.6.0

         

版权声明:本文为liuwei6原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/liuwei6/p/6655372.html