spark（一）

liuwei6 2021-09-05 原文

一、spark 学习

1、 spark学习的三种地方：

（1）Spark.apache.org 官方文档

（2）spark的源代码的官方网站 https://github.com/apache/spark

（3）spark的官方的博客 https://databricks.com/blog

大数据改变了世界，spark改变了大数据

2、 Apache Spark™ is a fast and general engine for large-scale data processing.

处理速度快，相比mapreduce（比mapreduce快10倍左右）

3、spark四大特性：

速度快

使用简单:可以使用Java、scala、Python、R开发，spark提供了80多个算子

通用性：Spark 提供了大数据一栈式解决方案。包含了流计算、图计算、机器学习、SQL等。

运行在任何地方： Spark可以运行在Hadoop的YARN、Mesos, standalone,或者运行在云上。 Spark 处理的数据，可以存储在HDFS, Cassandra, HBase,和S3等等。

4、spark四种模式：(前两种国内用的比较多)

(1)spark alone

client 、cluster

(2)spark on yarn

client 、cluster

(3)spark on Mesos（类似于yarn的一个资源调度器）

(4)Spark on EC2

5、什么是RDD（可分区的分布式数据集）

6、spark架构需要了解的几个基本概念

Appliction \ Appliction jar\ ….等等

补充：工作当中用的比较多的是spark 1.6.0

本文链接：https://www.cnblogs.com/liuwei6/p/6655372.html

spark（一）的更多相关文章

Spark SQL笔记

HDFS HDFS架构 1、Master(NameNode/NN) 对应 N个Slaves(DataNode/ […]...

spark练习——影评案例

第一次写博客，新人上路，欢迎大家多多指教！！！ ———— […]...

Spark UDAF实现举例 — average pooling

目录 1.UDAF定义 2.向量平均(average pooling) 2.1 average的并行化 2.2 […]...

高性能分布式执行框架——Ray

高性能分布式执行框架——Ray 2017-11-26 23:59 by Florian, … 阅读 […]...

Spark Streaming（上）–实时流计算Spark Streaming原理介绍

1、Spark Streaming简介 1.1 概述 Spark Streaming 是Spark核心API的 […]...

Spark SQL 之 DataFrame

Spark SQL 之 DataFrame Spark SQL 之 DataFrame 转载请注明出处：htt […]...

Spark MLlib 之 aggregate和treeAggregate从原理到应用

在阅读spark mllib源码的时候，发现一个出镜率很高的函数——aggregate和treeAggrega […]...

基于Hadoop与Spark的大数据开发概论

Hadoop什么是Hadoop？Hadoop是一套开源的用于大规模数据集的分布式储存和处理的工具平台。他最早由Yahoo的技术团队根据Google所发布的公开论文思想用Java语言开发，现在则隶属于Apache基金会Hadoop...

随机推荐

JS银行取款流程

假设一个简单的ATM机的取款过程是这样的：首先提示用户输入密码（password），最多只能输入三次，超过3 […]...

js ajax上传图片到服务器

$("#up_goods_pic").on(\'change\',function(){ var file = […]...

线性代数->行列式

一行列式的性质：　　1.行列式某一行与另一行成比例则此行列式为0；（行列式某一行与另一行相等，则次行列式为0 […]...

iOS上架app store详细教材

1、安装iOS上架辅助软件Appuploader 2、申请iOS发布证书（p12） 3、申请iOS发布描述文件（mobileprovision） 4、打包ipa 5、上传ipa到iTunes Conn1、安装iOS上架辅助软件Appup...

微服务SpringCloud之熔断器

学习SpringCloud微服务是参考纯洁的微笑博客，看到他提到股市的熔断我也忍不住吐槽一下，记得当时实 […]...

java 线程池对象ThreadPoolExecutor

ThreadPoolExecutor 介绍：　　java 提供的线程池类； ThreadPoolExecut […]...

matlab均方根误差

matlab均方根误差 Matlab均方根误差的计算 http://blog.sina.com.cn/s/bl […]...

看完就懂，五千字长文带你领略推荐系统

最近有一些小伙伴给我留言说非常想要我开一个推荐系统专题，其实我也有过这个想法，一直没动笔主要有两个原因。第一个 […]...

spark（一）

spark（一）的更多相关文章

随机推荐

热门专题

目录导航