大数据开发:spark core核心讲解

333 篇文章 14 订阅
订阅专栏

关于Spark框架在大数据生态当中的地位,相信不必多说大家也明白,作为大数据公认的第二代计算引擎,Spark至今仍然占据重要的市场份额,只要提到大数据,那么Spark一定是如影随形的。今天的大数据开发学习分享,我们就主要来讲讲Spark框架核心Spark Core。

Spark Core简介

Spark Core包含Spark的基本功能,如内存计算、任务调度、部署模式、故障恢复、存储管理等。
 

大数据培训:Spark Core大数据计算


Spark本身作为一代大数据计算引擎,其核心Spark Core,正是完成计算任务的核心组件,批量的把数据加载到Spark中,然后通过它自带的一系列算子,也就是对数据的一系列操作,将数据转化,计算并最终得到自己想要的数据结果。

比如Transformation算子中的filter算子,就是对数据进行过滤,像过滤掉名字为空,电话号码为空等,都需要用到该算子。

比如Action算子中的saveAsTextFile算子,通常我们的用法就是把计算的结果保存为文本(TXT)格式。

Spark core底层

SparkCore底层是RDD,即弹性分布式分布式数据集,底层又分为多个partition(分区),它本身是不存数据的,只是计算的时候数据存在于RDD中,RDD的产生意味着调用了算子。这样一系列通过调用算子生成的RDD,最终会生成DAG有向无环图。

各个算子之间的依赖分为两种,宽依赖和窄依赖,宽依赖是子RDD的分区依赖于多个父RDD的分区,窄依赖则是子RDD的分区只依赖一个父RDD的分区,这样的依赖关系也就产生的血统的概念。

DAG有向无环图主要是与该Spark程序的执行流程有关。流程如下:

1.当一个Spark应用被提交时,首先需要为这个Spark Application构建基本的运行环境,即由任务节点(Driver)创建一个SparkContext;

2.SparkContext像资源管理器注册并申请运行Executor资源;

3.资源管理器为Executor分配资源并启动Executor进程,Executor运行状况将随着心跳发送到资源管理器上;

4.SparkContext根据RDD的依赖关系生成DAG有向无环图,并提交给DAGScheduler进行解析划分成Stage,并把该Stage中的task组成的Taskset发送给TaskScheduler;

5.TaskScheduler将Task发送到Executor执行,同时SparkContext将应用程序代码发放给Executor。

6.Executor将task丢入到线程池中执行,把执行结果反馈给DAG调度器,运行完毕后写入数据并释放所有资源。

关于大数据开发,Spark Core大数据计算,以上就为大家做了简单的介绍了。Spark在大数据计算引擎当中,始终占据重要地位,而作为Spark核心的Spark Core,正是Spark学习当中的重难点。

Spark Core 教学讲解PPT
12-09
参考Spark官网以及一些文献,制作的Spark Core教学幻灯片,适合进行Spark入门介绍与教学!所有的Spark教学系列都在我的资源内!
sparkcore相关实例
04-08
sparkcore相关实例
Spark Core 整体介绍
GIS摆渡人
04-13 1238
一. 简介 二. 核心概念 1. num-executor优化 –num-executors: 执行器个数,执行器数可以为节点个数,也可以为总核数(单节点核数*节点数),也可以是介于俩者之间(用于调优) –executor-cores: 执行器核数, 核数可以1,也可以为单节点的内核书,也可以是介于俩者之间(用于调优) –executor-memory: 执行器内存, 可以为最小内存数(单节点内存总数/单节点核数),也可以为最大内存数(单节点内存总数),也可以是介于俩者之间(用于调优) 使用较小的exe
[Spark总结]Spark Core概述
Gru的博客
05-07 752
Spark CoreSpark Core 概述Spark Core相关术语Spark ApplicationDriverCluster ManagerWorker NodeExecutorTaskJob Spark Core 概述   Spark Core实现了 Spark基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core 中还包含了对弹性分布式数据集RDD...
SparkCore_深入理解
m0_57697768的博客
03-16 124
Spark宽窄依赖,累加器,广播变量,RDD,Stage阶段划分
SparkCore
weixin_42263032的博客
01-10 2656
一、SparkCore spark架构 二、SparkSQL 三、SparkStreaming
大数据spark core的介绍
leaxning的博客
08-15 777
sparkcore的操作指南Spark是什么原理运行模式基础编程 Spark是什么 1.Spark是什么 Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。并且 Spark 目前已经成为 Apache 最活跃的开源项目。 2.Spark特点 2.1 快速 与 Hadoop 的 MapReduce 相比, Spark 基于内存的运算是 MapReduce 的 100 倍.基于硬盘的运算也要快 10 倍以上. 2.2 易用 Spark 支持 Scala, Java, Python, R 和 SQ
上万字详解Spark Core(建议收藏)
yuan_more的博客
03-17 4339
????先来一个问题,也是面试中常问的: Spark为什么会流行? 原因1:优秀的数据模型和丰富计算抽象 Spark 产生之前,已经有MapReduce这类非常成熟的计算系统存在了,并提供了高层次的API(map/reduce),把计算运行在集群中并提供容错能力,从而实现分布式计算。 虽然MapReduce提供了对数据访问和计算的抽象,但是对于数据的复用就是简单的将中间数据写到一个稳定的文件系统中(例如HDFS),所以会产生数据的复制备份,磁盘的I/O以及数据的序列化,所以在遇到需要在多个计算之间复
Spark Core 学习笔记
浪淘沙
09-29 436
SparkCore学习笔记 1:Spark Core:内核,也是Spark中最重要的部分,相当于Mapreduce                 SparkCore 和 Mapreduce都是进行离线数据分析                 SparkCore核心:RDD(弹性分布式数据集),由分区组成                  2:Spark Sql:相当于Hive        ...
Spark-core核心)的基本介绍
weixin_34258078的博客
08-29 1157
一、Spark Core提供Spark最基础与最核心的功能,主要包括以下功能: (1)SparkContext: 通常而言,Driver Application的执行与输出都是通过SparkContext来完成的。在正式提交Application之前,首先需要初始化SparkContext。SparkContext隐藏了网络通信、分布式部署、消息通信、存储能力、计算能力、缓存、测量系统、文件服务、...
大数据开发实战:SparkStreaming流计算开发
02-24
Storm以及离线数据平台的...SparkStreaming作为Spark整体解决方案中实时数据处理部分,本质上仍然是基于Spark的弹性分布式数据集(ResilientDistributedDatasets:RDD)概念。SparkStreaming将源头数据划分为很小的批,
华为大数据认证:Spark2x基于内存的分布式计算.pptx
09-24
华为大数据认证,spark部分
大数据Spark:企业级实战
12-05
大数据Spark:企业级实战
大数据架构:大数据技术架构的思想和原理是什么
最新发布
04-10
大数据架构:大数据技术架构的思想和原理是什么 大数据技术其实是分布式技术在数据处理领域的创新性应用,本质和我们此前讲到的分布式技术思路一脉相承:用更多的计算机组成一个集群,提供更多的计算资源,从而满足更...
Spark系列---core详解
lipviolet的博客
03-02 361
1)map操作 /** * map(func):返回一个新的分布式数据集,由每个原元素经过func函数转换后组成 * 将原始集合中的每一个元素*7 * map的操作是一个one to one的操作 */ private def mapMethod(sc: SparkConte...
spark学习笔记(三)——sparkcore基础知识
qq_55906442的博客
07-22 656
ApplicationMaster用于向资源调度器申请执行任务的资源容器Container,,监控整个任务的执行,跟踪整个任务的状态,处理任务失败等异常情况。sparkstreaming提供了丰富的处理数据流的API。(9)执行main函数,执行Action算子(Action。(9)执行main函数,执行Action算子(Action。是一个进程,主要负责资源的调度和分配,进行集群监控等;(6)ApplicationMaster在指定的。(6)ApplicationMaster在指定的。......
SparkCore--详细
Java_KW的博客
08-13 337
文章目录一、Spark运行架构1.1 运行架构1.2 核心组件1.3 组件简单展示1.3.1 简单传输1.3.2 传输逻辑运算以及数据1.3.3 分布式计算1.4 核心概念二、Spark核心编程2.1 RDD弹性分布式数据集2.1.1 RDD 和 IO流2.1.2 RDD的特点2.1.3 RDD 核心属性2.1.4 RDD执行原理2.2 RDD基础2.2.1 RDD创建2.2.2 RDD 并行度与分区内存数据文件数据2.3 RDD 方法2.3.1 RDD转换算子2.3.1.1 Value类型2.3.1.2
大数据】计算引擎之六:Spark处理框架
凝眸伏笔的博客
11-09 1401
1.是什么? Apache Spark是一种包含流处理能力的下一代批处理框架。与Hadoop的MapReduce引擎基于各种相同原则开发而来的Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度。 原理图: 2.怎么干? Spark可作为独立集群部署(需要相应存储层的配合),或可与Hadoop集成并取代MapReduce引擎。   批处理模式   与M...
【学习笔记】大数据技术之SparkCore(一)
prague6695的博客
04-18 1183
大数据技术之Spark第1章 Spark 概述1.1 Spark 是什么1.2 Spark and Hadoop1.3 Spark or Hadoop1.4 Spark 核心模块第2章 Spark 快速上手2.1 创建 Maven 项目2.1.1 增加 Scala 插件2.1.2 增加依赖关系Set the default spark-shell log level to ERROR. When running the spark-shell,log level for this class is used
大数据开发sparkcore开发调优原则
03-16
大数据开发中,SparkCore开发调优原则包括以下几点: 1. 数据分区:合理的数据分区可以提高SparkCore的并行度,从而提高处理效率。可以根据数据量、数据类型等因素进行分区。 2. 内存调优:SparkCore的内存管理对...

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • Hadoop和Hbase的关系:Hadoop Hbase详解 10438
  • 数据库开发是干什么的?数据库开发难不难 10188
  • 大数据分析项目实例:Hadoop数据分析应用场景 7169
  • 大数据开发,聊聊离线数仓和实时数仓 6636
  • Hadoop和Kafka啥关系?Hadoop Kafka简介 6261

分类专栏

  • 大数据 333篇

最新评论

  • 大数据入门:ZooKeeper工作原理

    forest_long: 大佬这篇文章结构清晰,具有条理性可以借鉴并学习和落地,内容丰富图文并茂,认真看完收获很大,求回访🎀🎀🍒🍒

  • 在大数据行业,专科学历与本科学历差别大吗?

    大佬在上,请收我: 专科想大数据太难了我感觉,深圳这边投简历几天都没面试机会表情包表情包表情包 而且老师说过小公司一般没真大数据这职位,不知道是不是真的

  • 大数据入门:微服务与分布式

    GuoYale1998: 来自Yale的肯定表情包

  • 大数据编程入门:JavaScript函数

    Zht_bs: 这个可以有

  • 大数据开发教学—什么是Spark

    宇宙爆肝锦标赛冠军: 受教了!

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • 大数据学习—Azkaban的解析
  • 学习大数据需要了解Python吗?有什么联系?
  • 在Hadoop环境中,大数据存储的技巧有哪些?
2021年250篇
2020年96篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司汕头网站建设报价营口外贸网站建设公司济源网站推广多少钱新余建站价格阿坝网站推广工具株洲模板推广垦利如何制作网站公司廊坊网站优化软件鄂州设计公司网站价格汉中网站设计价格商洛网站排名优化推荐上海网站优化按天收费多少钱张掖企业网站建设公司德宏网络推广多少钱阿坝网站制作设计报价漯河网站改版推荐襄樊SEO按效果付费多少钱杭州百度关键词包年推广信阳网站优化按天计费多少钱哈密如何制作网站价格百色网站设计模板价格无锡网站排名优化公司毕节百度网站优化哪家好廊坊模板制作价格珠海网页制作价格湘西至尊标王自贡网站建设推荐佛山百度网站优化排名公司龙华百度爱采购哪家好塘坑企业网站设计歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化