获取资料

极客时间-Spark性能调优实战「完结」

课程介绍

极客时间Spark性能调优实战。

课程模块设计

课程按照原理、性能、实战分为三大部分。

原理篇:主要讲解与性能调优息息相关的核心概念,包括RDD、DAG、调度系统、存储系统和内存管理。力求用最贴切的故事和类比、最少的篇幅,让你在最短的时间内掌握其核心原理,为后续的性能调优打下坚实的基础。

性能篇:虽然 Spark 的应用场景可以分为 5 大类,包括海量批处理、实时流计算、图计算、数据分析和机器学习。但它对 Spark SQL 的倾斜和倚重也是有目共睹,所以性能篇主要分两部分来讲。

一部分主要讲解性能调优的通用技巧,包括应用开发的基本原则、配置项的设置、Shuffle 的优化、资源利用率的提升。另一部分会专注于数据分析领域,借助 Spark 内置优化如 Tungsten、AQE 和典型场景如数据关联,总结 Spark SQL 中的调优方法和技巧。

实战篇:以 2011-2019 的《北京市汽油车摇号》数据为例,手把手教你打造一个分布式应用,带你从不同角度洞察汽油车摇号的趋势和走向,帮助你实践我们的方法论和调优技巧,不仅要学得快,也要学得好!

除此之外,课程更新期间,还会不定期地针对一些热点话题进行加餐。比如,和 Flink、Presto 相比,Spark 有哪些优势;再比如,Spark 的一些新特性,以及业界对于 Spark 的新探索。这也能帮助你更好地面对变化,把握先机。

资源目录

.

[ 13K] 01-性能调优的必要性:Spark本身就很快,为啥还需要我调优?.md

[ 12M] 01-性能调优的必要性:Spark本身就很快,为啥还需要我调优?.mp3

[1.4M] 01-性能调优的必要性:Spark本身就很快,为啥还需要我调优?.pdf

[ 13M] 02-性能调优的本质:调优的手段五花八门,该从哪里入手?.mp3

[2.0M] 02-性能调优的本质:调优的手段五花八门,该从哪里入手?.pdf

[ 14M] 03-RDD:为什么你必须要理解弹性分布式数据集?.mp3

[3.0M] 03-RDD:为什么你必须要理解弹性分布式数据集?.pdf

[ 15M] 04-DAG与流水线:到底啥叫“内存计算”?.mp3

[6.7M] 04-DAG与流水线:到底啥叫“内存计算”?.pdf

[ 23M] 05-调度系统:“数据不动代码动”到底是什么意思?.mp3

[8.5M] 05-调度系统:“数据不动代码动”到底是什么意思?.pdf

[ 18M] 06-存储系统:空间换时间,还是时间换空间?.mp3

[3.4M] 06-存储系统:空间换时间,还是时间换空间?.pdf

[ 18M] 07-内存管理基础:Spark如何高效利用有限的内存空间?.mp3

[7.4M] 07-内存管理基础:Spark如何高效利用有限的内存空间?.pdf

[ 22M] 08-应用开发三原则:如何拓展自己的开发边界?.mp3

[2.4M] 08-应用开发三原则:如何拓展自己的开发边界?.pdf

[ 22M] 09-调优一筹莫展,配置项速查手册让你事半功倍!(上).mp3

[3.6M] 09-调优一筹莫展,配置项速查手册让你事半功倍!(上).pdf

[ 18M] 10-调优一筹莫展,配置项速查手册让你事半功倍!(下).mp3

[4.9M] 10-调优一筹莫展,配置项速查手册让你事半功倍!(下).pdf

[ 19M] 11-为什么说Shuffle是一时无两的性能杀手?.mp3

[ 10M] 11-为什么说Shuffle是一时无两的性能杀手?.pdf

[ 14M] 12-广播变量(一):克制Shuffle,如何一招制胜!.mp3

[5.4M] 12-广播变量(一):克制Shuffle,如何一招制胜!.pdf

[ 15M] 13-广播变量(二):如何让SparkSQL选择BroadcastJoins?.mp3

[1.6M] 13-广播变量(二):如何让SparkSQL选择BroadcastJoins?.pdf

[ 20M] 14-CPU视角:如何高效地利用CPU?.mp3

[7.6M] 14-CPU视角:如何高效地利用CPU?.pdf

[ 14K] 15-内存视角(一):如何最大化内存的使用效率?.md

[ 17M] 15-内存视角(一):如何最大化内存的使用效率?.mp3

[1.5M] 15-内存视角(一):如何最大化内存的使用效率?.pdf

[ 21M] 16-内存视角(二):如何有效避免Cache滥用?.mp3

[4.6M] 16-内存视角(二):如何有效避免Cache滥用?.pdf

[ 16M] 17-内存视角(三):OOM都是谁的锅?怎么破?.mp3

[6.0M] 17-内存视角(三):OOM都是谁的锅?怎么破?.pdf

[ 15M] 18-磁盘视角:如果内存无限大,磁盘还有用武之地吗?.mp3

[4.1M] 18-磁盘视角:如果内存无限大,磁盘还有用武之地吗?.pdf

[ 14M] 19-网络视角:如何有效降低网络开销?.mp3

[1.9M] 19-网络视角:如何有效降低网络开销?.pdf

[ 14M] 20-RDD和DataFrame:既生瑜,何生亮?.mp3

[6.6M] 20-RDD和DataFrame:既生瑜,何生亮?.pdf

[ 17M] 21-Catalyst逻辑计划:你的SQL语句是怎么被优化的?(上).mp3

[5.9M] 21-Catalyst逻辑计划:你的SQL语句是怎么被优化的?(上).pdf

[ 16M] 22-Catalyst物理计划:你的SQL语句是怎么被优化的(下)?.mp3

[7.5M] 22-Catalyst物理计划:你的SQL语句是怎么被优化的(下)?.pdf

[ 20M] 23-钨丝计划:Tungsten给开发者带来了哪些福报?.mp3

[7.8M] 23-钨丝计划:Tungsten给开发者带来了哪些福报?.pdf

[ 17M] 24-Spark3.0(一):AQE的3个特性怎么才能用好?.mp3

[6.3M] 24-Spark3.0(一):AQE的3个特性怎么才能用好?.pdf

[ 13M] 25-Spark3.0(二):DPP特性该怎么用?.mp3

[4.1M] 25-Spark3.0(二):DPP特性该怎么用?.pdf

[ 18M] 26-JoinHints指南:不同场景下,如何选择Join策略?.mp3

[9.1M] 26-JoinHints指南:不同场景下,如何选择Join策略?.pdf

[ 19M] 27-大表Join小表:广播变量容不下小表怎么办?.mp3

[4.9M] 27-大表Join小表:广播变量容不下小表怎么办?.pdf

[ 14M] 28-大表Join大表(一):什么是“分而治之”的调优思路?.mp3

[5.2M] 28-大表Join大表(一):什么是“分而治之”的调优思路?.pdf

[ 16M] 29-大表Join大表(二):什么是负隅顽抗的调优思路?.mp3

[8.2M] 29-大表Join大表(二):什么是负隅顽抗的调优思路?.pdf

[ 18M] 30应用开发:北京市小客车(汽油车)摇号趋势分析.mp3

[5.2M] 30应用开发:北京市小客车(汽油车)摇号趋势分析.pdf

[ 25M] 31-性能调优:手把手带你提升应用的执行性能.mp3

[5.4M] 31-性能调优:手把手带你提升应用的执行性能.pdf

[1.3M] SparkUI(上)-深入解读Spark作业的“体检报告”.mp3

[6.2M] SparkUI(上)-深入解读Spark作业的“体检报告”.pdf

[1.1M] SparkUI(下):深入解读Spark作业的“体检报告”.mp3

[6.1M] SparkUI(下):深入解读Spark作业的“体检报告”.pdf

[ 10M] 开篇词-Spark性能调优,你该掌握这些“套路”.mp3

[8.2M] 开篇词-Spark性能调优,你该掌握这些“套路”.pdf

[625K] 期末考试-“Spark性能调优”100分试卷等你来挑战!.pdf

[ 11M] 结束语-在时间面前,做一个笃定学习的人.mp3

[2.2M] 结束语-在时间面前,做一个笃定学习的人.pdf

评论0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址