中文字幕精品亚洲无线码二区,国产黄a三级三级三级看三级,亚洲七七久久桃花影院,丰满少妇被猛烈进入,国产小视频在线观看网站

Spark性能優化(hua)指(zhi)南-高級篇

轉自(zi)//tech.meituan.com/spark-tuning-pro.html,感(gan)謝原作(zuo)者的(de)貢獻

前(qian)言(yan)

繼講解了每個Spark開發(fa)(fa)人(ren)員都必(bi)須熟知(zhi)的開發(fa)(fa)調(diao)(diao)優(you)與資源調(diao)(diao)優(you)之(zhi)后(hou),本文作為《Spark性能優(you)化指南》的高級(ji)篇,將深入(ru)分析數據(ju)傾斜(xie)調(diao)(diao)優(you)與shuffle調(diao)(diao)優(you),以解決更加(jia)棘手的性能問(wen)題。

數據(ju)傾斜調(diao)優

調優(you)概述

有(you)的(de)時(shi)候,我們可(ke)能會(hui)遇到(dao)大數據計算中(zhong)一個最棘手的(de)問題——數據傾(qing)斜,此時(shi)Spark作(zuo)業的(de)性(xing)能會(hui)比期望差很多。數據傾(qing)斜調(diao)優,就是使(shi)用各種技術方案解決不同(tong)類型的(de)數據傾(qing)斜問題,以保(bao)證Spark作(zuo)業的(de)性(xing)能。

數據(ju)傾斜發生時的現象

  • 絕(jue)大多(duo)數task執(zhi)(zhi)行得都非常快,但個(ge)(ge)別task執(zhi)(zhi)行極慢。比如,總共有1000個(ge)(ge)task,997個(ge)(ge)task都在(zai)1分鐘之內執(zhi)(zhi)行完(wan)了(le),但是剩(sheng)余兩三個(ge)(ge)task卻要(yao)一兩個(ge)(ge)小時。這種情況很常見。

  • 原(yuan)本能夠正常執行的(de)(de)Spark作業,某天(tian)突然報出(chu)OOM(內存(cun)溢出(chu))異常,觀察異常棧,是(shi)我(wo)們寫(xie)的(de)(de)業務(wu)代碼造成的(de)(de)。這種情況比較少見。

數據傾斜發(fa)生的原理

數(shu)據(ju)(ju)傾(qing)斜的(de)原理(li)(li)很簡單:在進(jin)(jin)行shuffle的(de)時(shi)候,必須將(jiang)各個節(jie)(jie)點(dian)上相同的(de)key拉(la)取到(dao)某個節(jie)(jie)點(dian)上的(de)一(yi)個task來進(jin)(jin)行處理(li)(li),比(bi)如(ru)(ru)按照key進(jin)(jin)行聚合或join等操作。此時(shi)如(ru)(ru)果某個key對應的(de)數(shu)據(ju)(ju)量特別大(da)的(de)話(hua),就(jiu)會(hui)(hui)發生數(shu)據(ju)(ju)傾(qing)斜。比(bi)如(ru)(ru)大(da)部分key對應10條數(shu)據(ju)(ju),但(dan)(dan)是個別key卻對應了(le)100萬條數(shu)據(ju)(ju),那(nei)(nei)么大(da)部分task可能就(jiu)只會(hui)(hui)分配到(dao)10條數(shu)據(ju)(ju),然后1秒(miao)鐘(zhong)就(jiu)運(yun)行完(wan)了(le);但(dan)(dan)是個別task可能分配到(dao)了(le)100萬數(shu)據(ju)(ju),要(yao)運(yun)行一(yi)兩個小時(shi)。因此,整個Spark作業的(de)運(yun)行進(jin)(jin)度是由運(yun)行時(shi)間最長的(de)那(nei)(nei)個task決定的(de)。

因(yin)此(ci)出(chu)現數(shu)據(ju)傾(qing)斜的時候,Spark作(zuo)業看(kan)起來會運(yun)行得非常緩慢(man),甚(shen)至可能因(yin)為某個task處(chu)理的數(shu)據(ju)量過大導(dao)致(zhi)內存(cun)溢(yi)出(chu)。

下(xia)圖就是(shi)一個很(hen)清(qing)晰的(de)例(li)子:hello這(zhe)個key,在(zai)三個節點上對(dui)應了總共7條(tiao)數(shu)據(ju),這(zhe)些數(shu)據(ju)都(dou)會被拉取到同一個task中進行處(chu)理(li);而world和you這(zhe)兩個key分別才對(dui)應1條(tiao)數(shu)據(ju),所以另外(wai)兩個task只要分別處(chu)理(li)1條(tiao)數(shu)據(ju)即可。此(ci)時第(di)一個task的(de)運(yun)行時間可能是(shi)另外(wai)兩個task的(de)7倍,而整個stage的(de)運(yun)行速(su)度也由運(yun)行最慢的(de)那個task所決(jue)定。

數據傾斜原理

如(ru)何定位導致數據傾(qing)斜的代碼

數(shu)據傾斜(xie)只會(hui)發生在shuffle過(guo)程中。這(zhe)里給大家羅(luo)列一些(xie)常用的(de)并且可(ke)能會(hui)觸發shuffle操作的(de)算子(zi):distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。出現數(shu)據傾斜(xie)時,可(ke)能就是你的(de)代碼(ma)中使用了這(zhe)些(xie)算子(zi)中的(de)某一個所導(dao)致的(de)。

某個task執行特別(bie)慢(man)的情況

首先要看的,就(jiu)是數據傾斜發生(sheng)在第幾個stage中。

如果是(shi)(shi)(shi)用yarn-client模(mo)式(shi)提(ti)交,那么本地是(shi)(shi)(shi)直(zhi)接可以(yi)(yi)看到(dao)log的,可以(yi)(yi)在log中找到(dao)當前運(yun)行到(dao)了(le)第幾個stage;如果是(shi)(shi)(shi)用yarn-cluster模(mo)式(shi)提(ti)交,則可以(yi)(yi)通過Spark Web UI來查看當前運(yun)行到(dao)了(le)第幾個stage。此外,無論(lun)是(shi)(shi)(shi)使(shi)用yarn-client模(mo)式(shi)還是(shi)(shi)(shi)yarn-cluster模(mo)式(shi),我們(men)都可以(yi)(yi)在Spark Web UI上(shang)深入看一下當前這個stage各個task分(fen)(fen)配(pei)(pei)的數據量,從而進一步確(que)定是(shi)(shi)(shi)不是(shi)(shi)(shi)task分(fen)(fen)配(pei)(pei)的數據不均勻導致(zhi)了(le)數據傾斜。

比如下圖(tu)中(zhong),倒數(shu)(shu)(shu)第三列(lie)顯(xian)(xian)示了(le)每(mei)個(ge)task的(de)(de)(de)運(yun)(yun)行(xing)(xing)時(shi)(shi)間。明(ming)顯(xian)(xian)可(ke)以看(kan)到(dao),有的(de)(de)(de)task運(yun)(yun)行(xing)(xing)特別(bie)快(kuai),只(zhi)需要(yao)幾(ji)秒鐘就可(ke)以運(yun)(yun)行(xing)(xing)完;而有的(de)(de)(de)task運(yun)(yun)行(xing)(xing)特別(bie)慢,需要(yao)幾(ji)分(fen)鐘才能運(yun)(yun)行(xing)(xing)完,此(ci)時(shi)(shi)單從運(yun)(yun)行(xing)(xing)時(shi)(shi)間上看(kan)就已經(jing)能夠確定發(fa)生數(shu)(shu)(shu)據(ju)(ju)傾斜了(le)。此(ci)外,倒數(shu)(shu)(shu)第一列(lie)顯(xian)(xian)示了(le)每(mei)個(ge)task處(chu)(chu)理的(de)(de)(de)數(shu)(shu)(shu)據(ju)(ju)量,明(ming)顯(xian)(xian)可(ke)以看(kan)到(dao),運(yun)(yun)行(xing)(xing)時(shi)(shi)間特別(bie)短(duan)的(de)(de)(de)task只(zhi)需要(yao)處(chu)(chu)理幾(ji)百KB的(de)(de)(de)數(shu)(shu)(shu)據(ju)(ju)即可(ke),而運(yun)(yun)行(xing)(xing)時(shi)(shi)間特別(bie)長的(de)(de)(de)task需要(yao)處(chu)(chu)理幾(ji)千KB的(de)(de)(de)數(shu)(shu)(shu)據(ju)(ju),處(chu)(chu)理的(de)(de)(de)數(shu)(shu)(shu)據(ju)(ju)量差了(le)10倍。此(ci)時(shi)(shi)更加能夠確定是發(fa)生了(le)數(shu)(shu)(shu)據(ju)(ju)傾斜。

知(zhi)道數據傾(qing)斜發生(sheng)在哪一(yi)(yi)(yi)個stage之后,接著我們(men)(men)就需(xu)要根據stage劃分(fen)(fen)原理,推(tui)算出(chu)來發生(sheng)傾(qing)斜的(de)(de)那(nei)(nei)個stage對應代碼(ma)(ma)中(zhong)的(de)(de)哪一(yi)(yi)(yi)部(bu)分(fen)(fen),這(zhe)部(bu)分(fen)(fen)代碼(ma)(ma)中(zhong)肯(ken)定會(hui)有一(yi)(yi)(yi)個shuffle類算子(zi)(zi)。精準(zhun)推(tui)算stage與代碼(ma)(ma)的(de)(de)對應關系,需(xu)要對Spark的(de)(de)源碼(ma)(ma)有深(shen)入的(de)(de)理解,這(zhe)里我們(men)(men)可(ke)以介(jie)紹一(yi)(yi)(yi)個相對簡(jian)單實(shi)用的(de)(de)推(tui)算方(fang)法(fa):只要看(kan)到(dao)Spark代碼(ma)(ma)中(zhong)出(chu)現(xian)了(le)一(yi)(yi)(yi)個shuffle類算子(zi)(zi)或者是Spark SQL的(de)(de)SQL語(yu)句中(zhong)出(chu)現(xian)了(le)會(hui)導致shuffle的(de)(de)語(yu)句(比如group by語(yu)句),那(nei)(nei)么(me)就可(ke)以判(pan)定,以那(nei)(nei)個地方(fang)為(wei)界限劃分(fen)(fen)出(chu)了(le)前后兩(liang)個stage。

這(zhe)里我們就以(yi)(yi)Spark最(zui)基(ji)礎(chu)的(de)(de)入門程(cheng)序——單詞計數(shu)來舉例(li),如何用最(zui)簡(jian)單的(de)(de)方法大致推算(suan)出一個stage對應(ying)的(de)(de)代碼。如下示(shi)例(li),在整個代碼中,只有一個reduceByKey是會(hui)發(fa)生shuffle的(de)(de)算(suan)子(zi),因此就可(ke)以(yi)(yi)認(ren)為(wei),以(yi)(yi)這(zhe)個算(suan)子(zi)為(wei)界限,會(hui)劃(hua)分出前后(hou)兩個stage。

  • stage0,主要是執(zhi)行從(cong)textFile到(dao)map操作(zuo),以及執(zhi)行shuffle write操作(zuo)。shuffle write操作(zuo),我們可以簡單理解為(wei)對pairs RDD中的數(shu)據進行分區操作(zuo),每個task處理的數(shu)據中,相同的key會寫入同一個磁盤文件內。
  • stage1,主要是(shi)執行(xing)(xing)(xing)(xing)從reduceByKey到(dao)collect操(cao)作,stage1的(de)各(ge)個task一開始(shi)運行(xing)(xing)(xing)(xing),就(jiu)(jiu)會首先執行(xing)(xing)(xing)(xing)shuffle read操(cao)作。執行(xing)(xing)(xing)(xing)shuffle read操(cao)作的(de)task,會從stage0的(de)各(ge)個task所(suo)在(zai)(zai)節點拉取屬(shu)于自(zi)己(ji)處(chu)理(li)的(de)那(nei)些key,然(ran)后對同(tong)一個key進(jin)行(xing)(xing)(xing)(xing)全局性(xing)的(de)聚合(he)或join等操(cao)作,在(zai)(zai)這里(li)就(jiu)(jiu)是(shi)對key的(de)value值進(jin)行(xing)(xing)(xing)(xing)累(lei)加。stage1在(zai)(zai)執行(xing)(xing)(xing)(xing)完reduceByKey算子(zi)之后,就(jiu)(jiu)計算出了最終的(de)wordCounts RDD,然(ran)后會執行(xing)(xing)(xing)(xing)collect算子(zi),將所(suo)有數據(ju)拉取到(dao)Driver上,供我(wo)們遍(bian)歷和打印(yin)輸出。
val conf = new SparkConf()
val sc = new SparkContext(conf)

val lines = sc.textFile("hdfs://...")
val words = lines.flatMap(_.split(" "))
val pairs = words.map((_, 1))
val wordCounts = pairs.reduceByKey(_ + _)

wordCounts.collect().foreach(println(_))

 

通過對單(dan)詞(ci)計數程序的(de)(de)(de)分(fen)析,希望能夠讓大(da)家了解最基(ji)本(ben)的(de)(de)(de)stage劃(hua)分(fen)的(de)(de)(de)原理,以(yi)及stage劃(hua)分(fen)后shuffle操作是(shi)如(ru)何在(zai)兩個stage的(de)(de)(de)邊(bian)界處執(zhi)行(xing)的(de)(de)(de)。然(ran)后我(wo)們(men)(men)就知道如(ru)何快速定位出(chu)發生數據(ju)(ju)傾(qing)斜的(de)(de)(de)stage對應代碼(ma)的(de)(de)(de)哪一個部(bu)分(fen)了。比(bi)如(ru)我(wo)們(men)(men)在(zai)Spark Web UI或者本(ben)地(di)log中(zhong)(zhong)發現(xian),stage1的(de)(de)(de)某(mou)幾個task執(zhi)行(xing)得(de)特別(bie)慢,判定stage1出(chu)現(xian)了數據(ju)(ju)傾(qing)斜,那(nei)(nei)么就可以(yi)回到代碼(ma)中(zhong)(zhong)定位出(chu)stage1主要(yao)包括(kuo)了reduceByKey這(zhe)個shuffle類算子,此時基(ji)本(ben)就可以(yi)確(que)定是(shi)由educeByKey算子導致的(de)(de)(de)數據(ju)(ju)傾(qing)斜問題。比(bi)如(ru)某(mou)個單(dan)詞(ci)出(chu)現(xian)了100萬(wan)次(ci),其他(ta)單(dan)詞(ci)才出(chu)現(xian)10次(ci),那(nei)(nei)么stage1的(de)(de)(de)某(mou)個task就要(yao)處理100萬(wan)數據(ju)(ju),整個stage的(de)(de)(de)速度就會被(bei)這(zhe)個task拖慢。

某個task莫名(ming)其妙內存溢出的情況

這種情況下去(qu)定位出(chu)問題(ti)的(de)(de)代碼就(jiu)(jiu)比較容易了。我們(men)建議直接(jie)看yarn-client模(mo)式(shi)下本地log的(de)(de)異常棧(zhan)(zhan),或(huo)者(zhe)是通過YARN查看yarn-cluster模(mo)式(shi)下的(de)(de)log中(zhong)的(de)(de)異常棧(zhan)(zhan)。一般(ban)來說(shuo),通過異常棧(zhan)(zhan)信息就(jiu)(jiu)可以定位到你的(de)(de)代碼中(zhong)哪一行發生(sheng)了內存溢出(chu)。然后在那(nei)行代碼附近找找,一般(ban)也(ye)會有(you)shuffle類(lei)算(suan)子,此時很可能(neng)就(jiu)(jiu)是這個算(suan)子導致了數(shu)據傾斜。

但是(shi)大家要注意的(de)(de)(de)(de)是(shi),不能單純(chun)靠偶然的(de)(de)(de)(de)內存溢(yi)出(chu)就(jiu)判定發生了數據(ju)(ju)傾(qing)斜(xie)。因為自己編寫(xie)的(de)(de)(de)(de)代碼的(de)(de)(de)(de)bug,以及(ji)偶然出(chu)現的(de)(de)(de)(de)數據(ju)(ju)異常,也可(ke)能會導致(zhi)(zhi)內存溢(yi)出(chu)。因此還是(shi)要按照上面(mian)所講(jiang)的(de)(de)(de)(de)方法,通過Spark Web UI查(cha)看(kan)報(bao)錯的(de)(de)(de)(de)那個stage的(de)(de)(de)(de)各(ge)個task的(de)(de)(de)(de)運(yun)行時間以及(ji)分(fen)配(pei)的(de)(de)(de)(de)數據(ju)(ju)量,才能確定是(shi)否是(shi)由于數據(ju)(ju)傾(qing)斜(xie)才導致(zhi)(zhi)了這(zhe)次內存溢(yi)出(chu)。

查看導致數(shu)據(ju)傾斜(xie)的key的數(shu)據(ju)分布情況

知道了(le)數據(ju)傾斜發生在哪里之后(hou),通常需要分(fen)析一(yi)下(xia)那個執行了(le)shuffle操作并且(qie)導(dao)致了(le)數據(ju)傾斜的(de)(de)(de)RDD/Hive表,查看一(yi)下(xia)其中key的(de)(de)(de)分(fen)布情(qing)況(kuang)。這主(zhu)要是為之后(hou)選擇(ze)哪一(yi)種技術方案提供依(yi)據(ju)。針對不(bu)同的(de)(de)(de)key分(fen)布與不(bu)同的(de)(de)(de)shuffle算(suan)子組合起來(lai)的(de)(de)(de)各(ge)種情(qing)況(kuang),可能需要選擇(ze)不(bu)同的(de)(de)(de)技術方案來(lai)解決。

此時根據你執(zhi)行操作的情(qing)況不同(tong),可以(yi)有很多(duo)種(zhong)查看key分布的方(fang)式(shi):

  1. 如果(guo)是Spark SQL中(zhong)的(de)group by、join語句導致(zhi)的(de)數(shu)據傾斜,那么就查詢一下SQL中(zhong)使用的(de)表的(de)key分布情況。
  2. 如果是對Spark RDD執行shuffle算子導(dao)致的數據傾斜,那么可以在Spark作業中加入查看(kan)key分(fen)布(bu)(bu)的代碼,比如RDD.countByKey()。然后對統計出(chu)(chu)來的各個(ge)key出(chu)(chu)現的次(ci)數,collect/take到(dao)客戶端打印一(yi)下(xia),就可以看(kan)到(dao)key的分(fen)布(bu)(bu)情況。

舉例(li)來(lai)說(shuo)(shuo),對于(yu)上(shang)面所說(shuo)(shuo)的(de)單詞計(ji)數(shu)(shu)程序,如果確(que)定(ding)了是stage1的(de)reduceByKey算子(zi)導致了數(shu)(shu)據傾斜,那么就(jiu)應該看看進行reduceByKey操作的(de)RDD中(zhong)的(de)key分布情況,在(zai)這個(ge)例(li)子(zi)中(zhong)指(zhi)的(de)就(jiu)是pairs RDD。如下(xia)示例(li),我們可以先對pairs采樣10%的(de)樣本數(shu)(shu)據,然后(hou)使用(yong)countByKey算子(zi)統(tong)計(ji)出每個(ge)key出現(xian)的(de)次(ci)數(shu)(shu),最后(hou)在(zai)客戶端(duan)遍歷和打(da)印樣本數(shu)(shu)據中(zhong)各個(ge)key的(de)出現(xian)次(ci)數(shu)(shu)。

val sampledPairs = pairs.sample(false, 0.1)
val sampledWordCounts = sampledPairs.countByKey()
sampledWordCounts.foreach(println(_))

 

數(shu)據(ju)傾斜的(de)解(jie)決方案

解決方案(an)一:使(shi)用Hive ETL預處(chu)理數據

方案適用場景:導致數據傾斜的是Hive表。如果該Hive表中的數據本身很不均勻(比如某個key對應了100萬數據,其他key才對應了10條數據),而且業務場景需要頻繁使用Spark對Hive表執行某個分析操作,那么比較適合使用這種技術方案。

方案實現思路:此時可以評估一下,是否可以通過Hive來進行數據預處理(即通過Hive ETL預先對數據按照key進行聚合,或者是預先和其他表進行join),然后在Spark作業中針對的數據源就不是原來的Hive表了,而是預處理后的Hive表。此時由于數據已經預先進行過聚合或join操作了,那么在Spark作業中也就不需要使用原先的shuffle類算子執行這類操作了。

方案實現原理:這種方案從根源上解決了數據傾斜,因為徹底避免了在Spark中執行shuffle類算子,那么肯定就不會有數據傾斜的問題了。但是這里也要提醒一下大家,這種方式屬于治標不治本。因為畢竟數據本身就存在分布不均勻的問題,所以Hive ETL中進行group by或者join等shuffle操作時,還是會出現數據傾斜,導致Hive ETL的速度很慢。我們只是把數據傾斜的發生提前到了Hive ETL中,避免Spark程序發生數據傾斜而已。

方案優點:實現起來簡單便捷,效果還非常好,完全規避掉了數據傾斜,Spark作業的性能會大幅度提升。

方案缺點:治標不治本,Hive ETL中還是會發生數據傾斜。

方案實踐經驗:在一些Java系統與Spark結合使用的項目中,會出現Java代碼頻繁調用Spark作業的場景,而且對Spark作業的執行性能要求很高,就比較適合使用這種方案。將數據傾斜提前到上游的Hive ETL,每天僅執行一次,只有那一次是比較慢的,而之后每次Java調用Spark作業時,執行速度都會很快,能夠提供更好的用戶體驗。

項目實踐經驗:在美團·點評的交互式用戶行為分析系統中使用了這種方案,該系統主要是允許用戶通過Java Web系統提交數據分析統計任務,后端通過Java提交Spark作業進行數據分析統計。要求Spark作業速度必須要快,盡量在10分鐘以內,否則速度太慢,用戶體驗會很差。所以我們將有些Spark作業的shuffle操作提前到了Hive ETL中,從而讓Spark直接使用預處理的Hive中間表,盡可能地減少Spark的shuffle操作,大幅度提升了性能,將部分作業的性能提升了6倍以上。

解決(jue)方案二(er):過濾少數導致傾斜的key

方案適用場景:如果發現導致傾斜的key就少數幾個,而且對計算本身的影響并不大的話,那么很適合使用這種方案。比如99%的key就對應10條數據,但是只有一個key對應了100萬數據,從而導致了數據傾斜。

方案實現思路:如果我們判斷那少數幾個數據量特別多的key,對作業的執行和計算結果不是特別重要的話,那么干脆就直接過濾掉那少數幾個key。比如,在Spark SQL中可以使用where子句過濾掉這些key或者在Spark Core中對RDD執行filter算子過濾掉這些key。如果需要每次作業執行時,動態判定哪些key的數據量最多然后再進行過濾,那么可以使用sample算子對RDD進行采樣,然后計算出每個key的數量,取數據量最多的key過濾掉即可。

方案實現原理:將導致數據傾斜的key給過濾掉之后,這些key就不會參與計算了,自然不可能產生數據傾斜。

方案優點:實現簡單,而且效果也很好,可以完全規避掉數據傾斜。

方案缺點:適用場景不多,大多數情況下,導致傾斜的key還是很多的,并不是只有少數幾個。

方案實踐經驗:在項目中我們也采用過這種方案解決數據傾斜。有一次發現某一天Spark作業在運行的時候突然OOM了,追查之后發現,是Hive表中的某一個key在那天數據異常,導致數據量暴增。因此就采取每次執行前先進行采樣,計算出樣本中數據量最大的幾個key之后,直接在程序中將那些key給過濾掉。

解決方(fang)案三:提高shuffle操(cao)作的并行度

方案適用場景:如果我們必須要對數據傾斜迎難而上,那么建議優先使用這種方案,因為這是處理數據傾斜最簡單的一種方案。

方案實現思路:在對RDD執行shuffle算子時,給shuffle算子傳入一個參數,比如reduceByKey(1000),該參數就設置了這個shuffle算子執行時shuffle read task的數量。對于Spark SQL中的shuffle類語句,比如group by、join等,需要設置一個參數,即spark.sql.shuffle.partitions,該參數代表了shuffle read task的并行度,該值默認是200,對于很多場景來說都有點過小。

方案實現原理:增加shuffle read task的數量,可以讓原本分配給一個task的多個key分配給多個task,從而讓每個task處理比原來更少的數據。舉例來說,如果原本有5個key,每個key對應10條數據,這5個key都是分配給一個task的,那么這個task就要處理50條數據。而增加了shuffle read task以后,每個task就分配到一個key,即每個task就處理10條數據,那么自然每個task的執行時間都會變短了。具體原理如下圖所示。

方案優點:實現起來比較簡單,可以有效緩解和減輕數據傾斜的影響。

方案缺點:只是緩解了數據傾斜而已,沒有徹底根除問題,根據實踐經驗來看,其效果有限。

方案實踐經驗:該方案通常無法徹底解決數據傾斜,因為如果出現一些極端情況,比如某個key對應的數據量有100萬,那么無論你的task數量增加到多少,這個對應著100萬數據的key肯定還是會分配到一個task中去處理,因此注定還是會發生數據傾斜的。所以這種方案只能說是在發現數據傾斜時嘗試使用的第一種手段,嘗試去用嘴簡單的方法緩解數據傾斜而已,或者是和其他方案結合起來使用。

解決方案四:兩階段聚合(he)(局部聚合(he)+全局聚合(he))

方案適用場景:對RDD執行reduceByKey等聚合類shuffle算子或者在Spark SQL中使用group by語句進行分組聚合時,比較適用這種方案。

方案實現思路:這個方案的核心實現思路就是進行兩階段聚合。第一次是局部聚合,先給每個key都打上一個隨機數,比如10以內的隨機數,此時原先一樣的key就變成不一樣的了,比如(hello, 1) (hello, 1) (hello, 1) (hello, 1),就會變成(1_hello, 1) (1_hello, 1) (2_hello, 1) (2_hello, 1)。接著對打上隨機數后的數據,執行reduceByKey等聚合操作,進行局部聚合,那么局部聚合結果,就會變成了(1_hello, 2) (2_hello, 2)。然后將各個key的前綴給去掉,就會變成(hello,2)(hello,2),再次進行全局聚合操作,就可以得到最終結果了,比如(hello, 4)。

方案實現原理:將原本相同的key通過附加隨機前綴的方式,變成多個不同的key,就可以讓原本被一個task處理的數據分散到多個task上去做局部聚合,進而解決單個task處理數據量過多的問題。接著去除掉隨機前綴,再次進行全局聚合,就可以得到最終的結果。具體原理見下圖。

方案優點:對于聚合類的shuffle操作導致的數據傾斜,效果是非常不錯的。通常都可以解決掉數據傾斜,或者至少是大幅度緩解數據傾斜,將Spark作業的性能提升數倍以上。

方案缺點:僅僅適用于聚合類的shuffle操作,適用范圍相對較窄。如果是join類的shuffle操作,還得用其他的解決方案。

// 第一步,給RDD中的每個(ge)(ge)key都打上一個(ge)(ge)隨機前綴。
JavaPairRDD<String, Long> randomPrefixRdd = rdd.mapToPair(
        new PairFunction<Tuple2<Long,Long>, String, Long>() {
            private static final long serialVersionUID = 1L;
            @Override
            public Tuple2<String, Long> call(Tuple2<Long, Long> tuple)
                    throws Exception {
                Random random = new Random();
                int prefix = random.nextInt(10);
                return new Tuple2<String, Long>(prefix + "_" + tuple._1, tuple._2);
            }
        });

// 第二步,對打(da)上(shang)隨(sui)機前綴的key進行局(ju)部聚合。
JavaPairRDD<String, Long> localAggrRdd = randomPrefixRdd.reduceByKey(
        new Function2<Long, Long, Long>() {
            private static final long serialVersionUID = 1L;
            @Override
            public Long call(Long v1, Long v2) throws Exception {
                return v1 + v2;
            }
        });

// 第三步(bu),去除RDD中每個key的隨機前綴。
JavaPairRDD<Long, Long> removedRandomPrefixRdd = localAggrRdd.mapToPair(
        new PairFunction<Tuple2<String,Long>, Long, Long>() {
            private static final long serialVersionUID = 1L;
            @Override
            public Tuple2<Long, Long> call(Tuple2<String, Long> tuple)
                    throws Exception {
                long originalKey = Long.valueOf(tuple._1.split("_")[1]);
                return new Tuple2<Long, Long>(originalKey, tuple._2);
            }
        });

// 第四(si)步,對去除了隨機前(qian)綴(zhui)的RDD進行全局聚(ju)合。
JavaPairRDD<Long, Long> globalAggrRdd = removedRandomPrefixRdd.reduceByKey(
        new Function2<Long, Long, Long>() {
            private static final long serialVersionUID = 1L;
            @Override
            public Long call(Long v1, Long v2) throws Exception {
                return v1 + v2;
            }
        });

 

解決方案(an)五:將reduce join轉(zhuan)為map join

方案適用場景:在對RDD使用join類操作,或者是在Spark SQL中使用join語句時,而且join操作中的一個RDD或表的數據量比較小(比如幾百M或者一兩G),比較適用此方案。

方案實現思路:不使用join算子進行連接操作,而使用Broadcast變量與map類算子實現join操作,進而完全規避掉shuffle類的操作,徹底避免數據傾斜的發生和出現。將較小RDD中的數據直接通過collect算子拉取到Driver端的內存中來,然后對其創建一個Broadcast變量;接著對另外一個RDD執行map類算子,在算子函數內,從Broadcast變量中獲取較小RDD的全量數據,與當前RDD的每一條數據按照連接key進行比對,如果連接key相同的話,那么就將兩個RDD的數據用你需要的方式連接起來。

方案實現原理:普通的join是會走shuffle過程的,而一旦shuffle,就相當于會將相同key的數據拉取到一個shuffle read task中再進行join,此時就是reduce join。但是如果一個RDD是比較小的,則可以采用廣播小RDD全量數據+map算子來實現與join同樣的效果,也就是map join,此時就不會發生shuffle操作,也就不會發生數據傾斜。具體原理如下圖所示。

方案優點:對join操作導致的數據傾斜,效果非常好,因為根本就不會發生shuffle,也就根本不會發生數據傾斜。

方案缺點:適用場景較少,因為這個方案只適用于一個大表和一個小表的情況。畢竟我們需要將小表進行廣播,此時會比較消耗內存資源,driver和每個Executor內存中都會駐留一份小RDD的全量數據。如果我們廣播出去的RDD數據比較大,比如10G以上,那么就可能發生內存溢出了。因此并不適合兩個都是大表的情況。

// 首先將(jiang)數據量比較小的RDD的數據,collect到Driver中來。
List<Tuple2<Long, Row>> rdd1Data = rdd1.collect()
// 然后使用Spark的(de)廣播功能,將(jiang)小RDD的(de)數據轉換成廣播變量,這(zhe)樣每個Executor就只有一份(fen)RDD的(de)數據。
// 可以(yi)盡可能節省內存空間,并且減少網絡傳(chuan)輸性(xing)能開銷。
final Broadcast<List<Tuple2<Long, Row>>> rdd1DataBroadcast = sc.broadcast(rdd1Data);

// 對(dui)另外一個RDD執行map類(lei)操作,而(er)不(bu)再是(shi)join類(lei)操作。
JavaPairRDD<String, Tuple2<String, Row>> joinedRdd = rdd2.mapToPair(
        new PairFunction<Tuple2<Long,String>, String, Tuple2<String, Row>>() {
            private static final long serialVersionUID = 1L;
            @Override
            public Tuple2<String, Tuple2<String, Row>> call(Tuple2<Long, String> tuple)
                    throws Exception {
                // 在(zai)算子(zi)函數中,通過廣播變量(liang),獲取(qu)到本地Executor中的rdd1數據。
                List<Tuple2<Long, Row>> rdd1Data = rdd1DataBroadcast.value();
                // 可以將(jiang)rdd1的數據轉換為一(yi)個Map,便(bian)于后面進行(xing)join操作。
                Map<Long, Row> rdd1DataMap = new HashMap<Long, Row>();
                for(Tuple2<Long, Row> data : rdd1Data) {
                    rdd1DataMap.put(data._1, data._2);
                }
                // 獲取當前(qian)RDD數據的key以(yi)及(ji)value。
                String key = tuple._1;
                String value = tuple._2;
                // 從rdd1數據Map中,根據key獲取到可以join到的數據。
                Row rdd1Value = rdd1DataMap.get(key);
                return new Tuple2<String, String>(key, new Tuple2<String, Row>(value, rdd1Value));
            }
        });

// 這里得提(ti)示一下。
// 上面的(de)做法,僅(jin)僅(jin)適用于rdd1中的(de)key沒有(you)重復(fu),全部是唯一的(de)場景。
// 如果rdd1中有(you)多個(ge)相(xiang)同的(de)key,那么就得用(yong)flatMap類的(de)操作(zuo),在進行(xing)join的(de)時候不能用(yong)map,而(er)是得遍歷rdd1所(suo)有(you)數據進行(xing)join。
// rdd2中每(mei)條(tiao)數據都可能會返回(hui)多條(tiao)join后的數據。

 

解決方案六:采樣傾斜key并分拆(chai)join操(cao)作

方案適用場景:兩個RDD/Hive表進行join的時候,如果數據量都比較大,無法采用“解決方案五”,那么此時可以看一下兩個RDD/Hive表中的key分布情況。如果出現數據傾斜,是因為其中某一個RDD/Hive表中的少數幾個key的數據量過大,而另一個RDD/Hive表中的所有key都分布比較均勻,那么采用這個解決方案是比較合適的。

方案實現思路:

  • 對包(bao)含少(shao)數幾(ji)個(ge)數據(ju)量(liang)過大的(de)(de)key的(de)(de)那個(ge)RDD,通過sample算子采(cai)樣出一份樣本(ben)來,然后統計(ji)一下每個(ge)key的(de)(de)數量(liang),計(ji)算出來數據(ju)量(liang)最大的(de)(de)是哪幾(ji)個(ge)key。
  • 然(ran)后將(jiang)這幾個(ge)key對應的(de)數據從原(yuan)來(lai)的(de)RDD中拆分(fen)出來(lai),形(xing)成一(yi)個(ge)單獨的(de)RDD,并(bing)給每個(ge)key都打上n以內的(de)隨(sui)機(ji)數作為前綴,而不會導(dao)致傾斜的(de)大(da)部分(fen)key形(xing)成另外(wai)一(yi)個(ge)RDD。
  • 接(jie)著將(jiang)(jiang)需(xu)要join的(de)另一個RDD,也(ye)過(guo)濾出來那幾個傾斜key對應的(de)數據(ju)(ju)并形(xing)成(cheng)一個單獨的(de)RDD,將(jiang)(jiang)每條(tiao)數據(ju)(ju)膨脹成(cheng)n條(tiao)數據(ju)(ju),這n條(tiao)數據(ju)(ju)都按順序附(fu)加(jia)一個0~n的(de)前(qian)綴,不會導致傾斜的(de)大部分key也(ye)形(xing)成(cheng)另外一個RDD。
  • 再將(jiang)(jiang)附加了(le)隨機前綴的(de)(de)獨(du)立RDD與另一(yi)個(ge)膨(peng)脹(zhang)n倍的(de)(de)獨(du)立RDD進行join,此(ci)時就可以將(jiang)(jiang)原先相同的(de)(de)key打散成n份,分散到多個(ge)task中去進行join了(le)。
  • 而(er)另外兩個普通的(de)RDD就(jiu)照常join即可。
  • 最后將兩次join的結(jie)果使用union算子合并起(qi)來即可,就是最終的join結(jie)果。

方案實現原理:對于join導致的數據傾斜,如果只是某幾個key導致了傾斜,可以將少數幾個key分拆成獨立RDD,并附加隨機前綴打散成n份去進行join,此時這幾個key對應的數據就不會集中在少數幾個task上,而是分散到多個task進行join了。具體原理見下圖。

方案優點:對于join導致的數據傾斜,如果只是某幾個key導致了傾斜,采用該方式可以用最有效的方式打散key進行join。而且只需要針對少數傾斜key對應的數據進行擴容n倍,不需要對全量數據進行擴容。避免了占用過多內存。

方案缺點:如果導致傾斜的key特別多的話,比如成千上萬個key都導致數據傾斜,那么這種方式也不適合。

// 首(shou)先從包含了(le)少數幾個導(dao)致數據傾(qing)斜key的rdd1中,采樣10%的樣本數據。
JavaPairRDD<Long, String> sampledRDD = rdd1.sample(false, 0.1);

// 對樣本(ben)數(shu)據RDD統(tong)計出每(mei)個(ge)key的出現次數(shu),并按(an)出現次數(shu)降序排序。
// 對(dui)降序(xu)排序(xu)后的(de)(de)數據(ju),取出top 1或(huo)者top 100的(de)(de)數據(ju),也就是key最多(duo)的(de)(de)前n個數據(ju)。
// 具體取(qu)出多少個數據量最多的key,由大(da)家(jia)自己決定,我們這里就取(qu)1個作為示范。
JavaPairRDD<Long, Long> mappedSampledRDD = sampledRDD.mapToPair(
        new PairFunction<Tuple2<Long,String>, Long, Long>() {
            private static final long serialVersionUID = 1L;
            @Override
            public Tuple2<Long, Long> call(Tuple2<Long, String> tuple)
                    throws Exception {
                return new Tuple2<Long, Long>(tuple._1, 1L);
            }     
        });
JavaPairRDD<Long, Long> countedSampledRDD = mappedSampledRDD.reduceByKey(
        new Function2<Long, Long, Long>() {
            private static final long serialVersionUID = 1L;
            @Override
            public Long call(Long v1, Long v2) throws Exception {
                return v1 + v2;
            }
        });
JavaPairRDD<Long, Long> reversedSampledRDD = countedSampledRDD.mapToPair( 
        new PairFunction<Tuple2<Long,Long>, Long, Long>() {
            private static final long serialVersionUID = 1L;
            @Override
            public Tuple2<Long, Long> call(Tuple2<Long, Long> tuple)
                    throws Exception {
                return new Tuple2<Long, Long>(tuple._2, tuple._1);
            }
        });
final Long skewedUserid = reversedSampledRDD.sortByKey(false).take(1).get(0)._2;

// 從rdd1中分拆出(chu)導(dao)致數據傾斜的key,形成獨立(li)的RDD。
JavaPairRDD<Long, String> skewedRDD = rdd1.filter(
        new Function<Tuple2<Long,String>, Boolean>() {
            private static final long serialVersionUID = 1L;
            @Override
            public Boolean call(Tuple2<Long, String> tuple) throws Exception {
                return tuple._1.equals(skewedUserid);
            }
        });
// 從rdd1中分拆出不導致數據傾斜的普通key,形成(cheng)獨立的RDD。
JavaPairRDD<Long, String> commonRDD = rdd1.filter(
        new Function<Tuple2<Long,String>, Boolean>() {
            private static final long serialVersionUID = 1L;
            @Override
            public Boolean call(Tuple2<Long, String> tuple) throws Exception {
                return !tuple._1.equals(skewedUserid);
            } 
        });

// rdd2,就是那個所有(you)key的分布相對較為均(jun)勻的rdd。
// 這里將rdd2中,前面獲取到的key對(dui)應的數據(ju),過濾出來,分拆成(cheng)單獨的rdd,并對(dui)rdd中的數據(ju)使用flatMap算子都擴(kuo)容100倍。
// 對擴(kuo)容的每條數據,都打上0~100的前(qian)綴(zhui)。
JavaPairRDD<String, Row> skewedRdd2 = rdd2.filter(
         new Function<Tuple2<Long,Row>, Boolean>() {
            private static final long serialVersionUID = 1L;
            @Override
            public Boolean call(Tuple2<Long, Row> tuple) throws Exception {
                return tuple._1.equals(skewedUserid);
            }
        }).flatMapToPair(new PairFlatMapFunction<Tuple2<Long,Row>, String, Row>() {
            private static final long serialVersionUID = 1L;
            @Override
            public Iterable<Tuple2<String, Row>> call(
                    Tuple2<Long, Row> tuple) throws Exception {
                Random random = new Random();
                List<Tuple2<String, Row>> list = new ArrayList<Tuple2<String, Row>>();
                for(int i = 0; i < 100; i++) {
                    list.add(new Tuple2<String, Row>(i + "_" + tuple._1, tuple._2));
                }
                return list;
            }

        });

// 將rdd1中分拆(chai)出來的(de)(de)導致傾斜的(de)(de)key的(de)(de)獨立(li)rdd,每條(tiao)數據都打(da)上100以(yi)內的(de)(de)隨機(ji)前綴。
// 然(ran)后將這個rdd1中分拆出(chu)來的獨(du)立rdd,與(yu)上面(mian)rdd2中分拆出(chu)來的獨(du)立rdd,進行join。
JavaPairRDD<Long, Tuple2<String, Row>> joinedRDD1 = skewedRDD.mapToPair(
        new PairFunction<Tuple2<Long,String>, String, String>() {
            private static final long serialVersionUID = 1L;
            @Override
            public Tuple2<String, String> call(Tuple2<Long, String> tuple)
                    throws Exception {
                Random random = new Random();
                int prefix = random.nextInt(100);
                return new Tuple2<String, String>(prefix + "_" + tuple._1, tuple._2);
            }
        })
        .join(skewedUserid2infoRDD)
        .mapToPair(new PairFunction<Tuple2<String,Tuple2<String,Row>>, Long, Tuple2<String, Row>>() {
                        private static final long serialVersionUID = 1L;
                        @Override
                        public Tuple2<Long, Tuple2<String, Row>> call(
                            Tuple2<String, Tuple2<String, Row>> tuple)
                            throws Exception {
                            long key = Long.valueOf(tuple._1.split("_")[1]);
                            return new Tuple2<Long, Tuple2<String, Row>>(key, tuple._2);
                        }
                    });

// 將(jiang)rdd1中分拆(chai)出來的包(bao)含(han)普通key的獨立(li)rdd,直接與rdd2進行join。
JavaPairRDD<Long, Tuple2<String, Row>> joinedRDD2 = commonRDD.join(rdd2);

// 將傾(qing)斜(xie)key join后的結果與普通key join后的結果,uinon起來。
// 就是最終(zhong)的join結(jie)果(guo)。
JavaPairRDD<Long, Tuple2<String, Row>> joinedRDD = joinedRDD1.union(joinedRDD2);

 

解決方案七:使用隨機前綴和擴容(rong)RDD進行join

方案適用場景:如果在進行join操作時,RDD中有大量的key導致數據傾斜,那么進行分拆key也沒什么意義,此時就只能使用最后一種方案來解決問題了。

方案實現思路:

  • 該方案的(de)(de)實現思路(lu)基本和“解決方案六”類似,首先(xian)查(cha)看RDD/Hive表(biao)中(zhong)的(de)(de)數據(ju)分布情況,找到那個造(zao)成數據(ju)傾斜的(de)(de)RDD/Hive表(biao),比如有(you)多個key都對應了超過1萬條數據(ju)。
  • 然后將該RDD的(de)每條數據(ju)都打上(shang)一個(ge)n以(yi)內的(de)隨機前綴。
  • 同時對(dui)另外一個正(zheng)常(chang)的(de)RDD進行擴(kuo)容,將每(mei)條(tiao)數據都(dou)擴(kuo)容成(cheng)n條(tiao)數據,擴(kuo)容出(chu)來的(de)每(mei)條(tiao)數據都(dou)依(yi)次打上一個0~n的(de)前(qian)綴。
  • 最后(hou)將(jiang)兩(liang)個處理后(hou)的RDD進行join即可。

方案實現原理:將原先一樣的key通過附加隨機前綴變成不一樣的key,然后就可以將這些處理后的“不同key”分散到多個task中去處理,而不是讓一個task處理大量的相同key。該方案與“解決方案六”的不同之處就在于,上一種方案是盡量只對少數傾斜key對應的數據進行特殊處理,由于處理過程需要擴容RDD,因此上一種方案擴容RDD后對內存的占用并不大;而這一種方案是針對有大量傾斜key的情況,沒法將部分key拆分出來進行單獨處理,因此只能對整個RDD進行數據擴容,對內存資源要求很高。

方案優點:對join類型的數據傾斜基本都可以處理,而且效果也相對比較顯著,性能提升效果非常不錯。

方案缺點:該方案更多的是緩解數據傾斜,而不是徹底避免數據傾斜。而且需要對整個RDD進行擴容,對內存資源要求很高。

方案實踐經驗:曾經開發一個數據需求的時候,發現一個join導致了數據傾斜。優化之前,作業的執行時間大約是60分鐘左右;使用該方案優化之后,執行時間縮短到10分鐘左右,性能提升了6倍。

// 首先將其(qi)中一個key分布(bu)相對較為均勻的RDD膨脹100倍。
JavaPairRDD<String, Row> expandedRDD = rdd1.flatMapToPair(
        new PairFlatMapFunction<Tuple2<Long,Row>, String, Row>() {
            private static final long serialVersionUID = 1L;
            @Override
            public Iterable<Tuple2<String, Row>> call(Tuple2<Long, Row> tuple)
                    throws Exception {
                List<Tuple2<String, Row>> list = new ArrayList<Tuple2<String, Row>>();
                for(int i = 0; i < 100; i++) {
                    list.add(new Tuple2<String, Row>(0 + "_" + tuple._1, tuple._2));
                }
                return list;
            }
        });

// 其次,將另(ling)一個有數據傾斜(xie)key的(de)(de)RDD,每條數據都打上100以內的(de)(de)隨機(ji)前綴。
JavaPairRDD<String, String> mappedRDD = rdd2.mapToPair(
        new PairFunction<Tuple2<Long,String>, String, String>() {
            private static final long serialVersionUID = 1L;
            @Override
            public Tuple2<String, String> call(Tuple2<Long, String> tuple)
                    throws Exception {
                Random random = new Random();
                int prefix = random.nextInt(100);
                return new Tuple2<String, String>(prefix + "_" + tuple._1, tuple._2);
            }
        });

// 將兩個處理后(hou)的RDD進行join即可。
JavaPairRDD<String, Tuple2<String, Row>> joinedRDD = mappedRDD.join(expandedRDD);

 

解(jie)決方案八:多種方案組合使用

在實踐(jian)中發現,很多(duo)情況下(xia),如(ru)果(guo)只(zhi)是(shi)處(chu)(chu)理較為簡單(dan)的(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju)傾(qing)(qing)斜場(chang)景,那么使(shi)用上述方(fang)案(an)(an)中的(de)(de)(de)(de)某一種基本就可(ke)以(yi)(yi)解決(jue)。但是(shi)如(ru)果(guo)要(yao)處(chu)(chu)理一個(ge)較為復雜的(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju)傾(qing)(qing)斜場(chang)景,那么可(ke)能需(xu)要(yao)將多(duo)種方(fang)案(an)(an)組合起來(lai)使(shi)用。比如(ru)說,我們針(zhen)對(dui)出(chu)現了多(duo)個(ge)數(shu)(shu)據(ju)(ju)(ju)傾(qing)(qing)斜環節的(de)(de)(de)(de)Spark作業,可(ke)以(yi)(yi)先運用解決(jue)方(fang)案(an)(an)一和二,預(yu)處(chu)(chu)理一部分(fen)數(shu)(shu)據(ju)(ju)(ju),并(bing)過濾(lv)一部分(fen)數(shu)(shu)據(ju)(ju)(ju)來(lai)緩(huan)解;其(qi)次可(ke)以(yi)(yi)對(dui)某些(xie)shuffle操(cao)作提升并(bing)行度(du),優化(hua)其(qi)性能;最后還可(ke)以(yi)(yi)針(zhen)對(dui)不同(tong)的(de)(de)(de)(de)聚合或(huo)join操(cao)作,選擇一種方(fang)案(an)(an)來(lai)優化(hua)其(qi)性能。大家(jia)需(xu)要(yao)對(dui)這些(xie)方(fang)案(an)(an)的(de)(de)(de)(de)思路和原理都透徹理解之后,在實踐(jian)中根據(ju)(ju)(ju)各種不同(tong)的(de)(de)(de)(de)情況,靈活運用多(duo)種方(fang)案(an)(an),來(lai)解決(jue)自己的(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju)傾(qing)(qing)斜問(wen)題。

shuffle調優(you)

調(diao)優概(gai)述(shu)

大(da)(da)多數(shu)Spark作(zuo)業(ye)的(de)(de)性(xing)能主要(yao)就(jiu)是消耗(hao)在了(le)shuffle環(huan)節,因為該(gai)環(huan)節包含了(le)大(da)(da)量的(de)(de)磁(ci)盤IO、序列化、網絡數(shu)據傳輸等(deng)操作(zuo)。因此(ci)(ci),如(ru)果要(yao)讓(rang)作(zuo)業(ye)的(de)(de)性(xing)能更上一層(ceng)樓,就(jiu)有(you)必(bi)要(yao)對shuffle過(guo)程進行調(diao)優(you)(you)。但是也必(bi)須提醒大(da)(da)家(jia)的(de)(de)是,影響一個Spark作(zuo)業(ye)性(xing)能的(de)(de)因素,主要(yao)還是代碼開發、資源參(can)數(shu)以及數(shu)據傾斜,shuffle調(diao)優(you)(you)只(zhi)能在整個Spark的(de)(de)性(xing)能調(diao)優(you)(you)中占到(dao)一小部分(fen)而已。因此(ci)(ci)大(da)(da)家(jia)務(wu)必(bi)把握住調(diao)優(you)(you)的(de)(de)基本原則,千萬不(bu)要(yao)舍本逐末。下面我們就(jiu)給大(da)(da)家(jia)詳細講解(jie)shuffle的(de)(de)原理,以及相(xiang)關參(can)數(shu)的(de)(de)說明,同時給出各(ge)個參(can)數(shu)的(de)(de)調(diao)優(you)(you)建議。

ShuffleManager發展(zhan)概述

在Spark的源碼中(zhong),負(fu)責shuffle過程的執行、計算和處理的組件主要(yao)就是(shi)ShuffleManager,也即shuffle管理器。而(er)隨(sui)著Spark的版本(ben)的發展,ShuffleManager也在不斷迭代,變得越來越先進。

在Spark 1.2以前(qian),默認的(de)shuffle計算引擎是HashShuffleManager。該(gai)ShuffleManager而HashShuffleManager有著一個非常嚴重的(de)弊端(duan),就是會產生大量的(de)中間磁(ci)盤文件,進而由大量的(de)磁(ci)盤IO操(cao)作影(ying)響(xiang)了性(xing)能。

因此在(zai)Spark 1.2以(yi)后的版(ban)本(ben)中(zhong),默(mo)認的ShuffleManager改(gai)成(cheng)了SortShuffleManager。SortShuffleManager相較于(yu)HashShuffleManager來說,有了一定的改(gai)進(jin)。主要(yao)就(jiu)(jiu)在(zai)于(yu),每(mei)個Task在(zai)進(jin)行shuffle操作時,雖然也會產生(sheng)較多(duo)的臨(lin)時磁盤文(wen)件(jian)(jian),但是最(zui)后會將所有的臨(lin)時文(wen)件(jian)(jian)合并(merge)成(cheng)一個磁盤文(wen)件(jian)(jian),因此每(mei)個Task就(jiu)(jiu)只(zhi)有一個磁盤文(wen)件(jian)(jian)。在(zai)下(xia)一個stage的shuffle read task拉(la)取自己的數據時,只(zhi)要(yao)根據索引讀取每(mei)個磁盤文(wen)件(jian)(jian)中(zhong)的部分數據即可。

下(xia)面我們(men)詳細分(fen)析一下(xia)HashShuffleManager和SortShuffleManager的原理。

HashShuffleManager運行原理

未經優化的HashShuffleManager

下圖說(shuo)明了未經優化的HashShuffleManager的原理。這里(li)我們先(xian)明確一個(ge)假(jia)設前提:每個(ge)Executor只有1個(ge)CPU core,也就是說(shuo),無論這個(ge)Executor上(shang)分配多少(shao)個(ge)task線程,同一時間都只能執行一個(ge)task線程。

我們先從shuffle write開始說(shuo)起。shuffle write階(jie)段,主要就是(shi)在一個(ge)(ge)stage結束計算之后,為了下一個(ge)(ge)stage可以執行shuffle類(lei)的(de)算子(比如(ru)reduceByKey),而(er)(er)將(jiang)每(mei)個(ge)(ge)task處理(li)的(de)數(shu)據(ju)按key進行“分類(lei)”。所謂(wei)“分類(lei)”,就是(shi)對相(xiang)同的(de)key執行hash算法,從而(er)(er)將(jiang)相(xiang)同key都(dou)寫(xie)入同一個(ge)(ge)磁盤文件(jian)中(zhong),而(er)(er)每(mei)一個(ge)(ge)磁盤文件(jian)都(dou)只屬于下游stage的(de)一個(ge)(ge)task。在將(jiang)數(shu)據(ju)寫(xie)入磁盤之前,會先將(jiang)數(shu)據(ju)寫(xie)入內(nei)存緩沖中(zhong),當內(nei)存緩沖填滿之后,才會溢寫(xie)到磁盤文件(jian)中(zhong)去。

那么(me)每(mei)個(ge)(ge)(ge)執行(xing)shuffle write的(de)(de)task,要為(wei)下(xia)一個(ge)(ge)(ge)stage創(chuang)(chuang)建(jian)(jian)多少個(ge)(ge)(ge)磁盤文(wen)(wen)件呢(ni)?很簡單,下(xia)一個(ge)(ge)(ge)stage的(de)(de)task有多少個(ge)(ge)(ge),當前stage的(de)(de)每(mei)個(ge)(ge)(ge)task就要創(chuang)(chuang)建(jian)(jian)多少份(fen)磁盤文(wen)(wen)件。比如下(xia)一個(ge)(ge)(ge)stage總(zong)(zong)共有100個(ge)(ge)(ge)task,那么(me)當前stage的(de)(de)每(mei)個(ge)(ge)(ge)task都要創(chuang)(chuang)建(jian)(jian)100份(fen)磁盤文(wen)(wen)件。如果當前stage有50個(ge)(ge)(ge)task,總(zong)(zong)共有10個(ge)(ge)(ge)Executor,每(mei)個(ge)(ge)(ge)Executor執行(xing)5個(ge)(ge)(ge)Task,那么(me)每(mei)個(ge)(ge)(ge)Executor上總(zong)(zong)共就要創(chuang)(chuang)建(jian)(jian)500個(ge)(ge)(ge)磁盤文(wen)(wen)件,所有Executor上會(hui)創(chuang)(chuang)建(jian)(jian)5000個(ge)(ge)(ge)磁盤文(wen)(wen)件。由此可(ke)見,未經優化(hua)的(de)(de)shuffle write操(cao)作所產生的(de)(de)磁盤文(wen)(wen)件的(de)(de)數量是極其(qi)驚人的(de)(de)。

接(jie)著我們來說說shuffle read。shuffle read,通常就(jiu)(jiu)是一個(ge)(ge)(ge)(ge)stage剛開始(shi)時要做的(de)(de)(de)事(shi)情。此(ci)時該stage的(de)(de)(de)每一個(ge)(ge)(ge)(ge)task就(jiu)(jiu)需要將(jiang)上(shang)一個(ge)(ge)(ge)(ge)stage的(de)(de)(de)計算結果中(zhong)的(de)(de)(de)所(suo)有相同key,從(cong)各(ge)個(ge)(ge)(ge)(ge)節(jie)(jie)點(dian)上(shang)通過(guo)(guo)網(wang)絡都拉取到自(zi)(zi)己所(suo)在(zai)的(de)(de)(de)節(jie)(jie)點(dian)上(shang),然后進行key的(de)(de)(de)聚合或連(lian)接(jie)等操(cao)作(zuo)。由于shuffle write的(de)(de)(de)過(guo)(guo)程中(zhong),task給下(xia)游(you)stage的(de)(de)(de)每個(ge)(ge)(ge)(ge)task都創建了一個(ge)(ge)(ge)(ge)磁(ci)盤文(wen)件(jian)(jian),因(yin)此(ci)shuffle read的(de)(de)(de)過(guo)(guo)程中(zhong),每個(ge)(ge)(ge)(ge)task只要從(cong)上(shang)游(you)stage的(de)(de)(de)所(suo)有task所(suo)在(zai)節(jie)(jie)點(dian)上(shang),拉取屬(shu)于自(zi)(zi)己的(de)(de)(de)那(nei)一個(ge)(ge)(ge)(ge)磁(ci)盤文(wen)件(jian)(jian)即可。

shuffle read的(de)拉(la)取(qu)過(guo)程是(shi)一邊(bian)拉(la)取(qu)一邊(bian)進行聚(ju)合的(de)。每(mei)個shuffle read task都會有(you)一個自(zi)己的(de)buffer緩(huan)沖,每(mei)次都只能拉(la)取(qu)與buffer緩(huan)沖相同大小的(de)數(shu)(shu)據,然后(hou)(hou)通過(guo)內(nei)存(cun)中的(de)一個Map進行聚(ju)合等操作(zuo)。聚(ju)合完(wan)一批數(shu)(shu)據后(hou)(hou),再拉(la)取(qu)下(xia)一批數(shu)(shu)據,并放(fang)到(dao)buffer緩(huan)沖中進行聚(ju)合操作(zuo)。以此類推,直到(dao)最(zui)后(hou)(hou)將(jiang)所有(you)數(shu)(shu)據到(dao)拉(la)取(qu)完(wan),并得到(dao)最(zui)終的(de)結果。

優化后的HashShuffleManager

下圖說明了優(you)(you)化后的HashShuffleManager的原(yuan)理。這(zhe)里說的優(you)(you)化,是指我(wo)(wo)們可以設置(zhi)一個參數(shu),spark.shuffle.consolidateFiles。該參數(shu)默認(ren)值為(wei)(wei)false,將其設置(zhi)為(wei)(wei)true即可開啟優(you)(you)化機制。通(tong)常來說,如果(guo)我(wo)(wo)們使(shi)用HashShuffleManager,那么都建(jian)議開啟這(zhe)個選項。

開啟consolidate機(ji)制之后,在(zai)shuffle write過程中,task就不(bu)是(shi)為下游stage的每(mei)個(ge)(ge)task創建一(yi)(yi)個(ge)(ge)磁盤文(wen)件(jian)了(le)。此時會(hui)(hui)出現shuffleFileGroup的概念,每(mei)個(ge)(ge)shuffleFileGroup會(hui)(hui)對應一(yi)(yi)批磁盤文(wen)件(jian),磁盤文(wen)件(jian)的數(shu)量與下游stage的task數(shu)量是(shi)相同的。一(yi)(yi)個(ge)(ge)Executor上有多少(shao)個(ge)(ge)CPU core,就可以(yi)并行執(zhi)行多少(shao)個(ge)(ge)task。而第一(yi)(yi)批并行執(zhi)行的每(mei)個(ge)(ge)task都(dou)會(hui)(hui)創建一(yi)(yi)個(ge)(ge)shuffleFileGroup,并將數(shu)據寫入對應的磁盤文(wen)件(jian)內。

當(dang)Executor的(de)(de)(de)(de)CPU core執行完(wan)一批(pi)task,接著(zhu)執行下一批(pi)task時,下一批(pi)task就會復用之前已有(you)(you)的(de)(de)(de)(de)shuffleFileGroup,包(bao)括(kuo)其中(zhong)的(de)(de)(de)(de)磁(ci)盤(pan)(pan)文(wen)(wen)件(jian)(jian)(jian)(jian)(jian)。也(ye)就是說,此(ci)時task會將(jiang)數據寫(xie)入(ru)已有(you)(you)的(de)(de)(de)(de)磁(ci)盤(pan)(pan)文(wen)(wen)件(jian)(jian)(jian)(jian)(jian)中(zhong),而不會寫(xie)入(ru)新的(de)(de)(de)(de)磁(ci)盤(pan)(pan)文(wen)(wen)件(jian)(jian)(jian)(jian)(jian)中(zhong)。因此(ci),consolidate機制(zhi)允許不同的(de)(de)(de)(de)task復用同一批(pi)磁(ci)盤(pan)(pan)文(wen)(wen)件(jian)(jian)(jian)(jian)(jian),這樣就可(ke)以有(you)(you)效將(jiang)多(duo)個task的(de)(de)(de)(de)磁(ci)盤(pan)(pan)文(wen)(wen)件(jian)(jian)(jian)(jian)(jian)進(jin)行一定(ding)程度上的(de)(de)(de)(de)合并,從而大幅(fu)度減少(shao)磁(ci)盤(pan)(pan)文(wen)(wen)件(jian)(jian)(jian)(jian)(jian)的(de)(de)(de)(de)數量,進(jin)而提升shuffle write的(de)(de)(de)(de)性能。

假設第(di)二個(ge)(ge)(ge)(ge)stage有100個(ge)(ge)(ge)(ge)task,第(di)一個(ge)(ge)(ge)(ge)stage有50個(ge)(ge)(ge)(ge)task,總共(gong)還是(shi)有10個(ge)(ge)(ge)(ge)Executor,每(mei)個(ge)(ge)(ge)(ge)Executor執行5個(ge)(ge)(ge)(ge)task。那么原本使用(yong)未經(jing)優化(hua)的(de)(de)HashShuffleManager時,每(mei)個(ge)(ge)(ge)(ge)Executor會(hui)產生500個(ge)(ge)(ge)(ge)磁(ci)(ci)(ci)盤文(wen)(wen)件,所有Executor會(hui)產生5000個(ge)(ge)(ge)(ge)磁(ci)(ci)(ci)盤文(wen)(wen)件的(de)(de)。但是(shi)此(ci)時經(jing)過(guo)優化(hua)之(zhi)后,每(mei)個(ge)(ge)(ge)(ge)Executor創(chuang)建(jian)的(de)(de)磁(ci)(ci)(ci)盤文(wen)(wen)件的(de)(de)數量的(de)(de)計算公式為:CPU core的(de)(de)數量 * 下一個(ge)(ge)(ge)(ge)stage的(de)(de)task數量。也就是(shi)說,每(mei)個(ge)(ge)(ge)(ge)Executor此(ci)時只會(hui)創(chuang)建(jian)100個(ge)(ge)(ge)(ge)磁(ci)(ci)(ci)盤文(wen)(wen)件,所有Executor只會(hui)創(chuang)建(jian)1000個(ge)(ge)(ge)(ge)磁(ci)(ci)(ci)盤文(wen)(wen)件。

SortShuffleManager運行原理

SortShuffleManager的運(yun)(yun)行(xing)機(ji)制(zhi)主(zhu)要分成兩種,一種是普通運(yun)(yun)行(xing)機(ji)制(zhi),另一種是bypass運(yun)(yun)行(xing)機(ji)制(zhi)。當shuffle read task的數(shu)量小(xiao)于等(deng)于spark.shuffle.sort.bypassMergeThreshold參數(shu)的值時(shi)(默認為(wei)200),就會啟用bypass機(ji)制(zhi)。

普通運行機(ji)制

下圖說明(ming)了(le)普(pu)通(tong)的(de)(de)SortShuffleManager的(de)(de)原(yuan)理。在該模(mo)式下,數(shu)(shu)(shu)據(ju)(ju)(ju)會(hui)(hui)先寫(xie)入(ru)一(yi)個內(nei)存(cun)數(shu)(shu)(shu)據(ju)(ju)(ju)結(jie)構(gou)中,此時(shi)根據(ju)(ju)(ju)不(bu)同的(de)(de)shuffle算子(zi),可(ke)能選(xuan)(xuan)用(yong)不(bu)同的(de)(de)數(shu)(shu)(shu)據(ju)(ju)(ju)結(jie)構(gou)。如(ru)果是(shi)reduceByKey這種聚(ju)合(he)類(lei)的(de)(de)shuffle算子(zi),那(nei)么(me)會(hui)(hui)選(xuan)(xuan)用(yong)Map數(shu)(shu)(shu)據(ju)(ju)(ju)結(jie)構(gou),一(yi)邊通(tong)過(guo)Map進行聚(ju)合(he),一(yi)邊寫(xie)入(ru)內(nei)存(cun);如(ru)果是(shi)join這種普(pu)通(tong)的(de)(de)shuffle算子(zi),那(nei)么(me)會(hui)(hui)選(xuan)(xuan)用(yong)Array數(shu)(shu)(shu)據(ju)(ju)(ju)結(jie)構(gou),直接寫(xie)入(ru)內(nei)存(cun)。接著,每寫(xie)一(yi)條數(shu)(shu)(shu)據(ju)(ju)(ju)進入(ru)內(nei)存(cun)數(shu)(shu)(shu)據(ju)(ju)(ju)結(jie)構(gou)之后,就會(hui)(hui)判斷一(yi)下,是(shi)否達到(dao)了(le)某(mou)個臨界閾(yu)值(zhi)。如(ru)果達到(dao)臨界閾(yu)值(zhi)的(de)(de)話,那(nei)么(me)就會(hui)(hui)嘗試將內(nei)存(cun)數(shu)(shu)(shu)據(ju)(ju)(ju)結(jie)構(gou)中的(de)(de)數(shu)(shu)(shu)據(ju)(ju)(ju)溢寫(xie)到(dao)磁盤,然后清空內(nei)存(cun)數(shu)(shu)(shu)據(ju)(ju)(ju)結(jie)構(gou)。

在溢寫(xie)到磁(ci)盤(pan)(pan)文(wen)(wen)件之(zhi)前,會先(xian)根據key對內存(cun)數據結構中(zhong)已有的(de)數據進行排序(xu)。排序(xu)過后,會分(fen)批(pi)將數據寫(xie)入磁(ci)盤(pan)(pan)文(wen)(wen)件。默認的(de)batch數量是(shi)10000條,也就是(shi)說(shuo),排序(xu)好(hao)的(de)數據,會以(yi)每批(pi)1萬條數據的(de)形式分(fen)批(pi)寫(xie)入磁(ci)盤(pan)(pan)文(wen)(wen)件。寫(xie)入磁(ci)盤(pan)(pan)文(wen)(wen)件是(shi)通過Java的(de)BufferedOutputStream實(shi)現的(de)。BufferedOutputStream是(shi)Java的(de)緩沖輸出流,首(shou)先(xian)會將數據緩沖在內存(cun)中(zhong),當內存(cun)緩沖滿(man)溢之(zhi)后再一次(ci)寫(xie)入磁(ci)盤(pan)(pan)文(wen)(wen)件中(zhong),這樣(yang)可以(yi)減(jian)少磁(ci)盤(pan)(pan)IO次(ci)數,提升(sheng)性能。

一(yi)個task將所(suo)(suo)有(you)數(shu)據(ju)寫(xie)入內存(cun)數(shu)據(ju)結(jie)構的(de)過(guo)程(cheng)中(zhong)(zhong),會發生(sheng)多(duo)次磁盤(pan)(pan)(pan)溢寫(xie)操作,也(ye)就(jiu)會產(chan)生(sheng)多(duo)個臨時文(wen)(wen)件(jian)(jian)(jian)(jian)(jian)(jian)。最后會將之前所(suo)(suo)有(you)的(de)臨時磁盤(pan)(pan)(pan)文(wen)(wen)件(jian)(jian)(jian)(jian)(jian)(jian)都進行合并,這就(jiu)是merge過(guo)程(cheng),此時會將之前所(suo)(suo)有(you)臨時磁盤(pan)(pan)(pan)文(wen)(wen)件(jian)(jian)(jian)(jian)(jian)(jian)中(zhong)(zhong)的(de)數(shu)據(ju)讀取出來,然后依(yi)次寫(xie)入最終(zhong)的(de)磁盤(pan)(pan)(pan)文(wen)(wen)件(jian)(jian)(jian)(jian)(jian)(jian)之中(zhong)(zhong)。此外,由于一(yi)個task就(jiu)只(zhi)對(dui)應一(yi)個磁盤(pan)(pan)(pan)文(wen)(wen)件(jian)(jian)(jian)(jian)(jian)(jian),也(ye)就(jiu)意味(wei)著該task為下游stage的(de)task準(zhun)備的(de)數(shu)據(ju)都在(zai)這一(yi)個文(wen)(wen)件(jian)(jian)(jian)(jian)(jian)(jian)中(zhong)(zhong),因此還會單獨寫(xie)一(yi)份索引文(wen)(wen)件(jian)(jian)(jian)(jian)(jian)(jian),其中(zhong)(zhong)標識了下游各個task的(de)數(shu)據(ju)在(zai)文(wen)(wen)件(jian)(jian)(jian)(jian)(jian)(jian)中(zhong)(zhong)的(de)start offset與(yu)end offset。

SortShuffleManager由于(yu)有一(yi)個(ge)(ge)磁(ci)盤文(wen)件(jian)merge的(de)過程,因此大大減(jian)少了(le)文(wen)件(jian)數(shu)量。比(bi)如第(di)一(yi)個(ge)(ge)stage有50個(ge)(ge)task,總共(gong)有10個(ge)(ge)Executor,每(mei)(mei)個(ge)(ge)Executor執行5個(ge)(ge)task,而第(di)二個(ge)(ge)stage有100個(ge)(ge)task。由于(yu)每(mei)(mei)個(ge)(ge)task最終只有一(yi)個(ge)(ge)磁(ci)盤文(wen)件(jian),因此此時(shi)每(mei)(mei)個(ge)(ge)Executor上(shang)只有5個(ge)(ge)磁(ci)盤文(wen)件(jian),所有Executor只有50個(ge)(ge)磁(ci)盤文(wen)件(jian)。

bypass運(yun)行機制

下圖(tu)說(shuo)明了bypass SortShuffleManager的原理。bypass運行機制的觸發條(tiao)件(jian)如下:

  • shuffle map task數(shu)量(liang)小(xiao)于spark.shuffle.sort.bypassMergeThreshold參數(shu)的(de)值。
  • 不是聚合類的shuffle算(suan)子(比如reduceByKey)。

此(ci)時(shi)(shi)task會為每個(ge)下游task都(dou)創建一(yi)個(ge)臨(lin)時(shi)(shi)磁盤文(wen)(wen)(wen)件(jian),并(bing)(bing)將(jiang)數(shu)據(ju)按key進行hash然(ran)后(hou)根(gen)據(ju)key的hash值(zhi),將(jiang)key寫(xie)(xie)入(ru)對應(ying)的磁盤文(wen)(wen)(wen)件(jian)之(zhi)中。當然(ran),寫(xie)(xie)入(ru)磁盤文(wen)(wen)(wen)件(jian)時(shi)(shi)也是(shi)先寫(xie)(xie)入(ru)內存(cun)緩(huan)(huan)沖(chong),緩(huan)(huan)沖(chong)寫(xie)(xie)滿之(zhi)后(hou)再(zai)溢(yi)寫(xie)(xie)到磁盤文(wen)(wen)(wen)件(jian)的。最(zui)后(hou),同樣會將(jiang)所(suo)有臨(lin)時(shi)(shi)磁盤文(wen)(wen)(wen)件(jian)都(dou)合并(bing)(bing)成一(yi)個(ge)磁盤文(wen)(wen)(wen)件(jian),并(bing)(bing)創建一(yi)個(ge)單獨的索(suo)引文(wen)(wen)(wen)件(jian)。

該過程的(de)(de)磁(ci)盤(pan)寫(xie)機(ji)(ji)制(zhi)其實跟未(wei)經(jing)優化(hua)的(de)(de)HashShuffleManager是(shi)一模(mo)一樣的(de)(de),因(yin)為都(dou)要創建數量驚人的(de)(de)磁(ci)盤(pan)文(wen)件,只是(shi)在最(zui)后會(hui)做一個(ge)磁(ci)盤(pan)文(wen)件的(de)(de)合(he)并而已。因(yin)此少量的(de)(de)最(zui)終磁(ci)盤(pan)文(wen)件,也讓該機(ji)(ji)制(zhi)相(xiang)對未(wei)經(jing)優化(hua)的(de)(de)HashShuffleManager來說,shuffle read的(de)(de)性能會(hui)更好。

而該(gai)機制(zhi)(zhi)(zhi)與普通SortShuffleManager運行機制(zhi)(zhi)(zhi)的(de)不(bu)同(tong)在于:第一,磁盤寫機制(zhi)(zhi)(zhi)不(bu)同(tong);第二,不(bu)會進行排(pai)序。也(ye)就是(shi)說,啟用該(gai)機制(zhi)(zhi)(zhi)的(de)最大好處在于,shuffle write過程(cheng)中(zhong),不(bu)需要進行數(shu)據的(de)排(pai)序操作(zuo),也(ye)就節省掉了這部(bu)分的(de)性能開銷(xiao)。

shuffle相關參數調優

以下是Shffule過程中的(de)(de)一些主要參數(shu),這里詳細講解了(le)各(ge)個參數(shu)的(de)(de)功(gong)能(neng)、默認值以及基(ji)于(yu)實踐經驗給出(chu)的(de)(de)調優建議。

spark.shuffle.file.buffer

  • 默認(ren)值:32k
  • 參(can)數說(shuo)明:該參(can)數用于設置shuffle write task的BufferedOutputStream的buffer緩沖(chong)大小。將數據寫(xie)到磁(ci)(ci)盤(pan)(pan)文(wen)件(jian)之前,會(hui)先寫(xie)入(ru)buffer緩沖(chong)中(zhong),待(dai)緩沖(chong)寫(xie)滿之后,才會(hui)溢(yi)寫(xie)到磁(ci)(ci)盤(pan)(pan)。
  • 調優建議:如果作業可(ke)(ke)(ke)用的(de)(de)內存資源較為充足的(de)(de)話(hua),可(ke)(ke)(ke)以(yi)適(shi)當(dang)增加這個(ge)參數(shu)的(de)(de)大小(xiao)(比如64k),從而減(jian)少shuffle write過(guo)程中溢寫磁盤文件的(de)(de)次數(shu),也就(jiu)可(ke)(ke)(ke)以(yi)減(jian)少磁盤IO次數(shu),進而提升(sheng)性能。在實踐中發現,合理調節該(gai)參數(shu),性能會(hui)有1%~5%的(de)(de)提升(sheng)。

spark.reducer.maxSizeInFlight

  • 默認值:48m
  • 參(can)數說明:該(gai)參(can)數用于設置shuffle read task的buffer緩(huan)沖大小,而這個(ge)buffer緩(huan)沖決定了每次能夠(gou)拉取多少(shao)數據。
  • 調優建議:如(ru)(ru)果作業可用的(de)(de)內存資源較為充(chong)足的(de)(de)話,可以適(shi)當增(zeng)加(jia)這(zhe)個參數(shu)(shu)的(de)(de)大小(比(bi)如(ru)(ru)96m),從而減(jian)少(shao)拉取(qu)數(shu)(shu)據的(de)(de)次數(shu)(shu),也就(jiu)可以減(jian)少(shao)網(wang)絡傳輸的(de)(de)次數(shu)(shu),進(jin)而提升性能。在實踐(jian)中發現,合理調節(jie)該(gai)參數(shu)(shu),性能會有1%~5%的(de)(de)提升。

spark.shuffle.io.maxRetries

  • 默認值:3
  • 參(can)數(shu)說明:shuffle read task從(cong)shuffle write task所在(zai)節點拉取(qu)屬于自己的數(shu)據時,如(ru)果(guo)因為網絡(luo)異常(chang)導(dao)致拉取(qu)失(shi)敗,是會自動(dong)進行(xing)(xing)重(zhong)試(shi)的。該(gai)參(can)數(shu)就(jiu)代表(biao)了(le)可(ke)以重(zhong)試(shi)的最(zui)大次數(shu)。如(ru)果(guo)在(zai)指定次數(shu)之(zhi)內拉取(qu)還是沒有成(cheng)功,就(jiu)可(ke)能會導(dao)致作業(ye)執(zhi)行(xing)(xing)失(shi)敗。
  • 調(diao)優建議:對于(yu)那些包含了(le)特別耗時的(de)shuffle操作的(de)作業,建議增加重試最大次數(比如60次),以(yi)避免由(you)于(yu)JVM的(de)full gc或者網絡不(bu)穩定等因素導致的(de)數據拉取失敗(bai)。在實踐中發現(xian),對于(yu)針對超大數據量(數十億~上百億)的(de)shuffle過程,調(diao)節該參數可以(yi)大幅度提升穩定性(xing)。

spark.shuffle.io.retryWait

  • 默認值(zhi):5s
  • 參數說明:具(ju)體解(jie)釋同上,該參數代(dai)表了每次重試拉取數據的等(deng)待間隔,默認是5s。
  • 調優建議:建議加大間隔(ge)時(shi)長(chang)(比如60s),以(yi)增(zeng)加shuffle操(cao)作的穩(wen)定性。

spark.shuffle.memoryFraction

  • 默(mo)認值:0.2
  • 參(can)數說明:該參(can)數代表(biao)了Executor內存中,分配(pei)給shuffle read task進行聚合操作的內存比例(li),默認(ren)是20%。
  • 調(diao)(diao)(diao)優建議(yi):在資源(yuan)參數調(diao)(diao)(diao)優中(zhong)講解過(guo)(guo)這(zhe)個參數。如果(guo)內(nei)存(cun)充足,而且很少使用持久化操作,建議(yi)調(diao)(diao)(diao)高這(zhe)個比例,給(gei)shuffle read的聚合操作更(geng)多內(nei)存(cun),以避免(mian)由于內(nei)存(cun)不足導致聚合過(guo)(guo)程中(zhong)頻繁讀寫(xie)磁盤。在實踐(jian)中(zhong)發現,合理調(diao)(diao)(diao)節該參數可以將性能提升10%左右。

spark.shuffle.manager

  • 默認(ren)值:sort
  • 參數(shu)說明(ming):該參數(shu)用(yong)(yong)于設置ShuffleManager的類(lei)型。Spark 1.5以(yi)后,有三個可選項:hash、sort和(he)tungsten-sort。HashShuffleManager是(shi)Spark 1.2以(yi)前的默認選項,但是(shi)Spark 1.2以(yi)及(ji)之后的版本默認都是(shi)SortShuffleManager了。tungsten-sort與sort類(lei)似,但是(shi)使(shi)用(yong)(yong)了tungsten計劃中的堆(dui)外內存(cun)(cun)管(guan)理機(ji)制,內存(cun)(cun)使(shi)用(yong)(yong)效率更高。
  • 調(diao)優建議:由(you)于SortShuffleManager默認會對(dui)數(shu)據進(jin)行排序,因此(ci)如(ru)果你(ni)的(de)業務邏(luo)輯(ji)中需要該排序機制(zhi)的(de)話,則(ze)使(shi)用(yong)默認的(de)SortShuffleManager就可以;而如(ru)果你(ni)的(de)業務邏(luo)輯(ji)不需要對(dui)數(shu)據進(jin)行排序,那么建議參(can)考后面的(de)幾個參(can)數(shu)調(diao)優,通過bypass機制(zhi)或優化的(de)HashShuffleManager來(lai)避免(mian)排序操(cao)作,同時提供較好的(de)磁(ci)盤讀寫性能。這里要注意的(de)是,tungsten-sort要慎(shen)用(yong),因為之(zhi)前發現了一些相應的(de)bug。

spark.shuffle.sort.bypassMergeThreshold

  • 默(mo)認值:200
  • 參數說明(ming):當ShuffleManager為SortShuffleManager時(shi),如果shuffle read task的數量小于(yu)這個(ge)閾值(zhi)(默認是200),則shuffle write過(guo)程中不(bu)會(hui)進(jin)行排序操作,而(er)是直(zhi)接按照未(wei)經優化的HashShuffleManager的方式(shi)去寫數據,但(dan)是最后會(hui)將每個(ge)task產(chan)生的所有臨時(shi)磁盤文(wen)件(jian)都合(he)并成一個(ge)文(wen)件(jian),并會(hui)創建單獨的索引文(wen)件(jian)。
  • 調優(you)建(jian)議:當你使用SortShuffleManager時,如果的確(que)不需要排序(xu)操作,那么建(jian)議將這個(ge)參數調大(da)一些,大(da)于shuffle read task的數量。那么此(ci)(ci)時就會(hui)自動啟用bypass機(ji)制,map-side就不會(hui)進行排序(xu)了(le),減少(shao)了(le)排序(xu)的性能(neng)開銷。但是這種方式下(xia),依然會(hui)產生(sheng)大(da)量的磁盤(pan)文件(jian),因此(ci)(ci)shuffle write性能(neng)有待提高(gao)。

spark.shuffle.consolidateFiles

  • 默認(ren)值(zhi):false
  • 參(can)(can)數說(shuo)明:如果(guo)使用HashShuffleManager,該參(can)(can)數有效(xiao)。如果(guo)設(she)置為true,那么就會(hui)開(kai)(kai)啟consolidate機制(zhi),會(hui)大幅度(du)合并shuffle write的輸出文件,對于(yu)shuffle read task數量特別多(duo)的情況下,這(zhe)種方法可以(yi)極(ji)大地減(jian)少磁(ci)盤IO開(kai)(kai)銷,提升性(xing)能。
  • 調優建議(yi):如果的確(que)不需要SortShuffleManager的排序(xu)機制,那么除了(le)使用bypass機制,還可(ke)以(yi)嘗試(shi)將spark.shffle.manager參數手動指定為hash,使用HashShuffleManager,同(tong)時開(kai)啟consolidate機制。在(zai)實踐中嘗試(shi)過,發現其性能比開(kai)啟了(le)bypass機制的SortShuffleManager要高出10%~30%。

寫在最后的話

本文(wen)分(fen)別(bie)講解(jie)了開發(fa)(fa)過程中的(de)(de)(de)(de)優(you)(you)化原則、運行前的(de)(de)(de)(de)資源(yuan)參數設置調(diao)優(you)(you)、運行中的(de)(de)(de)(de)數據傾斜的(de)(de)(de)(de)解(jie)決方案、為了精益求精的(de)(de)(de)(de)shuffle調(diao)優(you)(you)。希望(wang)大家能(neng)夠在(zai)閱讀本文(wen)之后,記(ji)住這些性能(neng)調(diao)優(you)(you)的(de)(de)(de)(de)原則以及方案,在(zai)Spark作(zuo)業開發(fa)(fa)、測試以及運行的(de)(de)(de)(de)過程中多嘗試,只有(you)這樣,我們才能(neng)開發(fa)(fa)出更優(you)(you)的(de)(de)(de)(de)Spark作(zuo)業,不斷提(ti)升其性能(neng)。

posted @ 2017-12-28 12:46  ^_TONY_^  閱讀(766)  評論(0)    收藏  舉報