Spark On Yarn的兩種模式yarn-cluster和yarn-client深度剖(pou)析

Spark On Yarn的優勢

每(mei)個(ge)Spark executor作為一個(ge)YARN容器(container)運行(xing)。Spark可以(yi)使得(de)多(duo)個(ge)Tasks在同一個(ge)容器(container)里(li)面運行(xing)

1. Spark支持資(zi)(zi)源動態共(gong)享，運行于(yu)Yarn的框架都共(gong)享一(yi)個集中配置好的資(zi)(zi)源池

2. 可以(yi)很方便的(de)利(li)用Yarn的(de)資(zi)源調度特性(xing)來做分類、隔離以(yi)及(ji)優先級控制負載，擁有更靈活的(de)調度策(ce)略

3. Yarn可以自由地選擇executor數量

4. Yarn是唯一支持(chi)Spark安全的集群管理(li)器(qi)，使用Yarn，Spark可以(yi)運行于Kerberized Hadoop之上，在它們(men)進程之間進行安全認證

我們知道Spark on yarn有兩種模式：yarn-cluster和yarn-client。這兩種模式作(zuo)業雖然都是在yarn上面運(yun)行(xing)，但是其中的(de)運(yun)行(xing)方式很不一樣，今天就(jiu)來談談Spark on YARN yarn-client模式作(zuo)業從提交(jiao)到運(yun)行(xing)的(de)過程(cheng)剖(pou)析

Yarn-Cluster

在YARN-Cluster模式中，當用戶向YARN中提交一個應用程序后，YARN將分兩個階段運行該應用程序：

第一個階段是把Spark的Driver作為一個ApplicationMaster在YARN集群中先啟動；
第二個階段是由ApplicationMaster創建應用程序，然后為它向ResourceManager申請資源，并啟動Executor來運行Task，同時監控它的整個運行過程，直到運行完成

應用的(de)運行結果不能在(zai)客戶(hu)端顯(xian)示（可(ke)以在(zai)history server中查看），所以最好將結果保存在(zai)HDFS而(er)非(fei)stdout輸出，客戶(hu)端的(de)終端顯(xian)示的(de)是(shi)(shi)作為YARN的(de)job的(de)簡(jian)單運行狀況，下圖是(shi)(shi)yarn-cluster模(mo)式

執(zhi)行過程：

Spark Yarn Client向YARN中(zhong)(zhong)提(ti)交應(ying)用(yong)程(cheng)(cheng)序，包括ApplicationMaster程(cheng)(cheng)序、啟(qi)動(dong)ApplicationMaster的(de)命令、需要在Executor中(zhong)(zhong)運行的(de)程(cheng)(cheng)序等
ResourceManager收到請求后，在集群中選(xuan)擇一個(ge)NodeManager，為(wei)該應用(yong)程序分配第一個(ge)Container，要求它在這個Container中啟動應用程序的ApplicationMaster，其中ApplicationMaster進行SparkContext等的初始化
ApplicationMaster向ResourceManager注冊，這樣用戶可以直接通過ResourceManage查看應用程序的運行狀態，然后它將采用輪詢的方式通過RPC協議為各個任務申請資源，并監控它們的運行狀態直到運行結束
一旦ApplicationMaster申請到資源(yuan)（也就(jiu)是Container）后，便與對應的NodeManager通信，要求它在獲得的Container中啟動CoarseGrainedExecutorBackend，而Executor對象的創(chuang)建(jian)及維護(hu)是由CoarseGrainedExecutorBackend負責的，CoarseGrainedExecutorBackend啟動后會向ApplicationMaster中的SparkContext注冊并(bing)申請Task。這一點和Standalone模式一樣，只不過SparkContext在Spark Application中初始化時，使用CoarseGrainedSchedulerBackend配合YarnClusterScheduler進行任務的調度，其中YarnClusterScheduler只是對TaskSchedulerImpl的一個簡單包裝，增加了對Executor的等待邏輯等
ApplicationMaster中的SparkContext分配Task給CoarseGrainedExecutorBackend執行，CoarseGrainedExecutorBackend運行Task并向ApplicationMaster匯報運行的狀態和進度，以讓ApplicationMaster隨時掌握各個任務的運行狀態，從而可以在任務失敗時重新啟動任務
應用程序運行完成后，ApplicationMaster向ResourceManager申請注(zhu)銷并(bing)關閉自(zi)己

比以前的更多的理解(jie)：
（1）Application Master所(suo)在的(de)NodeManager是(shi)Yarn隨機分配的(de)，不是(shi)在主(zhu)節(jie)點(dian)上(shang)，下圖是(shi)實驗(yan)室集群上(shang)跑(pao)得一個(ge)Spark程序，tseg0是(shi)主(zhu)節(jie)點(dian)，tseg1~tseg4是(shi)workers，IP10.103.240.29指的(de)是(shi)tseg3:

（2）在上圖還(huan)可以看(kan)出(chu)，executor的(de)容器和AM容器是可以共(gong)存的(de)，它們的(de)封裝(zhuang)都是容器；
（3）AM是Yarn啟動的第(di)一個容器；
（4）AM所在的(de)(de)NodeManager就是平常說(shuo)的(de)(de)Driver端，因為(wei)這(zhe)(zhe)個AM啟動(dong)了SparkContext，之前實(shi)驗室說(shuo)的(de)(de)“誰初(chu)始化的(de)(de)SparkContext誰就是Driver端”一直理(li)解錯了，以為(wei)這(zhe)(zhe)句話是相對于機(ji)器說(shuo)的(de)(de)，但(dan)其實(shi)是相對于Cluster和Client的(de)(de)集群模式來說(shuo)的(de)(de)（不(bu)知道其他(ta)模式Mesos、standalone是不(bu)是也是這(zhe)(zhe)樣）。
（5）在(zai)Application提(ti)交(jiao)到RM上(shang)之后(hou)，Client就(jiu)可以關閉了，集群會繼續運(yun)(yun)行(xing)提(ti)交(jiao)的程(cheng)序，在(zai)實際使用時，有時候會看到這樣一種(zhong)現象，關閉Client會導致程(cheng)序終止，其實這個Application還沒有提(ti)交(jiao)上(shang)去，關閉Client打斷了提(ti)交(jiao)的過程(cheng)，Application當然不(bu)會運(yun)(yun)行(xing)。

YARN-Cluster和YARN-Client的(de)區別

理解YARN-Client和(he)YARN-Cluster深層次的區別之(zhi)前先清楚一個概(gai)念：Application Master。在YARN中，每個Application實例都(dou)有一個ApplicationMaster進(jin)(jin)程(cheng)，它是Application啟動的第一個容器。它負責和(he)ResourceManager打交道并請求資(zi)源，獲取資(zi)源之(zhi)后告(gao)訴NodeManager為(wei)其啟動Container。從深層次的含義講YARN-Cluster和(he)YARN-Client模式(shi)的區別其實就(jiu)是ApplicationMaster進(jin)(jin)程(cheng)的區別
YARN-Cluster模(mo)式下，Driver運行(xing)(xing)在(zai)AM(Application Master)中，它負責向YARN申請(qing)資源，并(bing)監(jian)督(du)作業(ye)的運行(xing)(xing)狀況。當(dang)用戶提交了作業(ye)之后(hou)，就可以關掉(diao)Client，作業(ye)會繼續在(zai)YARN上運行(xing)(xing)，因而YARN-Cluster模(mo)式不適合運行(xing)(xing)交互類型的作業(ye)
YARN-Client模式下，Application Master僅僅向YARN請(qing)求Executor，Client會和請(qing)求的Container通(tong)信來(lai)調(diao)度(du)他們工作，也(ye)就是說Client不能離開

（1）YarnCluster的(de)Driver是在(zai)集(ji)群的(de)某(mou)一臺NM上(shang)，但是Yarn-Client就是在(zai)RM的(de)機器(qi)上(shang)；
（2）而Driver會和Executors進行(xing)通信，所以Yarn_cluster在提交(jiao)App之后可以關(guan)閉(bi)Client，而Yarn-Client不可以；
（3）Yarn-Cluster適合(he)(he)生產環境(jing)，Yarn-Client適合(he)(he)交互(hu)和調(diao)試。

下(xia)表是Spark Standalone與Spark On Yarn模式(shi)下(xia)的(de)比較

Reference

《Spark技(ji)術(shu)內(nei)幕(mu)-深入(ru)解析Spark內(nei)核、架構(gou)設計與實現原(yuan)理》
Spark Yarn-cluster與Yarn-client

posted @ 2017-12-03 21:21 ^_TONY_^ 閱讀(19097) 評論(2) 收藏舉報

刷新頁面返回頂部

中文字幕精品亚洲无线码二区,国产黄a三级三级三级看三级,亚洲七七久久桃花影院,丰满少妇被猛烈进入,国产小视频在线观看网站

tony~博客小屋

夫學須靜也,才須學也.非學無以廣才,非志無以成學→_→^_^

Spark On Yarn的兩種模式yarn-cluster和yarn-client深度剖(pou)析

Spark On Yarn的優勢

相關概(gai)念

YARN-Client

Yarn-Cluster

YARN-Cluster和YARN-Client的(de)區別

Reference

公告

中文字幕精品亚洲无线码二区,国产黄a三级三级三级看三级,亚洲七七久久桃花影院,丰满少妇被猛烈进入,国产小视频在线观看网站

tony~博客小屋

夫學須靜也,才須學也.非學無以廣才,非志無以成學→_→^_^

Spark On Yarn的兩種模式yarn-cluster和yarn-client深度剖(pou)析

Spark On Yarn的優勢

相關概(gai)念

YARN-Client

Yarn-Cluster

YARN-Cluster和YARN-Client的(de)區別

Reference

公告

Spark On Yarn的兩種模式yarn-cluster和yarn-client深度剖(pou)析