小白指南:Apache DolphinScheduler 補數據功能(neng)實操演示

最近使(shi)用 Apache DolphinScheduler 調度任務,不(bu)可(ke)避免地(di)使(shi)用到【補數(shu)據(ju)】功(gong)能,經過不(bu)斷嘗試,終于成(cheng)功(gong)運行(xing)了(le)【補數(shu)據(ju)】功(gong)能,以此帖記錄。
- 版本說明:3.1.9
補數據功能簡介
"補數據" 在 Apache DolphinScheduler 中指的是 補數據(Complement Data) 功能(neng),用(yong)于(yu)補充執行(xing)歷史時間段內的(de)工作流實例。
補數據功能概述
補數據是工作流執行的一種特殊模式,讓用戶可以為過去的時間段批量創建和執行工作流實例。這在以下場景中特別有用:
- 需要重新處理歷史數據
- 系統故障后需要補充缺失的數據處理
- 新增數據處理邏輯后需要回填歷史數據
- 定期批量數據處理
補數據配置參數
在工(gong)作流啟動界面(mian)中,補數據功能包含以下(xia)配置選項(xiang):
-
是否是補數據 (
whether_complement_data): 開關選項,啟用(yong)補(bu)數據模(mo)式 -
調度日期 (
schedule_date): 指(zhi)定需要補數據的(de)時間范圍 :- 支持日期選擇和手動輸入兩種方式
- 格式為
yyyy-MM-dd HH:mm:ss,多個日期用逗號分隔 - 限制最多輸入100條日期
-
執行方式 (
mode_of_execution):- 串行執行: 按順序逐個執行補數據任務
- 并行執行: 同時執行多個補數據任務
-
并行度 (
parallelism): 當(dang)選擇并(bing)行執(zhi)行時,可以(yi)設置(zhi)自定(ding)義并(bing)行度(du)來控制同時執(zhi)行的(de)任務數量- 這有助于避免大量補數據任務對服務器造成過大影響
-
執行順序 (
order_of_execution) :- 按日期升序執行: 從最早的日期開始執行
- 按日期降序執行: 從最近的日期開始執行
使用補數據功能操作步驟
首先是工作流的任務配置,見下圖

接著,保存(cun)工(gong)作(zuo)(zuo)流,未設(she)置全局(ju)變量。上(shang)線工(gong)作(zuo)(zuo)流。
最后,運行工作流,運行參數見下圖

- 選擇補數據的日期范圍
- 【啟動參數】為定義任務時設置的參數dt,value為空即可。
- 點擊【確定】后自動運行
驗證結果
點擊【工(gong)作流實例(li)】,查看運行結果。

點擊第1個實例進入(ru),查看日志

結果(guo)顯示(shi),SQL 運行結果(guo)為補數(shu)據(ju)選擇的日期,補數(shu)據(ju)功能正(zheng)常可用。
Notes
補數據功能是 Apache DolphinScheduler 工作流管理中的重要特性,通過靈活的配置選項(執行方式、并行度、執行順序等)來滿足不同的數據補充需求。在使用時需要注意合理設置并行度,避免對系統資源造成過大壓力。