Aurelius84 - 博客园

摘要：

TensorFlow Runtime，簡稱 TFRT，它提供了統一的、可擴展的基礎架構層，可以極致地發揮CPU多線程性能，支持全異步編程（無鎖隊列+異步化語義）。TFRT 可以減少開發、驗證和部署企業級模型所需的時間。閱讀全文

posted @ 2020-12-25 20:08 Aurelius84 閱讀(2002) 評論(0) 推(tui)薦(jian)(0)

2025年8月11日

摘要：一、項目概述 SLIME 是一個用于大語言模型(LLM)后訓練的強化學習(RL)框架，主要提供兩個核心功能：高性能訓練：通過連接Megatron與SGLang，支持多種模式下的高效訓練靈活數據生成：通過自定義數據生成接口和基于服務器的引擎實現任意訓練數據生成工作流從 REDAME 來看，SLI 閱讀全文

posted @ 2025-08-11 17:32 Aurelius84 閱讀(408) 評(ping)論(0) 推薦(jian)(0)

2024年9月19日

Post Pretraing 技(ji)術解(jie)析

摘要：

一、問題描述在大模型訓練中，后預訓練技術（Post-pretraining）通常指的是在模型的初始預訓練階段和最終的微調階段之間進行的一個額外訓練步驟。這個步驟的目的是進一步調整模型，使其能夠更好地適應特定領域或任務，同時保持或增強其從大規模預訓練數據中學到的通用知識和特征表示。 1.1 主要特點閱讀全文

posted @ 2024-09-19 17:15 Aurelius84 閱讀(2078) 評論(lun)(0) 推薦(0)

研發工程師的「第一性原理(li)」思維

摘要：

回顧復盤五年來的研發經歷，愈發認同身邊同事強調的“第一性原理”思維，僅做淺淺記錄和分享一、定義與理論介紹第一性原理（First Principles），又稱基本原理，是指從最基本的假設和定義出發，通過邏輯推理和演繹得出結論的一種思維方法。它強調對事物的本質和根源進行深入的理解，不受已有的經驗、知閱讀全文

posted @ 2024-09-19 16:57 Aurelius84 閱讀(1524) 評論(0) 推薦(0)

Meta Llama3 論文研讀

摘要：

一、引言概述（Intro & Overview） Llama3是一系列基于Transformer結構的大型多語言模型，通過優化數據質量、訓練規模和模型架構，旨在提升模型在各種語言理解任務中的表現。通過引入更優質的數據和更高效的訓練方法，Llama3展示了在自然語言處理領域的巨大潛力。其創新點在于閱讀全文

posted @ 2024-09-19 16:44 Aurelius84 閱讀(du)(1463) 評論(0) 推薦(jian)(0)

2024年9月13日

《抽象代數》系列之(zhi)群(qun)論入門

摘要：

一、重要性 1.1 領域意義群論是數學的一個分支，主要研究代數結構中的群、環、域等。盡管它看似抽象，但在編程領域，群論有著廣泛的應用和深刻的意義。算法設計與優化：群論在算法設計中發揮著重要作用。例如，在密碼學中，群論被用于設計安全的加密算法，如橢圓曲線密碼學，它依賴于橢圓曲線上的群結構；在圖論和閱讀全文

posted @ 2024-09-13 15:43 Aurelius84 閱(yue)讀(1640) 評論(0) 推薦(0)

2024年9月9日

訓練框架技術序列一：Megtron-LLM架構源碼(ma)

摘要：

本文章涉及的Megatron-llm的XMind思維導圖源文件和PDF文件，可在網盤下載： //pan.baidu.com/s/1xRZD-IP95y7-4Fn0C_VJMg 提取碼: qxff 一、引言 Megatron-Core 是一個基于 PyTorch 的開源庫，專為在 NVID 閱讀全文

posted @ 2024-09-09 12:32 Aurelius84 閱(yue)讀(3035) 評論(lun)(1) 推薦(0)

2024年7月10日

Paddle2ONNX 架(jia)構設(she)計

摘要：

一、目標 1.1 背景 AI工具庫生態的碎片化：隨著AI技術的快速發展，市場上涌現出了多種深度學習框架，如TensorFlow、PyTorch、PaddlePaddle等。每種框架都有其獨特的優勢和生態系統，但這也導致了AI工具庫生態的碎片化。不同框架之間的模型和數據格式互不兼容，使得模型遷移和部署閱讀全文

posted @ 2024-07-10 16:08 Aurelius84 閱讀(405) 評論(0) 推薦(0)

2024年7月8日

分布(bu)式混合并(bing)行訓練關鍵技術解讀(du)

摘要：

為個人參與深度學習框架飛槳PaddlePaddle 開發時，梳理的個人筆記。一、并行方式 1.數據并行（Batch維度）數據并行分為了兩種模式：Data Parallel（DP）和 Distributed Data Parallel（DDP）。 1.1 Data Parallel DP是一種閱讀全文

posted @ 2024-07-08 20:17 Aurelius84 閱讀(1224) 評論(0) 推薦(0)

大(da)模型如何提(ti)升訓練效率

摘要：

一、問題背景隨著AIGC領域的興起，各大廠商都在訓練和推出自研的大模型結構，并結合業務進行落地和推廣。在大模型分布式訓練場景中，主流的主要是基于英偉達GPU進行訓練（如A100），如何有效地壓榨GPU的計算能力，提升訓練效率，降低訓練成本，是一個非常重要的實踐優化問題。 1.1 直接目標最直接地閱讀全文

posted @ 2024-07-08 19:58 Aurelius84 閱讀(4813) 評論(0) 推薦(jian)(0)

2024年5月8日

深度學習框架(jia)火焰圖pprof和(he)CUDA Nsys配置指南

摘要：

注：如下是在做深度學習框架開發時，用到的火焰圖pprof和 CUDA Nsys 配置指南，可能對大家有一些幫助，就此分享。一些是基于飛槳的Docker鏡像配置的。一、環境 & 工具配置 0. 開發機配置 # 1.構建鏡像, 記得映射端口，可以多映射幾個；記得掛載ssd目錄，因為數據都在ssd盤上閱讀全文

posted @ 2024-05-08 19:57 Aurelius84 閱讀(2651) 評論(0) 推薦(0)

中文字幕精品亚洲无线码二区,国产黄a三级三级三级看三级,亚洲七七久久桃花影院,丰满少妇被猛烈进入,国产小视频在线观看网站

CocoML

公告