課程介紹
本課程聚焦于 DeepSeek R1 模型蒸餾 Qwen2 1.5B 的實踐操作,旨在讓學(xué)員掌握模型蒸餾的全流程,包括環(huán)境部署、數(shù)據(jù)集準(zhǔn)備、蒸餾過程及調(diào)用測試,提升學(xué)員在大模型應(yīng)用與優(yōu)化領(lǐng)域的實踐能力。課程還包含DeepSeek V3 模型核心原理、整體架構(gòu)、分布式基礎(chǔ)概念、MLA嵌在注意力從自回歸掩碼看KV緩存機(jī)制,針對KV緩存的改進(jìn),DeepSeek MOE架構(gòu)與創(chuàng)新介紹。
培訓(xùn)對象
從事相關(guān)工作及對課程內(nèi)容感興趣的人員。
課程收益
能夠獨(dú)立搭建 DeepSeek R1 模型蒸餾 Qwen2 1.5B 的實驗環(huán)境,包括創(chuàng)建虛擬環(huán)境、安裝相關(guān)依賴和工具;
熟悉多種可用于模型蒸餾的數(shù)據(jù)集,掌握數(shù)據(jù)集的清洗和準(zhǔn)備方法,能根據(jù)需求篩選和處理數(shù)據(jù);
理解并熟練執(zhí)行模型蒸餾過程,運(yùn)用 Llama - Factory 進(jìn)行全量指令微調(diào),優(yōu)化模型性能;
學(xué)會對蒸餾前后的模型進(jìn)行調(diào)用測試,準(zhǔn)確評估模型在實際問題解決中的表現(xiàn),分析模型的優(yōu)勢與不足。
知識概要
-- DeepSeek-R1蒸餾Qwen1.5B實戰(zhàn);
-- DeepSeek-V3模型核心原理與架構(gòu)介紹;
-- DeepSeek v3 MLA 機(jī)制與混合專家模型介紹。
課程大綱
DeepSeek-R1蒸餾Qwen1.5B實戰(zhàn)
模型蒸餾環(huán)境部署
操作系統(tǒng)與配置說明
創(chuàng)建虛擬環(huán)境
創(chuàng)建 Jupyter Kernel
安裝 wand
創(chuàng)建主目錄與下載原始模型
安裝 Llama - Factory
模型蒸餾數(shù)據(jù)集準(zhǔn)備
主流推理數(shù)據(jù)集介紹
數(shù)據(jù)清洗過程
數(shù)據(jù)集下載與準(zhǔn)備
模型蒸餾過程
上傳微調(diào)腳本
執(zhí)行微調(diào)
調(diào)用測試
測試問題設(shè)置
普通模型調(diào)用測試
蒸餾模型調(diào)用測試
DeepSeek-V3模型核心原理與架構(gòu)介紹
DeepSeekv3 架構(gòu)圖解與基本參數(shù)配置
整體架構(gòu)
不同規(guī)模模型參數(shù)
關(guān)鍵參數(shù)配置
分布式并行化嵌入與映射
ParallelEmbedding 層
線性層相關(guān)實現(xiàn)
行并行與列并行
RMS Norm 層
Layer Normalization 介紹
LN 與 BN、RMSNorm 的差別
RMSNorm 實現(xiàn)
旋轉(zhuǎn)位置編碼 ROPE
原理與優(yōu)勢
具體流程
相關(guān)代碼實現(xiàn)
DeepSeek v3 的 KV 緩存機(jī)制
工作原理
類定義與初始化
forward 方法
DeepSeek v3 MLA 機(jī)制與混合專家模型介紹
DeepSeek v3 的 MOE 混合專家模型
與常見前饋網(wǎng)絡(luò)對比
SwiGLU 激活函數(shù)
MoE 原理與優(yōu)勢
MoE 訓(xùn)練流程
專家選擇機(jī)制
瓶頸問題與輔助損失
MoE 推理過程
相關(guān)類定義
DeepSeek v3 的 KV 緩存機(jī)制
自回歸算法與 KV 緩存
注意力機(jī)制計算分析
KV 緩存工作流程
MLA 潛在注意力機(jī)制
相關(guān)類定義與初始化
認(rèn)證過程
無認(rèn)證考試
開班信息
暫無開班信息