 DeepSeek-R1蒸餾技術(shù)與V3模型核心算法

課程介紹
課程收益
課程大綱
開班信息

課程介紹

本課程聚焦于 DeepSeek R1 模型蒸餾 Qwen2 1.5B 的實(shí)踐操作，旨在讓學(xué)員掌握模型蒸餾的全流程，包括環(huán)境部署、數(shù)據(jù)集準(zhǔn)備、蒸餾過(guò)程及調(diào)用測(cè)試，提升學(xué)員在大模型應(yīng)用與優(yōu)化領(lǐng)域的實(shí)踐能力。課程還包含DeepSeek V3 模型核心原理、整體架構(gòu)、分布式基礎(chǔ)概念、MLA嵌在注意力從自回歸掩碼看KV緩存機(jī)制，針對(duì)KV緩存的改進(jìn)，DeepSeek MOE架構(gòu)與創(chuàng)新介紹。

培訓(xùn)對(duì)象

從事相關(guān)工作及對(duì)課程內(nèi)容感興趣的人員。

課程收益

能夠獨(dú)立搭建 DeepSeek R1 模型蒸餾 Qwen2 1.5B 的實(shí)驗(yàn)環(huán)境，包括創(chuàng)建虛擬環(huán)境、安裝相關(guān)依賴和工具；
熟悉多種可用于模型蒸餾的數(shù)據(jù)集，掌握數(shù)據(jù)集的清洗和準(zhǔn)備方法，能根據(jù)需求篩選和處理數(shù)據(jù)；
理解并熟練執(zhí)行模型蒸餾過(guò)程，運(yùn)用 Llama - Factory 進(jìn)行全量指令微調(diào)，優(yōu)化模型性能；
學(xué)會(huì)對(duì)蒸餾前后的模型進(jìn)行調(diào)用測(cè)試，準(zhǔn)確評(píng)估模型在實(shí)際問(wèn)題解決中的表現(xiàn)，分析模型的優(yōu)勢(shì)與不足。

知識(shí)概要

-- DeepSeek-R1蒸餾Qwen1.5B實(shí)戰(zhàn)；
-- DeepSeek-V3模型核心原理與架構(gòu)介紹；
-- DeepSeek v3 MLA 機(jī)制與混合專家模型介紹。

課程大綱

模塊

學(xué)習(xí)內(nèi)容

第一天

DeepSeek-R1蒸餾Qwen1.5B實(shí)戰(zhàn)

模型蒸餾環(huán)境部署

操作系統(tǒng)與配置說(shuō)明

創(chuàng)建虛擬環(huán)境

創(chuàng)建 Jupyter Kernel

安裝 wand

創(chuàng)建主目錄與下載原始模型

安裝 Llama - Factory

模型蒸餾數(shù)據(jù)集準(zhǔn)備

主流推理數(shù)據(jù)集介紹

數(shù)據(jù)清洗過(guò)程

數(shù)據(jù)集下載與準(zhǔn)備

模型蒸餾過(guò)程

上傳微調(diào)腳本

執(zhí)行微調(diào)

調(diào)用測(cè)試

測(cè)試問(wèn)題設(shè)置

普通模型調(diào)用測(cè)試

蒸餾模型調(diào)用測(cè)試

第二天

DeepSeek-V3模型核心原理與架構(gòu)介紹

DeepSeekv3 架構(gòu)圖解與基本參數(shù)配置

整體架構(gòu)

不同規(guī)模模型參數(shù)

關(guān)鍵參數(shù)配置

分布式并行化嵌入與映射

ParallelEmbedding 層

線性層相關(guān)實(shí)現(xiàn)

行并行與列并行

RMS Norm 層

Layer Normalization 介紹

LN 與 BN、RMSNorm 的差別

RMSNorm 實(shí)現(xiàn)

旋轉(zhuǎn)位置編碼 ROPE

原理與優(yōu)勢(shì)

具體流程

相關(guān)代碼實(shí)現(xiàn)

DeepSeek v3 的 KV 緩存機(jī)制

工作原理

類定義與初始化

forward 方法

第三天

DeepSeek v3 MLA 機(jī)制與混合專家模型介紹

DeepSeek v3 的 MOE 混合專家模型

與常見(jiàn)前饋網(wǎng)絡(luò)對(duì)比

SwiGLU 激活函數(shù)

MoE 原理與優(yōu)勢(shì)

MoE 訓(xùn)練流程

專家選擇機(jī)制

瓶頸問(wèn)題與輔助損失

MoE 推理過(guò)程

相關(guān)類定義

DeepSeek v3 的 KV 緩存機(jī)制

自回歸算法與 KV 緩存

注意力機(jī)制計(jì)算分析

KV 緩存工作流程

MLA 潛在注意力機(jī)制

相關(guān)類定義與初始化

認(rèn)證過(guò)程

無(wú)認(rèn)證考試

開班信息

暫無(wú)開班信息

課程

 DeepSeek-R1蒸餾技術(shù)與V3模型核心算法

課程介紹

培訓(xùn)對(duì)象

課程收益

知識(shí)概要

課程大綱

認(rèn)證過(guò)程

開班信息

相關(guān)課程

021-63530102

請(qǐng)留下聯(lián)系方式，我們會(huì)和您取得聯(lián)系

課程

 DeepSeek-R1蒸餾技術(shù)與V3模型核心算法

課程介紹

培訓(xùn)對(duì)象

課程收益

知識(shí)概要

課程大綱

認(rèn)證過(guò)程

開班信息

相關(guān)課程

021-63530102

請(qǐng)留下聯(lián)系方式，我們會(huì)和您取得聯(lián)系