avatar
文章
92
标签
104
分类
15
主页
时间轴
标签
分类
请我喝茶
DL笔记
急救箱
ZeroRains Blog「实习笔记」Paddle组合机制设计与开发
主页
时间轴
标签
分类
请我喝茶
DL笔记
急救箱

「实习笔记」Paddle组合机制设计与开发

发表于2025-02-23|更新于2025-02-23|AI System
|浏览量:

组合机制设计

operator_decomposition_mechanism/design.md)

组合机制开发

operator_decomposition_mechanism/development.md

文章作者: zerorains
文章链接: http://blog.zerorains.top/2025/02/23/%E3%80%8C%E5%AE%9E%E4%B9%A0%E7%AC%94%E8%AE%B0%E3%80%8DPaddle%E7%BB%84%E5%90%88%E6%9C%BA%E5%88%B6%E8%AE%BE%E8%AE%A1/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 ZeroRains Blog!
编译器组合机制
cover of previous post
上一篇
「论文笔记」PiPAD: Pipelined and Parallel Dynamic GNN Training on GPUs
...
cover of next post
下一篇
「随笔小记」大模型随笔
MOE基本类型 MOE全称Mixtrue of Experts (混合专家) 简单来说,就是使用MOE替换Transformer之前的FFN(前馈网络)结构,从而获取更多的信息。 Transformer直接的堆叠,在层数深了之后会导致提取特征的低秩现象。添加残差和前馈神经网络(FFN)可以避免这种现象。 MOE的基本结构如下图: 这里的FFN1,...,FFN4FFN1,...,FFN4FFN1,...,FFN4就是不同的4个专家 对于输入X1,X2X_1,X_2X1​,X2​,首先会通过一个门控网络决定走哪一个FFN,然后将计算结果与对应的门控权重ppp进行乘积,将结果与输入进行残差连接和归一化,最后输出结果。 稀疏MOE与稠密MOE 门控函数(路由函数):协调专家与其各自输出组合 门控函数的分类 稀疏门控:激活部分专家 稠密门控:激活所有专家 软门控:输入Token合并和专家合并 DeepSeek...
avatar
zerorains
No matter what happens, I will do my best.
文章
92
标签
104
分类
15
Follow Me
公告
主业想做大模型推理,目前也正在努力学习中。副业做数据库中执行传统模型的推理优化。
目录
  1. 1. 组合机制设计
  2. 2. 组合机制开发
最新文章
「随笔小记」大模型随笔
「随笔小记」大模型随笔2025-03-02
「实习笔记」Paddle组合机制设计与开发
「实习笔记」Paddle组合机制设计与开发2025-02-23
「论文笔记」PiPAD: Pipelined and Parallel Dynamic GNN Training on GPUs
「论文笔记」PiPAD: Pipelined and Parallel Dynamic GNN Training on GPUs2023-04-26
「论文笔记」Ekko: A Large-Scale Deep Learning Recommender System with Low-Latency Model Update
「论文笔记」Ekko: A Large-Scale Deep Learning Recommender System with Low-Latency Model Update2023-04-04
「论文笔记」DeepRecSys: A System for Optimizing End-To-End At-Scale Neural Recommendation Inference
「论文笔记」DeepRecSys: A System for Optimizing End-To-End At-Scale Neural Recommendation Inference2023-03-27
©2020 - 2025 By zerorains
框架 Hexo 7.3.0|主题 Butterfly 5.3.5