「随笔小记」大模型随笔
MOE基本类型 MOE全称Mixtrue of Experts (混合专家) 简单来说,就是使用MOE替换Transformer之前的FFN(前馈网络)结构,从而获取更多的信息。 Transformer直接的堆叠,在层数深了之后会导致提取特征的低秩现象。添加残差和前馈神经网络(FFN)可以避免这种现象。 MOE的基本结构如下图: 这里的FFN1,...,FFN4FFN1,...,FFN4FFN1,...,FFN4就是不同的4个专家 对于输入X1,X2X_1,X_2X1,X2,首先会通过一个门控网络决定走哪一个FFN,然后将计算结果与对应的门控权重ppp进行乘积,将结果与输入进行残差连接和归一化,最后输出结果。 稀疏MOE与稠密MOE 门控函数(路由函数):协调专家与其各自输出组合 门控函数的分类 稀疏门控:激活部分专家 稠密门控:激活所有专家 软门控:输入Token合并和专家合并 DeepSeek...
「实习笔记」Paddle组合机制设计与开发
组合机制设计 operator_decomposition_mechanism/design.md) 组合机制开发 operator_decomposition_mechanism/development.md
「论文笔记」Fleche: An Efficient GPU Embedding Cache for Personalized Recommendations
简要 问题: CPU端的DRAM数据访问与GPU处理之间的差距成为深度embedding模型推理性能的阻碍,用GPU-resident cache缓存embedding表可以解决这个差距,但是这个方案并没有被完全探索。 现有的缓存方案为每个embedding表维护一个固定大小的cache表,防止在表重分区期间发生大量的数据移动。这样的设计有两个重要的影响因素:缓存利用率低(静态单表缓存的结构缺陷)和内核维护开销(过多的小缓存查询内核) 方案:FLECHE——用于有效GPU-resident embedding caching的新颖缓存机制 主要思想:联合设计缓存结构和工作流,从而促进缓存利用率并减少缓存查询时间。 结构:GPU-HBM层用于缓存hot embedding,CPU-DRAM层存储所有的embedding(这里只考虑了模型能完全放入内存中的情况,大型模型会另外讨论) 为了解决缓存利用率低的问题,提出了flat cache(FC)。其通过将所有的embedding表输入id重新编码为统一格式的flat key,让所有embedding...
「论文笔记」JiZhi: A Fast and Cost-Eective Model-As-A-Service System for Web-Scale Online Inference at Baidu
简要 问题:面对数十亿用户的时变网络规模数据,以经济有效的方式将训练有素的深度模型用于在线实时推理服务仍然具有挑战性。 使用DNN进行网页规模的实时在线推理的成本成为大多数公司采用该技术的主要负担 在线服务的时间消耗对用户体验至关重要,会影响长期留存率 支持DNN的资源消耗将要求大量的服务基础设施投资,并且有时会使系统设计,实现和运行超出预算。 使用GPU,TensorRT等方法可以有效境地DNN的计算延迟,但是这些技术主要针对单个DNN的训练和推理进行优化,忽略了时变网络传输下的在线推理的负载数据和计算依赖关系。因此,实时网页规模的DNN推理服务主要有下面的挑战: 巨大且稀疏的DNN模型:需要巨大的空间对他们进行存储,并且检索转换和计算也是比较大的麻烦 时变网络尺度传输:推荐系统的推荐请求并发量通常是非常大的 多样化的推荐场景:推荐输入可以是图片,文字以及搜索引擎中的用户喜好。 方案:JIZHI——用于网络规模在线推理服务的Model-as-a-Service系统。 Staged Event-Driven...
「论文笔记」PetPS: Supporting Huge Embedding Models with Persistent Memory
简要 问题:随着embedding模型容量的不断增大,使用传统的参数服务器的存储成本高,在遇到宕机后重启的回复时间也很长。于是考虑使用持久性内存来拓展内存容量,但是持久性内存也面临两个挑战:高读取延迟和较重的CPU负担。 使用DRAM的参数服务器存储大型模型有两方面的缺点 造成了比较高的存储开销:DRAM是昂贵的媒介,同时DRAM几乎占整个系统功耗的一半 在参数服务器宕机后,将参数重新加载到DRAM中需要相当长的恢复时间,违反了在线推理的服务级协议(SLA) 持久化内存(也称非易失内存,PM)也支持像DRAM字节地址,但多提供了8倍的容量,同时提供了数据持久化的功能,并且可以提供更快的恢复和更少的停机时间。但仍然存在两个挑战 较高的持久化内存读取延迟(PM的延迟比DRAM高3倍) 较高的CPU负担(在和DRAM相同的CPU下,但是要处理8倍的数据空间) 方案:PetPS(Persistent Embedding Table Parameter...
「论文笔记」Hercules: Heterogeneity-Aware Inference Serving for At-Scale Personalized Recommendation
简要 现象:数据中心的深度学习推荐系统具有许多独特的工作负载特征和系统需求——模型多样性、云规模的系统异构行和时变负载模式。这些都需要特定于应用程序的解决方案来提高执行效率。 问题: 模型多样性:推荐模型的迅速发展,以支持新的用例,并实现更高的预测精度。这种不同算法结构导致了不同的性能瓶颈。最先进的推荐模型的计算和内存强度可以变化1~2个数量级。 云规模的系统异构:各种各样的系统架构可以在数据中心中共存,其原因如下: 系统升级会周期性的发生,不同微架构的服务器一代又一代地出现 特定领域的加速器越来越多地部署在数据中心,以最大化执行效率 时变负载模式:查询到达服从泊松分布,查询大小呈明显的重尾分布。动态变化的条件要求调度程序在不同级别运行,以快速适应和响应负载变化。 最优调度鞠策高度依赖于模型和硬件,并且需要一个有效的搜索机制来充分探索所有SLA(服务级协议)目标在模型并行、操作员并行和数据并行维度上的大调度空间。但现有的任务调度器设计缺乏遍历整个并行空间的能力。 方案: Herules——heterogeneity-aware...