info
Logsumexp OP 性能优化设计文档
基本信息 | 内容 |
---|---|
提交作者 | Asthestarsfalll |
提交时间 | 2023-03-05 |
版本号 | V 1.0 |
依赖飞桨版本 | develop |
文件名 | 20220305_logsumexp_op_optimization. Md |
1 背景与意义
1.1 飞桨现状
目前 Paddle 内 logsumexp OP 的 GPU 计算调用了 eigen,性能较差,有较大的提升空间。
1.2 业内方案调研
1.2.1 PyTorch
PyTorch 中使用了 cutlass 实现,代码见 此
1.2.2 OneFlow
OneFlow 中使用了 ReduceKernel+ElementwiseKernel 组合的方式,代码见 此
1.3 对比分析
二者与 paddle 中实现思路基本一致,值得一提的是 OneFlow 的实现方式中有对输入数据含 Inf 的处理。
2 设计方案与性能预期
2.1 算子分析
Logsumexp 计算公式如下: