MLIR矩阵乘法GPU代码生成技术论文解读,有哪些初步成效?
- 内容介绍
- 文章标签
- 相关推荐
本文共计7934个文字,预计阅读时间需要32分钟。
0x00. 前言+本文是对arXiv.org/abs/2108.13191这篇论文的解读,学习如何基于MLIR编译器基础建设高效GPU代码。内容概括:+ + 摘要+ 引言+ 背景介绍+ MLIR编译器基础+ GPU代码生成+ 实验结果+ 结论
0x0. 前言
本文是对 arxiv.org/abs/2108.13191 这篇论文进行解读,学习一下如何基于MLIR编译器基础设施生成高效的GPU代码。本文的阅读的先后顺序分别为:
这篇论文是MLIR支持Tensor Core工作对应的论文,这篇论文涉及到的代码在llvm-project中已经开源。
0x1. 标题
本文题目为基于MLIR的矩阵乘法高性能GPU代码生成:一些早期结果。这说明论文可能还会继续完善,也许是实验或部分还要补充吧。作者团队是来自PolyMage Labs以及印度理工学院的。
0x2. 摘要
这篇文章介绍了使用MLIR编译器基础架构针对NVIDIA GPU上的Tensor Core生成代码的一些结果。当前高性能深度学习的最新技术主要由高度调优的库驱动。这些库通常由专业的程序员在low-level的级别进行手工优化和调优,并付出了很大的努力。对于类似的硬件或者将来可能出现的新硬件,可能需要重复很多这样的工作以及努力。因此,这个过程不像LLVM这样的编译器基础设施那样模块化以及可重用性很强。手工优化通常不使用IR,尽管这些优化可以被编码为一系列在IR上定义的pass。
本文共计7934个文字,预计阅读时间需要32分钟。
0x00. 前言+本文是对arXiv.org/abs/2108.13191这篇论文的解读,学习如何基于MLIR编译器基础建设高效GPU代码。内容概括:+ + 摘要+ 引言+ 背景介绍+ MLIR编译器基础+ GPU代码生成+ 实验结果+ 结论
0x0. 前言
本文是对 arxiv.org/abs/2108.13191 这篇论文进行解读,学习一下如何基于MLIR编译器基础设施生成高效的GPU代码。本文的阅读的先后顺序分别为:
这篇论文是MLIR支持Tensor Core工作对应的论文,这篇论文涉及到的代码在llvm-project中已经开源。
0x1. 标题
本文题目为基于MLIR的矩阵乘法高性能GPU代码生成:一些早期结果。这说明论文可能还会继续完善,也许是实验或部分还要补充吧。作者团队是来自PolyMage Labs以及印度理工学院的。
0x2. 摘要
这篇文章介绍了使用MLIR编译器基础架构针对NVIDIA GPU上的Tensor Core生成代码的一些结果。当前高性能深度学习的最新技术主要由高度调优的库驱动。这些库通常由专业的程序员在low-level的级别进行手工优化和调优,并付出了很大的努力。对于类似的硬件或者将来可能出现的新硬件,可能需要重复很多这样的工作以及努力。因此,这个过程不像LLVM这样的编译器基础设施那样模块化以及可重用性很强。手工优化通常不使用IR,尽管这些优化可以被编码为一系列在IR上定义的pass。

