如何使用PaddlePaddle成功复现CoTNet模型？

2026-05-08 03:064阅读0评论SEO基础

内容介绍
文章标签
相关推荐

本文共计405个文字，预计阅读时间需要2分钟。

如何使用PaddlePaddle成功复现CoTNet模型？

相关专题：

作者将CoT Block代替了ResNet结构中的3x3卷积，来形成CoTNet，最终在一系列视觉任务（分类、检测、分割）上取得了非常好的性能，此外，CoTNet在CVPR上获得开放域图像识别竞赛冠军。

因此，作者提出了CoT Block，如上图所示，这个结构将上下文信息的挖掘和Self-Attention的学习聚合到了一个结构中。

首先对于输入特征，首先定义了三个变量（这里只是将V进行了特征的映射，Q和K还是采用了原来的X值）。

作者首先在K上进行了kxk的分组卷积，来获得具备局部上下文信息表示的K，（记作），这个可以看做是在局部信息上进行了静态的建模。

接着作者将和Q进行了concat，然后对concat的结果进行了两次连续的卷积操作：

不同于传统的Self-Attention，这里的A矩阵是由query信息和局部上下文信息交互得到的，而不只是建模了query和key之间的关系。换句话说，就是通过局部上下文建模的引导，增强了自注意力机制。
然后，作者将这个Attention Map和V进行了相乘，得到了动态上下文建模的：

最后CoT的结果为局部静态上下文建模的和全局动态上下文建模的 fuse之后的结果。

2.3. Contextual Transformer Networks

CoT的设计是一个统一的自我关注的构建块，可以作为ConvNet中标准卷积的替代品。

因此，作者用CoT代替了ResNet和ResNeXt结构中的3x3卷积，形成了CoTNet和CoTNeXt。

可以看出，CoTNet-50的参数和计算量比ResNet-50略小。与ResNeXt-50相比，CoTNeXt-50的参数数量稍多，但与FLOPs相似。

标签：AI cos latte type

本文共计405个文字，预计阅读时间需要2分钟。

如何使用PaddlePaddle成功复现CoTNet模型？

相关专题：

作者将CoT Block代替了ResNet结构中的3x3卷积，来形成CoTNet，最终在一系列视觉任务（分类、检测、分割）上取得了非常好的性能，此外，CoTNet在CVPR上获得开放域图像识别竞赛冠军。

因此，作者提出了CoT Block，如上图所示，这个结构将上下文信息的挖掘和Self-Attention的学习聚合到了一个结构中。

首先对于输入特征，首先定义了三个变量（这里只是将V进行了特征的映射，Q和K还是采用了原来的X值）。

作者首先在K上进行了kxk的分组卷积，来获得具备局部上下文信息表示的K，（记作），这个可以看做是在局部信息上进行了静态的建模。

接着作者将和Q进行了concat，然后对concat的结果进行了两次连续的卷积操作：

不同于传统的Self-Attention，这里的A矩阵是由query信息和局部上下文信息交互得到的，而不只是建模了query和key之间的关系。换句话说，就是通过局部上下文建模的引导，增强了自注意力机制。
然后，作者将这个Attention Map和V进行了相乘，得到了动态上下文建模的：

最后CoT的结果为局部静态上下文建模的和全局动态上下文建模的 fuse之后的结果。

2.3. Contextual Transformer Networks

CoT的设计是一个统一的自我关注的构建块，可以作为ConvNet中标准卷积的替代品。

因此，作者用CoT代替了ResNet和ResNeXt结构中的3x3卷积，形成了CoTNet和CoTNeXt。

可以看出，CoTNet-50的参数和计算量比ResNet-50略小。与ResNeXt-50相比，CoTNeXt-50的参数数量稍多，但与FLOPs相似。

标签：AI cos latte type