如何使用PaddlePaddle成功复现CoTNet模型?

2026-05-08 03:064阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计405个文字,预计阅读时间需要2分钟。

如何使用PaddlePaddle成功复现CoTNet模型?

相关专题:

作者将CoT Block代替了ResNet结构中的3x3卷积,来形成CoTNet,最终在一系列视觉任务(分类、检测、分割)上取得了非常好的性能,此外,CoTNet在CVPR上获得开放域图像识别竞赛冠军。

  • 因此,作者提出了CoT Block,如上图所示,这个结构将上下文信息的挖掘和Self-Attention的学习聚合到了一个结构中。

  • 首先对于输入特征 ,首先定义了三个变量 (这里只是将V进行了特征的映射,Q和K还是采用了原来的X值 )。

  • 作者首先在K上进行了kxk的分组卷积,来获得具备局部上下文信息表示的K,(记作 ),这个 可以看做是在局部信息上进行了静态的建模。

  • 接着作者将 和Q进行了concat,然后对concat的结果进行了两次连续的卷积操作:

  •        

    • 不同于传统的Self-Attention,这里的A矩阵是由query信息和局部上下文信息 交互得到的,而不只是建模了query和key之间的关系。换句话说,就是通过局部上下文建模的引导,增强了自注意力机制。

    • 然后,作者将这个Attention Map和V进行了相乘,得到了动态上下文建模的 :

           

    • 最后CoT的结果为局部静态上下文建模的 和全局动态上下文建模的 fuse之后的结果。

    2.3. Contextual Transformer Networks

    CoT的设计是一个统一的自我关注的构建块,可以作为ConvNet中标准卷积的替代品。

    因此,作者用CoT代替了ResNet和ResNeXt结构中的3x3卷积,形成了CoTNet和CoTNeXt。         

    可以看出,CoTNet-50的参数和计算量比ResNet-50略小。  与ResNeXt-50相比,CoTNeXt-50的参数数量稍多,但与FLOPs相似。

    本文共计405个文字,预计阅读时间需要2分钟。

    如何使用PaddlePaddle成功复现CoTNet模型?

    相关专题:

    作者将CoT Block代替了ResNet结构中的3x3卷积,来形成CoTNet,最终在一系列视觉任务(分类、检测、分割)上取得了非常好的性能,此外,CoTNet在CVPR上获得开放域图像识别竞赛冠军。

  • 因此,作者提出了CoT Block,如上图所示,这个结构将上下文信息的挖掘和Self-Attention的学习聚合到了一个结构中。

  • 首先对于输入特征 ,首先定义了三个变量 (这里只是将V进行了特征的映射,Q和K还是采用了原来的X值 )。

  • 作者首先在K上进行了kxk的分组卷积,来获得具备局部上下文信息表示的K,(记作 ),这个 可以看做是在局部信息上进行了静态的建模。

  • 接着作者将 和Q进行了concat,然后对concat的结果进行了两次连续的卷积操作:

  •        

    • 不同于传统的Self-Attention,这里的A矩阵是由query信息和局部上下文信息 交互得到的,而不只是建模了query和key之间的关系。换句话说,就是通过局部上下文建模的引导,增强了自注意力机制。

    • 然后,作者将这个Attention Map和V进行了相乘,得到了动态上下文建模的 :

           

    • 最后CoT的结果为局部静态上下文建模的 和全局动态上下文建模的 fuse之后的结果。

    2.3. Contextual Transformer Networks

    CoT的设计是一个统一的自我关注的构建块,可以作为ConvNet中标准卷积的替代品。

    因此,作者用CoT代替了ResNet和ResNeXt结构中的3x3卷积,形成了CoTNet和CoTNeXt。         

    可以看出,CoTNet-50的参数和计算量比ResNet-50略小。  与ResNeXt-50相比,CoTNeXt-50的参数数量稍多,但与FLOPs相似。