《MuKEA如何实现基于知识的视觉模态知识提取与累积？》

2026-05-17 03:180阅读0评论SEO问题

内容介绍
文章标签
相关推荐

本文共计2233个文字，预计阅读时间需要9分钟。

：CVPR 2022论文：基于知识的视觉问答的多模态知识提取与累积

来源：CVPR 2022链接：https://arxiv.org/abs/2203.09138

摘要：本文提出了一种基于知识的视觉问答的多模态知识提取与累积方法。该方法通过融合多种知识源和视觉特征，实现对视觉问答任务的高效解决。具体来说，本文首先从多个模态中提取关键信息，然后利用知识提取技术进行信息整合，最后通过累积策略优化知识表示，提高视觉问答系统的性能。实验结果表明，该方法在多个视觉问答数据集上取得了显著的性能提升。

来源：CVPR 2022

标题：基于知识的视觉问答的多模态知识提取与积累

来源：CVPR 2022arxiv.org/abs/2203.09138
代码：github.com/AndersonStra/MuKEA

一、问题提出

一般的基于知识的视觉问答（KB-VQA）要求具有关联外部知识的能力，以实现开放式跨模态场景理解。

现有的研究主要集中在从结构化知识图中获取相关知识，如ConceptNet和DBpedia，或从非结构化/半结构化知识中获取相关知识，如Wikipedia和Visual Genome。虽然这些知识库通过大规模的人工标注提供了高质量的知识，但一个局限性是，它们从纯文本的知识库中获取相关知识，这些知识库仅包含由一阶谓词或语言描述表示的事实，因此这种知识库很难表示高阶谓词和多模态知识，而这些知识是回答复杂问题所必需的，所以现有的模型无法很好的进行视觉理解。

如何为VQA场景构建与视觉相关且可解释的多模态知识的研究较少。

阅读全文

标签：论文阅读《MuKEA Multimodal