MDETR(Modulated Detection for End-to-End Multi-Modal Understanding)详解

发布时间:2021-05-16  栏目:人工智能, 图像处理, 机器翻译, 机器视觉, 深度学习, 自然语言处理  评论:0 Comments

MDETR – Modulated Detection for End-to-End Multi-Modal Understanding

 

介绍MDETR之前需要先介绍DETR(DEtection TRansformer), DETR是一种direct set prediction方法,通过剔除了一些加入先验的方法如spatial anchors和non-maximal suppression等来简化目标检测的流程。其基本结构由标准的卷积核Transformer层组成,不需要额外的定制层(customized layers)。

DETR的主要创新点是结合使用 (non-autoregressive) parallel decoding的方式联合了the bipartite matching loss和transformers。matching loss function可以唯一的将一个预测值分配给一个真值。相对于Faster R-CNN和COCO数据集, DETR目前在大物体上表现更好,但是在小物体上表现还有所欠缺。

matching loss function用到了匈牙利算法(即图论中寻找最大匹配的算法,参考:https://zhuanlan.zhihu.com/p/96229700)。

FFN inside transformers can be seen as 1 × 1 convolutional layers, making encoder similar to attention augmented convolutional networks.

 

参考:

https://zhuanlan.zhihu.com/p/146065711

 

留下评论

You must be logged in to post a comment.

相册集

pix pix pix pix pix pix

关于自己

杨文龙,微软Principal Engineering Manager, 曾在各家公司担任影像技术资深总监、数据科学团队资深经理、ADAS算法总监、资深深度学习工程师等职位,热爱创新发明,专注于人工智能、深度学习、图像处理、机器学习、算法、自然语言处理及软件等领域,目前发明有国际专利19篇,中国专利28篇。

联系我

个人技术笔记

welonshen@gmail.com

2015 in Shanghai