MDETR(Modulated Detection for End-to-End Multi-Modal Understanding)详解
发布时间:2021-05-16 栏目:人工智能, 图像处理, 机器翻译, 机器视觉, 深度学习, 自然语言处理 评论:0 Comments
MDETR – Modulated Detection for End-to-End Multi-Modal Understanding
介绍MDETR之前需要先介绍DETR(DEtection TRansformer), DETR是一种direct set prediction方法,通过剔除了一些加入先验的方法如spatial anchors和non-maximal suppression等来简化目标检测的流程。其基本结构由标准的卷积核Transformer层组成,不需要额外的定制层(customized layers)。
DETR的主要创新点是结合使用 (non-autoregressive) parallel decoding的方式联合了the bipartite matching loss和transformers。matching loss function可以唯一的将一个预测值分配给一个真值。相对于Faster R-CNN和COCO数据集, DETR目前在大物体上表现更好,但是在小物体上表现还有所欠缺。
matching loss function用到了匈牙利算法(即图论中寻找最大匹配的算法,参考:https://zhuanlan.zhihu.com/p/96229700)。
FFN inside transformers can be seen as 1 × 1 convolutional layers, making encoder similar to attention augmented convolutional networks.
参考:
https://zhuanlan.zhihu.com/p/146065711
留下评论
You must be logged in to post a comment.
近期评论
- Pika发表在《莫里斯蠕虫(Morris Worm)》
- Pika发表在《多组学科研分析》
- crisy发表在《最近关于专利的一点感想》
- walter发表在《机器学习基础知识回顾-马尔科夫过程(Markov Process)》
文章归档
- 2024年3月
- 2024年2月
- 2023年12月
- 2023年11月
- 2023年10月
- 2023年9月
- 2023年8月
- 2023年7月
- 2023年6月
- 2023年5月
- 2023年4月
- 2023年3月
- 2023年2月
- 2023年1月
- 2022年12月
- 2022年11月
- 2022年9月
- 2022年8月
- 2022年7月
- 2022年6月
- 2022年5月
- 2022年3月
- 2022年2月
- 2022年1月
- 2021年12月
- 2021年11月
- 2021年10月
- 2021年9月
- 2021年8月
- 2021年7月
- 2021年6月
- 2021年5月
- 2021年4月
- 2021年2月
- 2021年1月
- 2020年12月
- 2020年11月
- 2020年10月
- 2020年8月
- 2020年7月
- 2020年6月
- 2020年5月
- 2020年4月
- 2020年3月
- 2020年2月
- 2019年7月
- 2019年5月
- 2019年3月
- 2019年1月
- 2018年6月
- 2018年5月
- 2018年4月
- 2018年3月
- 2018年2月
- 2017年11月
- 2017年7月
- 2017年6月
- 2017年5月
- 2017年3月
- 2016年12月
- 2016年11月
- 2016年10月
- 2016年9月
- 2016年8月
- 2016年7月
- 2016年6月
- 2016年5月
- 2016年4月
- 2016年3月
- 2016年2月
- 2016年1月
- 2015年12月
- 2015年11月