手术流分析中的多模态(视觉-语言)自监督问题

less than 1 minute read

Published:

和现在的多模态模型一样(CLIP [1],HowTo100M [6]),这篇论文想通过语言来对视觉表征的学习提供监督信号。详情 cvs