近来,特斯联首席科学家、特斯联世界总裁邵岭博士及其协作团队宣布最新研讨成果,探究将卷积神经网络(ConvNets)的优势与Transformer架构相结合的并行规划办法。该研讨成果可大规模的使用于多模态学习、图画分类、图画切割、图画检索等场景,并可以有显着效果地提高模型在计算机视觉使命中的功能、供给更佳的灵敏度,改善医疗确诊、无人驾驶等实践场景的感知才能及剖析才能,为深度学习模型的规划供给了全新的思路。现在,这一研讨成果已被AI范畴尖端学术期刊IEEE T-PAMI录入,题为:Dynamic Unary Convolution in Transformers。
现有卷积神经网络架构(A)和Transformer架构(B)以及团队所提出DUCT(Transformer架构中的动态一元卷积神经网络)块比照图。虽然此前的研讨将卷积及Tranformer层以(C)集成,近期的趋势为以块状办法替换Transformer和卷积神经网络(D)。团队所提出的DUCT(E)为并行架构,在块状规划中结合了动态部分增强模块、一元共现鼓励模块和多头自注意力。
当时,关于Transformer架构是否有才能弥补卷积神经网络,尚无切当结论。近期的一些测验经过一系列架构,将卷积与Transformer规划结合起来;而本论文的研讨成果聚集于探究一种并行规划办法。
虽然此前根据Transformer的办法需要将图画切割成块状单元,团队观察到在卷积特征上进行的多头自注意力(multi-head self-attention)主要对大局联系灵敏,而当这些联系没有显现时,多头自注意力功能将会下降。因此,团队提出以两个平行模块以及多头自注意力来增强Transformer。
·提出了一个全新的一元共现鼓励模块(Unary Co-occurrence Excitation, UCE),经过在部分区域间寻觅方位不变的共现联系,增强模型对部分特征的捕捉才能。
团队所提出的动态部分增强模块(DLE)和一元共现鼓励模块(UCE)在不同的计算机视觉使命中的示意图。DLE旨在为卷积(以橙色显现)的重要部分区域分配权重。UCE查找部分区域与其它区域之间的独现联系。这种在特征图层面的共现能轻松完成更高的不变性。DLE、UCE和多头自注意力结合起来,以互补的办法检测部分、中层和大局信息。
并行规划的Transformer架构中的动态一元卷积神经网络(DUCT)块被聚组成一种深层架构,该架构在根据图画的分类、切割、检索和密度估计等根本计算机视觉使命中进行了全面评价。定性和定量成果均标明,团队所提出的具有动态一元卷积的并行Conv-Transformer办法,优于现有的串联规划结构。
DUCT的提出在学术上推进了Transformer和卷积神经网络的交融,在实践使用中亦具有广泛潜在价值,有助于推进计算机视觉技能的开展和立异。在图画分类方面,DUCT可处理图画并将其分类到不同的类别中,这关于图画识别、内容剖析和检索等使命至关重要;在图画切割中,在医学成像、无人驾驶和机器人视觉等范畴,DUCT可辅佐将图画划分为多个区域目标,以便于进一步剖析;在图画检索中,DUCT可用于改善图画检索系统,如经过物体识别来查找特定图画或视频帧;在多模态学习范畴,因为DUCT结合了卷积和自注意力机制,其可使用于处理和剖析多种模态的数据,如图画、文本和音频。
未来,特斯联将进一步夯实其在AIoT范畴的研制技能才能,在完成前沿打破的一起,亦为深化职业的使用发明全新可能性。