本篇文章5084字,读完约13分钟

机械之心专栏作者:廖胜才阿拉伯联合酋长国起源人工智能研究院( iiai )的科学家提出了一种可以解释和泛化的行人再认识方法,通过查询图的自适应卷积和相似度的时间序列提升,该方法的预训练模型没有迁移学习而是market -。 相关论文是通过eccv收到的 (注:本论文的迁移学习是指行人再认识行业的单模场景之间的迁移学习。 论文地址: arxiv/abs/1904.10424代码地址: github/shengcailiao/qaconv轮廓基于现有深度学习的行人再识别方法首先关注单一图像的特征学习,训练的模型被固定 因此,迁移学习被大量研究,用于提高模型在新场景中的适应性,但其代价是与特定场景的应用相比需要深入的学习训练。 因此,本论文针对实用化、开箱后的行人再认识进行了重要的研究。 具体而言,除了特征学习之外,越来越考虑在匹配的两张图像的深度特征地图上直接进行点对点的图像匹配。 因此,在本论文中,根据查询图的深度特征图实时生成新的卷积核,对注册图的深度特征图进行卷积和全球最大池化,实现图像对应点匹配的查询自适应卷积( qaconv ) 这样,这种匹配过程和结果可以说明(图1 ),这种显式匹配比特征学习更容易泛化到未知的错位、姿势、视角变化等未知场景。 图1:qaconv局部对应点匹配示例为了对qaconv执行比较有效的端到端训练,本文对各级新样本的深度特征图进行缓存,计算图像匹配的损失函数,进行测量学习的类存储 通过直接交叉库测试,本文提出的qaconv方法大大超过了主流分类/测量学习方法( 10%+ map ),无需迁移学习就可以超过过去两年的大部分迁移学习方法。 另外,提出了基于不依赖于模型的时间共现的相似度得分加权方法,称为时间提升( temporal lifting,tlift )。 这种方法进一步提高了结果,达到了目前最好的跨库行人再识别性能。 研究动机的面部识别是当今计算机视觉行业最成熟的技术之一 这一方面是大量的标记数据训练,另一方面也取决于基于此的应用便利性:用大量的数据离线训练模型后,可以将模型应用于大量的未知场景,不需要迁移学习。 这种应用模式称为“打开箱子马上使用”。 但是,行人的再认识并不那么幸运 这是因为这个任务本身多且有复杂性,与越来越多的变化因素和困难有关。 另一方面,现在也有很多标记训练数据不足,面部识别的训练数据规模只在海上叹息,不是一位数。 因此,在稍微主流的数据库中行人再次认识的性能似乎达到了天花板,处于充满活力的态势,但真正以打开箱子马上使用为目标,以我们多年前提出的直接交叉库测试为判断基准,现在的做法是性能差 许多研究者很早就意识到交叉库测试这个问题,为此提出了迁移学习作为处理方案,目前这正在向行人再认识的常见研究方向迅速发展,同时在最近一年进展特别快,交叉库测试的性能指标显着 但是,该应用模式不是开箱用的,需要在各个应用场景中收集数据进行深度学习训练。 在这种情况下,不需要人工标记数据,但依然需要时间和精力。 在这里,需要进一步明确应用模式。 在多摄像机跟踪中,是24小时不间断的智能视频监视,其应用模式是实时在线的。 这种情况下,迁移学习如果效果显着,依然可以利用,因为深度学习再训练的成本对于24x7的长时间应用没有必要在意。 但是,行人再识别的做法和模型可以成为多摄像机跟踪中相似度匹配的基础,但行人再识别的更广泛应用是刑事搜查的手段,发生事件时需要阅览视频,行人再识别比较有效地排除故障 在这种情况下,打开箱子马上使用是特别重要的,特别是在阅览的视频广泛分布的情况下,根据地方不同,视频要求更深的学习训练的话,时间一定不够。 在此背景下,研究了可泛化且开箱即可使用的行人再认识。 关于泛化,让我们先从卷积开始 卷积可以理解为模板匹配的过程。 那个卷积内核是模板。 此模板可以像以前传输的差分滤波那样用于边缘检测,也可以像cnn那样学习。 卷积核一般是局部模板,卷积操作在全图中滑动该模板,得到的输出在图像各处是对该模板的匹配响应,大的响应表示良好的局部匹配。 因此,在深度卷积神经网络中,学习的卷积核参数非常重要,因为它决定了该互联网要寻找什么样的模式。 但是,当训练在一组数据中完成时,cnn的卷积核是固定的,只代表了关于训练数据硬化的记忆。 如果应用场景与训练场景不同,则有可能无法响应cnn学到的固定卷积核从未见过的图像模式(颜色、纹理等),通用性不充分。 在图像分类中,可以看作输入图像和学习过的模型的匹配,模型只能评价已知的类别,所以只针对1张输入图像。 但是,图像匹配任务不同,与一对输入图像相关联,一般是开放式的问题,测试的图像一般是面部识别和行人再识别等新的未知类。 但是,大部分现有的做法没有直接考虑匹配的两张图像之间的关系。 它们依然将图像匹配作为图像分类制作,独立处理各图像,但放弃分类器,使用学习的模型从中提取固定的特征表现。 然后,图像匹配对两个特征矢量简单地应用以前传递的距离测量,如欧式距离和余弦距离,忽略了两个图像的实际副本之间的直接关系。 因此,在特征学习的基础上,提出了查询图的自适应卷积qaconv,根据查询图的深度特征图实时生成新的卷积核,对登记图的深度特征图进行卷积和全局最大池化,实现图像对应点匹配 与基于自我观察的动态卷积不同,qaconv是图像匹配的方法,可以说明匹配过程和结果,另外,这种显式匹配比特征学习更被泛化为未知的位置偏移、姿势、视角变化等未知场景, 另外,tlift的研究动机是相机互联网中的时空结构对相机间匹配有很好的制约作用。 但是,现有定时限制方法一般需要估计不同照相机间的迁移时间模型,但这样具有多样性的行人迁移模式和许多复杂的迁移时间分布,例如在market-1501中同一个体很容易在同一场景中出现多次 因此,本文提出了不依赖于模型的tlift方法,通过同一照相机中的共现关系制约,避免了照相机间的迁移时间推定。 其中心想法是,靠近一台照相机下面的人很可能在另一台照相机下面也靠近。 这样,这些邻居就可以在另一台照相机下参考相应的行人,加权举起其附近的其他人。 这里的重要区别是相机之间通过相似度匹配而相关,不是现有方法带来的过渡时间。 另外,因为tlift也可以直接计算,所以没有必要预先对迁移时间进行统计学习模型化。 如图2所示,查询图自适应卷积的基本想法是,为了匹配查询图和注册图,首先将它们输入到主干网,得到特征图,将特征维进行l2标准化。 然后,在查询图特征图的各位置卷积固定尺寸的局部块,作为核提取 这是查询图的自适应卷积核,其参数是根据查询图的特征图实时构建的。 因为这与固定训练的卷积核不同。 而且,实时构筑的卷积核在注册图的特征图上进行卷积(可以看作模板匹配),为了寻找通过全球最大池化而响应最大的局部匹配, 这样,通过两张图像的交叉卷积,可以找到他们的局部对应点,相应地进行可视化。 图2:qaconv图像互联网结构qaconv培训时的互联网结构如图3所示,骨干互联网、qaconv模块、类内存模块、全球最大池化( gmp )、bn-fc-bn 其中,类别记忆模块是用于在训练阶段协助度量学习的,在测试阶段该模块被替换为注册图的特征图。 bn-fc-bn模块将所有本地匹配结果集成到相似度度量中,反映成对的输入图像是否来自同一类别。 这里,两个bn层被采用来标准化相似度输出,在训练时稳定梯度。 图3 :为了训练qaconv互联网结构类的记忆和更新qaconv图像匹配模型,需要形成足够的训练图像对 虽然在mini batch中形成图像对进行训练是很自然的想法,但由于图像对数量是训练图像数量的平方级,因此在整个组合空间中的采样效率非常低。 因此,提出了支持qaconv模型端到端训练的类内存模块。 具体地说,在互联网训练时将一个缓存注册为存储池,每个类别允许存储最近训练的这种样本的特征图。 这样的qaconv卷积每次都匹配所有类别,计算相应的损失,从而提高训练效率。 损失函数计算完成后,每个mini batch的示例都将更新到相应类的内存块中,并以直接替代的方式更新。 这里也可以使用移动平均法进行更新,但直接替代比较好是因为理由可能来自两方面。 另一方面,直接替代的话,存储池反映了现在互联网的最新状态,减少了滞后。 另一方面,由于qaconv需要匹配两张图像的局部细节,因此移动平均会使局部细节变得平滑。 这对局部匹配不利。 损失函数在bn-fc-bn模块后,使用sigmoid函数将相似度得分映射到[ 0,1 ]区间,计算了二值交叉熵损失。 由于负样本远多于正样本对,为了平衡样本分布,在线发掘疑难病例样本,使用focal loss对损失进行了加权。 定时举高tlift定时举高的基本假设是走在一个照相机下面的人正在接近,在另一个照相机下面还很可能在接近。 例如图4所示,这里a是查询图,但在另一照相机中,视场角关系e比作为与a相同个体的a’更像a。 这时,b和c是和a一起走在附近的人,他们在别的照相机下搜索到的b’和c’此时可以作为a’的参考,提高a’的匹配得分。 因为a’是b’和c’在附近走的人。 相反,e的匹配得分会下降,因为b’和c’这样的邻居没有参照。 图4:tlift定时提升图像这是tlift定时提升的基本想法。 正式的定式化定义可以参考原论文 由此,可以提高参考人附近的正确匹配,抑制远离参考人但表象相似的难例负样本,提高检索的精度。 有趣的是,tlift也是根据查询图实时计算的,不需要事先统计学习迁移时间模型。 因此,tlift不需要训练数据,可以直接适用于大部分现有的步行者再识别手法。 实验结果在直接交叉库测试的指南下,我们首先就常见的分类学习方法和损失函数,如表1所示,可以看出qaconv大幅度提高。 论文附件进一步对triplet loss等越来越多的损失函数,结论类似。 因此,我们发现qaconv的显着提高不是单纯的损失函数的改善,而是其匹配机制的变化。 表1 :学习方法/损失函数其次,稍后的解决方法如表2所示。 同样,可以看出,tlift的导入大幅度提高了行人再认识的性能。 其中,对做法的tfusion是根据迁移时间分布进行模型化的,在market-1501数据库上的表现不太理想,有可能是由于该库上的很多复杂的迁移模式。 tlift避免了迁移时间的估计。 因为这更稳定。 表2 :后期解决方案最后,在market-1501、dukemtmc-reid、cuhk03、msmt17中现有的迁移学习及其baseline的性能如表3和表4所示。 qaconv大大超过了许多迁移学习的baseline,可以看到它本身超过或接近了近年来的一点迁移学习方法,特别是msmt17的数据训练。 通过添加tlift,可以以更少的时间成本超过迁移学习的性能。 有趣的是,qaconv使用了开箱即可使用的模式,不使用目标数据再训练,排序和tlift定时的提升是实时计算的,也不需要训练。 因此,本文提出的方法比迁移学习更适合配置在实用的中央部。 表3:market-1501和dukemtmc-reid性能表4 :对4:cuhk03和msmt17的性能结语的许多实验表明,qaconv的开箱用模型潜在地具备更好的泛化能力,优选在没有迁移学习的情况下直接采用 qaconv也可以作为迁移学习方法的更好的预训练模式,但考虑到实际应用程序的诉求,这是类似于msmt17中注意到的效果的大数据训练。 二是大型网络培训再蒸馏。 第三,使用排序和时间序列的举止进行比较有效的后解决,实际上计算能力比迁移学习更有效率。 作者简介廖胜才,中国科学院自动化所博士,曾任副研究员,现为阿拉伯联合酋长国起源人工智能研究院lead scientist,ieee高级会员。 做有趣的研究分解行人和脸 amazon sagemaker是完全托管的服务,允许开发者和数据科学家快速构建、训练和部署机器学习模型。 sagemaker完全消除了机器学习过程中每一步的繁重劳动,使优质模型的开发变得更简单。 现在公司的开发者可以免费领取1000元的服务扣除券,轻松拿到amazon sagemaker,迅速体验5个个人劳动智能的应用例子。 © the end转载: content@jiqizhixin原标题:“eccv |再见,迁移学习? 阅读可解释和泛化的行人再认识”原文

来源:印度时报中文版

标题:热门:ECCV 2020

地址:http://www.yqjqqwc.cn/ydxw/24837.html