​SAM,CV领域新进展

2024-06-21 01:48 来源:来今网 点击:

SAM,CV领域新进展

本文来自格隆汇专栏:中金研究,作者:于钟海 王之昊 等

2023年4月5日,Meta发布通用的图像大模型Segment Anything Model(SAM),是一个可以接受文本提示、基于海量数据训练而获得泛化能力、可以对任意图片进行分割的模型。基于网络上的大规模数据训练出来的自然语言模型正在革新AI行业,SAM的出现代表计算机视觉领域(CV)出现类ChatGPT突破,通过提示工程可以解决不同的下游分割任务,我们认为CV应用相关产业趋势值得关注。

摘要

SAM实现了图像分割这一计算机视觉领域重要任务,具备多个设计亮点。图像分割的重要性体现在对象识别、对象检测、图像编辑、医学成像、便利下游任务等功能中。SAM融合了提示学习技术灵活地实现模型构建,通过交互注释构建图像引擎,在实例分析、边缘检测、物体提议、文字到掩膜等技术方面表现较好,但在其他项目具有局限性。尽管SAM的数据集已经开源,但仅供研究使用,不可商用。

我们认为SAM有望引领元宇宙概念的再次兴起。我们认为未来算力提升后的SAM模型将实现MR、XR场景下的交互,成为元宇宙和诸多领域在用户交互的基础能力。随苹果MR设备的发布,元宇宙或迎来再次兴起。

技术突破可能带来CV应用的持续渗透。CV能力的增强利好整体CV行业应用的渗透,获得用户的认可与用户支出的倾斜。我们认为未来需要关注CV领域应用,如自动驾驶、安防和智慧城市、家庭用摄像头和机器人、工业质检和工业视觉、MR和XR等,及数据标注、基础算法等其他领域应用。

风险

技术进展不及预期,行业竞争加剧,商业化落地节奏不及预期。

Segment Anything简介

Segment Anything Model(以下简称“SAM”)为Meta最新成果。在这篇论文中,Meta构建了一个可以对任意图片进行分割的模型,并根据模型提供了一个高质量的10亿掩模图片数据集(SA-1B)。

基于网络上的大规模数据训练出来的自然语言模型(“LLM”)正在革新AI行业,其具备较强的零样本学习(Zero-shot)和小样本学习(Few-shot)学习能力,是泛化的通用模型。在自然语言领域,我们已经见证了GPT-4、LLAMA等多个知名模型具备上述的强大能力。但在计算机视觉领域(“CV”),相关的研究较少。CLIP和ALIGN两个将文本和图像连接起来的模型是这一领域亮眼的工作。基于CLIP,OpenAI进一步开发了DALL.E系列模型,将文本提示(“Prompt”)直接转换为图像,Demo如链接:https://c.quk.cc/3/c2/4hd5hnicfr0 cms->SAM模型建立了一个可以接受文本提示、基于海量数据训练而获得泛化能力的图像分割大模型。在SAM基模型之上,通过提示工程后可以解决不同的下游分割任务。根据官方的能力说明,SAM可以完成如下任务:

► SAM允许用户通过单击或交互式单击要包括和排除的点来分割对象。该模型还可以通过边界框提示。

►当面临分割对象的模糊性时,SAM可以输出多个有效的遮罩,这是解决实际分割问题的重要而必要的能力。

►SAM可以自动查找并遮罩图像中的所有对象。

►SAM可以在预计算图像嵌入之后,实时为任何提示生成分割遮罩,从而允许与模型进行实时交互。

图表1:通过鼠标的悬停,可以选中任意一个物体分割出来;或者通过鼠标圈选一个框,可以提取框中的所有物体。

资料来源:MetaAI,中金公司研究部

图表2:使用Everything功能可以直接提取所有的物体,并在cut-outs里面看到它们

资料来源:MetaAI,中金公司研究部

什么是图像分割,为什么要图像分割?

图像分割是计算机视觉中的一项重要任务,它涉及到将图像划分为多个区域或片段,每个区域或片段代表图像的一个有意义的部分。图像分割的重要性主要表现在下列功能上:

► 对象识别:图像分割有助于识别和确认图像中的不同物体。通过将图像分为不同的区段,每个区段都可以被单独分析,从而更容易识别物体和它们的属性。

► 对象检测:图像分割也可以帮助检测图像中的物体,把它们从背景中分离出来。这在自动驾驶等应用中特别有用,自动驾驶汽车需要检测其他汽车、行人和障碍物。

► 图像编辑:图像分割是许多图像编辑任务中的一个重要步骤,如去除物体、颜色校正和图像合成。通过将图像划分为不同的片段,单个片段可以被修改而不影响图像的其他部分。

► 医学成像:在医学成像中,图像分割被用来从医学图像中提取特定结构或潜在病灶存在的区域。这可以帮助诊断、治疗计划和监测各种疾病。

► 便利下游任务:图像分割的下游工作包括物体识别、物体检测、物体跟踪、图像修复、图像分类和许多其他计算机视觉任务。这些任务需要准确和有效的图像分割作为预处理步骤,以便从图像中提取有意义的信息。

Segment Anything Model的设计亮点

SAM的基础架构包含三个关键部分:可提示的分割任务,SAM模型,以及一个超过1100万张照片、超过10亿的掩膜(Mask,指分割出来的结果)的数据集。

图表3:SAM的基础架构包含三个关键部分

资料来源:《Segment Anything》(Kirillov et al., 2023),中金公司研究部

任务定义:SAM融合了提示学习技术——NLP领域已经大规模的使用了提示学习技术,MetaAI团队尝试将NLP领域的提示翻译为文本分割领域的提示。在文本分割领域,MetaAI定义的一个提示可以是一个勾选框、一个点或者自然语言。

模型构建:SAM需要同时满足三个限制:1)灵活的提示;2)实时计算掩膜;3)支持模糊的感知能力。而SAM模型通过一个图像编码器(image encoder)和一个快速提示编码器/掩膜解码器(Fast prompt encoder/mask decoder)更好地解决了这个问题。

SAM具备高效灵活的模型设计。在打开图片使用后,仅需0.15秒可计算出图片的嵌入(Embeddings), 之后在网页上用CPU处理,在0.55秒内即可对文本提示/掩膜进行轻量化的编码/解码。

图表4:SAM具备高效灵活的模型设计

资料来源:MetaAI Blog,中金公司研究部

图像引擎:为了实现模型的强大泛化能力(可以在Zero-shot基础上识别各种物体),SAM的训练需要庞大的分割过的图像数据,然而目前并没有这么丰富的数据集。因此MetaAI建立了一个Data engine。在第一阶段,SAM帮助标注人员来进行掩膜的标注;在第二阶段,训练人员目标于增加物体的多样性,以帮助SAM可以标注各种物体。此时,SAM可以自动标注一批物体,而标注人员只要标注其他的部分即可;在最终阶段,通过在图片上施加一个点组成的矩阵来识别,SAM可以自动在一个图片上平均每张产生~100个高质量的掩膜。

注意,这个模型的训练过程还是需要专业的标注人员。但是通过交互式的注释,在第一阶段一个掩码标注平均只需要14秒时间(比COCO掩码标注快6.5倍)。

图表5:SAM模型进行图像分割的示例,来自SA-1B

资料来源:《Segment Anything》(Kirillov et al., 2023),中金公司研究部

模型训练的成本

模型训练过程中,Meta从一位版权图片提供商处获得了图片,具体的费用未被披露。在训练过程中,Meta使用了256张英伟达A100 GPU训练了68小时,相对成本并不算高昂。

模型的局限性

SAM模型在Zero-shot的点击物体生成对应掩膜(点击一下物体,即可把它提取出来),以及边缘检测、物品发现、实例分割等项目上都有很好的表现。但在Zero-shot文字到掩膜上表现一般,有时候需要人类给一个点的提示,可能表现会更好一些。MetaAI团队在论文中也承认这边的探索仍有更多的工作可以做。

图表6:SAM模型表现较好的项目

资料来源:《Segment Anything》(Kirillov et al., 2023),中金公司研究部

图表7:用文字要求SAM找到雨刷(Wipers),可能会失败;但是如果给一个点的提示,它能够找到一个完整的雨刷,甚至触类旁通找到旁边的雨刷

资料来源:《Segment Anything》(Kirillov et al., 2023),中金公司研究部

SAM模型尽管表现较好,但对于垂类领域的专用模型来说,可能在精度上表现不佳。与此同时,对于一些小的连接件,可能会错误的标注出来。在边缘的精度上,也没有一些算力需求更大的算法那么精细。

图表8:SAM模型将柯基的项圈也分割了出来

资料来源:MetaAI,中金公司研究部

许可和限制

SAM模型本体为Apache 2.0协议,为宽松协议,可商用,可修改。虽然一般Meta都会额外要求不可商用,但我们目前还没看到相关的条款。论文中注明 ,SA-1B数据集在Apache 2.0许可证下开源,但仅供研究使用,项目地址如链接。

图表9:SA-1B数据集不可商用,仅供研究使用

资料来源:MetaAI,中金公司研究部

未来展望:潜在用例和影响

一个识别各种物体的通用CV模型要出现了?

尽管目前SAM模型的文字到掩膜能力尚未臻于完善,但是可能我们距离一个能够识别,并且知道自己识别了什么物体的通用模型是否更近了一步?这可能是有些人认为CV将不存在的原因。

图表10:SAM模型的文字到掩膜案例

资料来源:MetaAI,中金公司研究部

元宇宙概念的再次兴起

算力提升后的SAM模型将成为元宇宙和诸多领域在用户交互上的基础能力。Meta在元宇宙上投入颇丰,我们预计,未来SAM算法有望根据用户的目光跟踪,随时注意到用户正在观察的物体,成为MR、XR场景下非常重要的基础交互能力。若进一步打开想象,当我们手指物体,命令机器人或者摄像头“把那个打开/拿给我”,机器人或者摄像头也能相应理解我们的意思。元宇宙的到来(聚焦于XR和三维化)可能比每个人想象的都快。我们认为,跟随苹果MR设备的发布,元宇宙可能迎来再次兴起的热潮。

CV应用的持续渗透

CV能力的增强,利好整体CV行业应用的渗透,CV的能力越强,相关的应用就能更加的获得用户的认可,获得用户支出的倾斜。可以概括为:有摄像头的场景都可能成为受益场景。在自动驾驶领域,CV应用有利于加速数据标注,加速算法迭代,更快拥抱L5级自动驾驶的诞生。在C端应用领域,将提供更丰富的功能,提升用户粘性和价值。

其他领域

数据标注:SAM的算法对于数据标注行业的影响显而易见,我们预计把握先机的龙头企业将继续凭借R&D优势冲击中小长尾企业。

基础算法:对于CV基础算法企业,来自海外大厂和开源的竞争愈发明显,我们认为行业集中度将逐渐提升,需要关注领先大厂。

MLOps(人工智能研发运营一体化,Machine Learning Operations):旨在统一机器学习系统开发和系统部署,通过标准化过程持续交付高性能模型。随着CV和NLP的发展,MLOps均会受益。

注:本文摘自中金公司2023年4月9日已经发布的《中金前沿论文导读:Segment Anything,CV领域新进展》,报告分析师:

于钟海  分析员 SAC 执证编号:S0080518070011 SFC CE Ref:BOP246

王之昊  分析员 SAC 执证编号:S0080522050001 SFC CE Ref:BSS168

魏鹳霏  联系人 SAC 执证编号:S0080121070252 SFC CE Ref:BSX734

相关文章

​21700动力电池篇,8家动力电芯的收录

​21700动力电池篇,8家动力电芯的收录

21700动力电池篇,8家动力电芯的收录 前言 近年来能源储存成为了新能源领域发展的问题,不少新能源企业为了提高电池包的能量密度,减少电池包内电池的数量,推出了容量更大的2...

​53岁的娃娃再唱李宗盛给她写的《漂洋过海来看你》,听哭了所有人!

​53岁的娃娃再唱李宗盛给她写的《漂洋过海来看你》,听哭了所有人!

53岁的娃娃再唱李宗盛给她写的《漂洋过海来看你》,听哭了所有人! 古典书城 「最受欢迎的古典文化公号 最具人气的古典文化社群 」 国学经典 | 古典文学|诗词歌赋 | 历史趣闻| 风俗...

​杨永信的邪恶,十年前CCTV就纪录了下来

​杨永信的邪恶,十年前CCTV就纪录了下来

杨永信的邪恶,十年前CCTV就纪录了下来 这两天,有一个很久不见的名字上了热搜。 “杨永信” 有网友爆料,官方声称已经关闭了三年的临沂网瘾中心,突然传来一阵孩子的哭叫声,他...

​“胡汉三”走了!那些年,曾家喻户晓的银幕“五大反派”已全部离世……

​“胡汉三”走了!那些年,曾家喻户晓的银幕“五大反派”已全部离世……

“胡汉三”走了!那些年,曾家喻户晓的银幕“五大反派”已全部离世…… “胡汉三”走了…… 据中视协演员工作委员会消息, 八一电影制片厂老艺术家刘江 于5月1日凌晨4时去世,...

​对不起,我没法讨厌钟汉良

​对不起,我没法讨厌钟汉良

对不起,我没法讨厌钟汉良 去年,有一部电视剧改档——《凉生,我们可不可以不忧伤》。 我挺惊讶的。 毕竟一部费劲宣传了半天,也播出了十几集的连续剧,突然撤出黄金档给别的...

​朱令病危,家人追凶30年,还能等来正义吗?

​朱令病危,家人追凶30年,还能等来正义吗?

朱令病危,家人追凶30年,还能等来正义吗? 最近,网上有条#朱令病危#的热搜引发了不少人的注意。 还记得十多年前就看过有关朱令案的报道,印象深刻—— 清华天才少女被下毒,导...

​定了!退休人员基本养老金上调3%

定了!退休人员基本养老金上调3% 记者从人力资源社会保障部了解到,2024 年 1 月 1 日起,为 2023 年底前已按规定办理退休手续并按月领取基本养老金的企业和机关事业单位退休人员提...

​菲律宾单方面提交划界案,中方回应

菲律宾单方面提交划界案,中方回应 每经 AI 快讯,6 月 17 日,外交部发言人林剑主持例行记者会。会上有记者提问,菲律宾外交部 15 日发表声明称,菲方已向大陆架界限委员会提交南...

​警犬被偷?云南瑞丽警方回应“寻狗启事”:真的,是特警大队的

警犬被偷?云南瑞丽警方回应“寻狗启事”:真的,是特警大队的 6 月 17 日,一份 寻狗启事 在网上引发热议。内容显示,寻找的是云南德宏瑞丽的警犬腊门,丢失于 2024 年 6 月 15 日。...

​顾客吃完火锅舌头变黑,楠火锅回应:不存在“亚硝酸盐”问题

​顾客吃完火锅舌头变黑,楠火锅回应:不存在“亚硝酸盐”问题

顾客吃完火锅舌头变黑,楠火锅回应:不存在“亚硝酸盐”问题 近日,浙江杭州一女生发视频称和母亲在楠火锅就餐后舌头变黑,引发关注。6 月 17 日,重庆楠火锅在微博发布事件说明...

​一则寻狗启事称“警犬被偷”,派出所回应:是真的

​一则寻狗启事称“警犬被偷”,派出所回应:是真的

一则寻狗启事称“警犬被偷”,派出所回应:是真的 6 月 17 日,一份 寻狗启事 在网上引发热议。内容显示,寻找的是云南德宏瑞丽的警犬腊门,丢失于 2024 年 6 月 15 日。 据深圳广播...

​记者:姆巴佩鼻子骨折但不会立即接受手术,接下来将佩戴面具

​记者:姆巴佩鼻子骨折但不会立即接受手术,接下来将佩戴面具

记者:姆巴佩鼻子骨折但不会立即接受手术,接下来将佩戴面具 直播吧 06 月 18 日讯 据记者 Andrés Onrubia Ramos 的消息,姆巴佩不会立即接受手术,他已重返球队,接下来将佩戴面具。...

​广东梅州暴雨已致5人遇难、15人失联、13人受困

广东梅州暴雨已致5人遇难、15人失联、13人受困 中新网 6 月 17 日电 据广东省应急管理厅微信公众号消息,广东省防汛防旱防风总指挥部办公室 17 日发布情况通报称,6 月 16 日,受强降...

​韩国200多年前的诸葛亮画像被盗:内容是七擒孟获

​韩国200多年前的诸葛亮画像被盗:内容是七擒孟获

韩国200多年前的诸葛亮画像被盗:内容是七擒孟获 图为韩国失窃的《故事人物画》 海外网 6 月 17 日电 据韩联社 6 月 17 日报道,韩国一副描绘诸葛亮七擒孟获内容的画像被盗,国家遗...

​印度航空一乘客在飞机餐中吃出刀片 航空公司称来自切菜机

​印度航空一乘客在飞机餐中吃出刀片 航空公司称来自切菜机

印度航空一乘客在飞机餐中吃出刀片 航空公司称来自切菜机 印度航空一名乘客在飞机餐中吃出金属刀片(社交媒体截图) 海外网 6 月 18 日电 据印度新德里电视台 6 月 17 日报道,印度...

​国家发展改革委:“双新”资金支持正逐步落实 财政部已拨付64.4亿元支持汽车以

国家发展改革委:“双新”资金支持正逐步落实 财政部已拨付64.4亿元支持汽车以 旧换新 据中国网直播,国家发改委新闻发言人李超今日在新闻发布会上表示,由国家发展改革委牵头,...

​国家电网等8户央企外部董事职务变动

国家电网等8户央企外部董事职务变动 中新经纬 6 月 14 日电 14 日,国务院国资委网站公布 8 户中央企业外部董事职务变动情况。 中国航天科技集团有限公司 经研究,聘任 王政、文利民...

​白蛇:缘起COS:躲过了小白,抗住了小狐狸,却被小青帅哭了!

​白蛇:缘起COS:躲过了小白,抗住了小狐狸,却被小青帅哭了!

白蛇:缘起COS:躲过了小白,抗住了小狐狸,却被小青帅哭了! 现在国产的动画是越做越好了吧,其中就有一个是“白蛇:缘起”,也是受到了很多人的喜欢吧,当然里面的人物也都是...

​婚后“闪离”是否要返还彩礼?法院这样判

婚后“闪离”是否要返还彩礼?法院这样判 现代快报讯(记者 毛晓华)小夫妻结婚仅 5 个月,婚后因家庭琐事产生矛盾,妻子余某来到靖江法院提起诉讼,要求和丈夫祝某离婚。丈夫...

​本草资本领投,赛桥生物完成近2亿元B轮融资

​本草资本领投,赛桥生物完成近2亿元B轮融资

本草资本领投,赛桥生物完成近2亿元B轮融资 来源:猎云网。 近日,CGT 智能制造解决方案提供商赛桥生物完成近 2 亿元 B 轮融资,本轮融资由本草资本领投,弘盛资本跟投,老股东水...

​百年不朽乌本桥 全球最长的柚木桥

​百年不朽乌本桥 全球最长的柚木桥

百年不朽乌本桥 全球最长的柚木桥 缅甸曼德勒城南外11公里处有座横跨东塔曼湖的柚木桥,它就是无数游客必来朝圣的乌本桥。 这座建于1851年,全长1200米的古老木桥全部由柚木铆合而...

​冰火两重天!高温炙烤北方局地可达42度,江南华南等地将迎暴雨

​冰火两重天!高温炙烤北方局地可达42度,江南华南等地将迎暴雨

冰火两重天!高温炙烤北方局地可达42度,江南华南等地将迎暴雨 近期,我国天气出现 两极分化 的局势,高温炙烤北方,而江南华南等地将有暴雨或大暴雨。 北方局地可达 42 度 6 月...

​在银行取款需要派出所同意?吉林银行回应:系防范电诈

​在银行取款需要派出所同意?吉林银行回应:系防范电诈

在银行取款需要派出所同意?吉林银行回应:系防范电诈 6 月 11 日,有网友反映,在吉林省长春市的一家吉林银行取款,被告知需要辖区派出所同意才行。12 日,吉林银行涉事支行以及...

​辽宁省中最穷与最富城市,你猜是哪里?!

​辽宁省中最穷与最富城市,你猜是哪里?!

辽宁省中最穷与最富城市,你猜是哪里?! 每个地区的发展并不是非常的平衡,各个国家之间就有一定的差距,更何况国内的城市呢?辽宁省最近这些年的发展并不是很快,一直属于稳中求...

热门图文

  • ​陕西未来5年铁路规划图(陕西2030铁路规划图曝光)
  • ​四川省德阳市概况
  • ​北美洲的地形特征(北美洲地形特点是什么)
  • ​晋源区属于哪个市(晋源区在太原什么位置)
  • ​东夷少昊族与炎帝(太昊是什么神)
  • ​日本佳子公主简介(日本皇室最美公主佳子近照公开)

热门排行

​惊心动魄!女童被山中野猴抓走民警成功救回

​青海杂多县5.9级地震(青海格尔木市发生4.9级地震)

​圣贤书是指哪些书(人为什么要读圣贤书)

​一分钟了解:除了民主党、共和党,美国还有哪些政党?

​金银铜铁打一城市名(金银铜铁谜语的答案)

​谷歌中国工程师丈夫疑枪杀妻子后自杀,她曾是市高考理科状元

​布鲁塞尔是哪个国家(欧盟总部所在地——比利时首都布鲁塞尔)

​超级血液 硅谷富豪称换血让父亲“年轻” 25 岁

​年末福利大放送!YY年终返场宠粉狂欢

​海外华人分布哪些城市(全球海外华人最多的5个城市,你知道几个?)

​俄卫星通讯企业高管神秘死亡!尸体在家中车库被发现,其所在公司被西方多国制

​华南理工大学图书馆图(他们尽展华南理工大学之美)

​撸网贷、修车、团饭,自甘堕落的三和大神在城市角落里发霉

​霉霉赛琳娜闹翻3年首同台,往日恩怨已化解,是真闺蜜还是博眼球

​又一家!宣布解散

​都说冬至吃饺子去哪吃 都说冬至要吃饺子 但没人告诉我去哪里吃

​著名演员周海媚去世,年仅 57 岁

​电脑打字正确手指位置

​太原市第二十七中学校-2020年招生简章

​世界预言家有哪些人(全世界5大著名预言家,对2022年做出11大预言,他们说的可

​杨颖申请强制执行

​乌鲁木齐亚欧国际会展中心(乌鲁木齐国际机场多措并举保障第七届)