新闻中心

米乐M6动态

当前所在位置：米乐M6动态

M6米乐手机登录APP入口.SAM图像分割大模型在遥感领域介绍（一） SAM模

来源：米乐M6网页版登录入口作者：米乐m6登录米乐平台　日期：2024-05-10 01:09:08 　人气：1

M6米乐手机登录APP入口

　　ChatGPT作为通用人工智能大模型，广为人知。它的出现普及了大模型的概念，并推动了大模型的发展及业务应用落地。然而，尽管ChatGPT是通用模型，但它并非万能的，在专业领域仍需要领域专用的大模型来解决相关问题。举例来说，交通领域需要交通大模型来优化出行体验，而未来各个行业也将会出现各自专用的大模型来应对相应的挑战。

　　Segment Anything Model (SAM) 是由 Meta 开源的图像分割大模型，在计算机视觉领域 (CV) 取得了的新突破。SAM 可以在不需要任何标注的情况下，对任何图像中的任何物体进行分割。SAM 的开源引起了业界的广泛反响，仅几天内就获得了上万的关注（Star），被称为计算机视觉领域的 GPT。

　　SAM 的工作非常出色，其完成度极高，也非常贴心地开源了数据集、模型以及推理/部署代码。此外，他们还开发了一个网站演示，可以直观地展示这项工作给视觉基础模型领域和分割领域带来的巨大影响。

　　目前官方的 demo 支持交互式标注，可以通过画框、鼠标点击来获取分割的区域，此外还可以一键分割一切，轻轻点一下，将分割结果实时展示出来，对不太确定的类别提供了多个有效的区域。

　　SAM已经学会了物体的一般概念——这种理解使得它能够对不熟悉的物体和图像进行零样本泛化，而无需进行额外的训练。

　　为了训练 SAM，研究人员收集了一个目前最大的分割数据集 SA-1B，这个数据集也开源了。大概有 1000 个子压缩包，每个压缩包 10G，完整的数据集大约 10T 左右。数据集包含 1100万图像和 11亿个 mask。当然，这么大的数据集不可能是手动收集标注的。SA-1B的收集主要分成了三步：

　　用来对输入图像做 embedding，参数量比较大，但是对同一张输入图像只需要计算一次 embedding，对于不同的 prompt 可以重复使用 image embedding，从而降低推理压力。

　　自动抠图软件、自动标注、证件照处理等应用的开发门槛降低，端侧开发工程师有更多的机会开发小的应用。

　　提升 CV 界整体水位SAM给CV提供了很好的平台，将会让许多原先不太容易做的下游任务成为可能。SAM 做了图像分割的基础工作，推动更多应用层

　　从医学影像中提取临床相关信息。例如，放射学家可以使用机器学习来增强分析，通过将图像分割成不同的器官、组织类型或疾病症状。这可以减少运行诊断测试所需的时间。

　　ONNX代表Open Neural Network Exchange（开放式神经网络交换）。它是一种用于表示机器学习模型（特别是神经网络模型）的开放格式，旨在提供不同深度学习框架之间的互操作性。ONNX使得在流行的深度学习框架之间交换模型成为可能，例如TensorFlow、PyTorch等。

　　ONNX Runtime是一个开源的运行时引擎，用于加载、优化和执行使用ONNX格式表示的机器学习模型。它旨在提供高性能、跨平台的推理（inference）支持，并支持在多种硬件加速器上进行部署。

　　ONNX Runtime Web是ONNX Runtime的一个特殊版本，专门为在Web浏览器中执行ONNX模型而设计。它使开发人员能够在客户端环境中直接加载和运行使用ONNX格式表示的机器学习模型，而无需依赖于远程服务器或云服务。

　　SAM 模型提供了 ONNX 格式模型导出能力，因此在前端侧可以模型推理分割，开发体验更好的图像应用。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

上一个：医学成像(影像)技术类型及其原理

下一个：智源人工智能研究院发布SegGPT：一键分割图像与