Microsoft 开源公布新 AI 模型针对视觉分析应用而设

GameNinja88 • 2024 年 6 月 21 日 13:03 • 3C数码

Microsoft 的 Azure AI 团队最近在 Hugging Face 上发布了新的基础 AI 模型 Florence-2，支持各种视觉分析应用，可以配合大量使用场景，使企业无需针对单一应用开发各自的模型。

Florence-2 有两个版本（232M 和 771M 参数），可以处理制作字幕、对象侦测、视觉分析和分割等应用，Microsoft 表示，其性能与许多较大规模的视觉模型相当或更好。这个模型的特别之处在于可以同时支持各种视觉相关的功能，类似于大型语言模型，企业可以用它来一站式解决各种需要。

为了发展 Florence-2，Microsoft 建立了一个名为 FLD-5B 的视觉数据集，其中包含 1.26 亿张图像的 54 亿个注释，并使用序列到序列架构训练 Florence-2。这个设计集成了图像编码器和多模态编码解码器，使模型能够管理各种视觉应用，而无需针对特定应用进行修改。

Florence-2的表现也相当理想，在COCO数据集上的零镜头字幕测试中，优于Deepmind的80B参数Flamingo模型和Microsoft的Kosmos-2。 Florence-2 的预训练和微调版本现已在 Hugging Face 上提供，而且采用宽松 MIT 授权，也就是可以不受限制地用于一般或商用用途。