Microsoft 开源公布新 AI 模型 针对视觉分析应用而设

Microsoft 开源公布新 AI 模型 针对视觉分析应用而设

Microsoft 的 Azure AI 团队最近在 Hugging Face 上发布了新的基础 AI 模型 Florence-2,支持各种视觉分析应用,可以配合大量使用场景,使企业无需针对单一应用开发各自的模型。

Florence-2 有两个版本(232M 和 771M 参数),可以处理制作字幕、对象侦测、视觉分析和分割等应用,Microsoft 表示,其性能与许多较大规模的视觉模型相当或更好。 这个模型的特别之处在于可以同时支持各种视觉相关的功能,类似于大型语言模型,企业可以用它来一站式解决各种需要。

为了发展 Florence-2,Microsoft 建立了一个名为 FLD-5B 的视觉数据集,其中包含 1.26 亿张图像的 54 亿个注释,并使用序列到序列架构训练 Florence-2。 这个设计集成了图像编码器和多模态编码解码器,使模型能够管理各种视觉应用,而无需针对特定应用进行修改。

Florence-2的表现也相当理想,在COCO数据集上的零镜头字幕测试中,优于Deepmind的80B参数Flamingo模型和Microsoft的Kosmos-2。 Florence-2 的预训练和微调版本现已在 Hugging Face 上提供,而且采用宽松 MIT 授权,也就是可以不受限制地用于一般或商用用途。

(0)
GameNinja88GameNinja88

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注