python 使用microsoft-Florence-2-base进行图片描述生成

目录

一、Florence-2简介

二、代码实践

三、多语言模型


一、Florence-2简介

Florence-2是一个先进的视觉基础模型,采用基于提示(prompt)的方式,处理广泛的视觉和视觉-语言任务。Florence-2能够解析简单的文本提示,执行如图像描述、物体检测和分割等任务。该模型利用FLD-5B数据集,该数据集包含54亿个注释,涵盖1.26亿张图像,用于掌握多任务学习。模型的序列到序列架构使其在零-shot和微调设置下都能表现出色,证明它是一个具有竞争力的视觉基础模型。

二、代码实践

由于 microsoft-Florence-2-base 模型是英文预训练的,它的输出默认为英文。我的做法是通过谷歌翻译,把英文转成中文。

import torch
from PIL import Image
from transformers import AutoProcessor

你可能感兴趣的:(AI,大语言模型实战,python,microsoft,开发语言)