VLLM专题(三十五)—多模态数据处理

为了在vLLM中实现各种优化,例如分块预填充和前缀缓存,我们使用BaseMultiModalProcessor来提供占位符特征标记(例如)与多模态输入(例如原始输入图像)之间的对应关系,基于HF处理器的输出。

以下是BaseMultiModalProcessor的主要特性:

提示更新检测

HF处理器的主要职责之一是使用占位符标记更新提示。例如:

在字符串的开头插入特征占位符标记(例如…,其数量等于特征大小)。

用特征占位符标记(例如…,其数量等于特征大小)替换现有的输入占位符标记(例如表示单个图像)。

关于哪些标记已被更新的信息是找到占位符特征标记与多模态输入之间对应关系的关键。

在vLLM中,此信息通过_get_prompt_updates()中的PromptUpdate指定。我们可以通过检查更新后的标记是否存在来自动检测HF是否已更新提示。

分词后的提示输入

为了支持在单独进程中进行分词,我们允许将输入的分词ID与多模态数据一起传递。

问题

考虑到HF处理器通常遵循以下主要步骤:

  1. 对文本进行分词
  2. 处理多模态输入
  3. 执行提示更新

你可能感兴趣的:(大模型专题系列,人工智能)