20240107 大模型应用快讯

聚焦学术界产业界应用前沿,探索大模型提效赋能现状

  1. 通过语音生成面部表情和肢体动作

    由Meta和加州大学伯克利分校提出,通过多模态大模型采集对话者的语音,模拟生成其眼神、嘴型和手势等动态图像,提升远程通话的沟通质量。

    关键技术:多模态大模型、扩散模型、矢量量化

    原文:From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations

    论文来源:https://arxiv.org/pdf/2401.01885.pdf

    项目地址:From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations

  2. 适用于精准推理的加速框架

    由支付宝提出,基于检索增强的大模型推理架构,通过多分支序列输出策略,在精确生成的前提下显著提升推理速度。

    关键技术:Trie树、检验-接受

    原文:Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy

    论文来源:https://arxiv.org/pdf/2312.12728.pdf

    项目地址:https://github.com/alipay/PainlessInferenceAcceleration

  3. 评估多语言任务导向系统工具集

    由剑桥大学提出,用于开发和评估多语言任务导向系统,其中任务导向系统指的是模拟人类用户和系统代理之间的交互,可作为酒店预订和特定领域问答等助手,是大模型应用方向之一。

    优势:①一个安全、用户友好的网络界面,用于在当地话语层面和全球对话水平进行细粒度的人工评估;②基于微服务后端,提高效率和扩展性。

    原文:Task-oriented dialogue (TOD) systems are de- signed to model interactions between human users and system agents, focusing on accomplishing spe- cific, predefined tasks such as assisting with ho- tel or restaurant bookings, or providing domain- specific FAQ information 

    论文来源:https://arxiv.org/pdf/2401.02208.pdf

你可能感兴趣的:(语言模型)