20240108 大模型应用快讯

聚焦学术界产业界应用前沿,探索大模型提效赋能现状

  1. 大模型与机器人结合

    由东京大学提出,将GPT-4嵌入仿人机器人Alter3,完成一系列如弹吉他、自拍和扮鬼脸等人类行为。

    关键技术:书面指令转换可执行代码

    由初创公司Figure提出,研制了一个通过观看视频学会煮咖啡的机器人Figure 01,机器人通过神经网络来处理和分析视频数据,然后模仿人类煮咖啡的动作。

    关键技术:多模态大模型、端到端训练

  2. 新框架实现长文本输入和加快推理速度

    由麻省理工提出的StreamingLLM可以增加大模型的上下文长度限制,Colossal-AI团队在此基础上与TensorRT推理优化结合,开源了SwiftInfer,进一步加快推理速度。

    原文:EFFICIENT STREAMING LANGUAGE MODELS WITH ATTENTION SINKS

    论文来源:https://arxiv.org/pdf/2309.17453.pdf

    项目地址:GitHub - hpcaitech/SwiftInfer: Efficient AI Inference & Serving

  3. 代码大模型

    由微软提出,制备了一个包含20000条代码指令微调的数据集CodeOcean,设计了代码大模型WaveCoder。大模型在代码编制过程中发挥的价值值得期待,很有可能促成机器语言->汇编语言->高级语言->自然语言的发展。

    原文:WAVECODER: WIDESPREAD AND VERSATILE ENHANCED INSTRUCTION TUNING WITH REFINED DATA GENERATION.

    论文来源:https://arxiv.org/pdf/2312.14187.pdf

你可能感兴趣的:(迈向人工智能之路,语言模型)