deepseek大模型-初探

引言: 许多专家学者们对深度学习的工具属性日益敏感,并逐步分成了两派,一派觉得深度学习并不可靠,可能用来做一做行业应用尚可,但是对于科学问题的探索并不可靠;另一方面,大模型虽然精准性不足,但是在帮助人们理解和学习新知识以及做一些简单的规划任务上展现出惊人潜力!本博客针对最近爆火的小米创始人雷军引进deepseek主要开发者一事,初步探究了deepseek大模型。

1. 小米AI大模型团队引进事件

根据最近的新闻【1】,雷军也在部署他的大模型团队了。近日,国内AI初创公司DeepSeek发布了新一代大语言模型DeepSeek-V3,同时宣布开源。在多项基准测试中,V3的成绩超越了主流开源模型,并和世界顶尖的闭源模型不分伯仲。同时,由于其极低的训练成本,DeepSeek-V3被称为“AI界拼多多”。据最新发布的技术报告,DeepSeek-V3参数量为671B,激活参数为37B,使用的预训练token量为14.8万亿。其多项评测成绩超越了阿里的Qwen2.5-72B和MetadeLlama-3.1-405B等其他开源模型。此外,其训练成本仅为GPT-4o的二十分之一;售价也低,输入+输出价格约为GPT-4o的十分之一。

博主看了下DeepSeek在其53页的技术论文,论文【2】中提

你可能感兴趣的:(计算机视觉,-,Opencv,强化学习等的,趣味小实验,python,大数据)