在深入实践之前,理解大模型的基础理论是关键。大模型,通常指具有海量参数的深度学习模型,其核心优势在于强大的特征提取与模式识别能力。以 Transformer 架构为基础,它打破了传统循环神经网络(RNN)在处理长序列数据时的局限性,通过自注意力机制(Self-Attention),让模型能够同时关注输入序列的不同部分,极大提升了对上下文信息的理解能力。
架构类型 |
处理长序列能力 |
并行计算能力 |
上下文理解能力 |
循环神经网络(RNN) |
有限,存在梯度消失 / 爆炸问题 |
低 |
较弱 |
长短期记忆网络(LSTM) |
有所改善,但仍受限 |
较低 |
一般 |
Transformer 架构 |
强 |
高 |
强 |
DeepSeek 正是基于 Transformer 架构进行优化,通过动态路由机制,将 670 亿参数拆分为多个功能化子网络,即混合专家架构(MoE)。在处理复杂任务时,该架构可自动识别输入特征,仅激活 3 - 5 个最相关的专家模块,在保持模型规模的同时,将计算资源消耗降低至原有密集架构的 30% 以下,显著提升了处理效率与准确性。
电脑端:
处理器:多核心处理器是标配,四核及以上为佳。在处理大规模数据和复杂模型运算时,多核心能够并行处理任务,大幅缩短运算时间。例如,在训练一个中等规模的语言模型时,四核处理器相比单核处理器,训练速度可提升数倍。
GPU:高性能 GPU 不可或缺,如英伟达系列且支持 cuda 加速。以 DeepSeek 模型训练为例,配备英伟达 RTX 40 系列 GPU,借助其强大的并行计算能力,可使训练速度提升数倍,同时支持 FP8 混合精度计算,有效降低显存占用达 40%。
内存:16GB 及以上内存是保障系统流畅运行的基础。在处理大型模型和大量数据时,充足的内存可避免因内存不足导致的程序卡顿甚至崩溃。若进行复杂的多模态数据处理,32GB 甚至更高的内存配置将更具优势。
硬盘:预留至少 50GB 固态硬盘空间。模型文件、训练数据以及运行过程中产生的临时文件都需要大量的存储空间。并且,固态硬盘的高速读写特性能够加快数据的读取与存储速度,提升整体运行效率。
操作系统:Windows 10 或更高版本、macOS 10.15 或更高版本,以及 Linux(推荐 ubuntu 18.04 及以上)均能满足需求。不同操作系统在软件兼容性和性能表现上略有差异,可根据个人使用习惯和开发需求进行选择。
手机端:确保为 iOS 或安卓主流版本,并具备足够的存储空间,以保证 DeepSeek 应用的顺利安装与稳定运行。
编程语言与框架:Python 是大模型开发的首选语言,其丰富的库和简洁的语法极大地降低了开发难度。同时,需安装 cuda 工具包,为 GPU 加速提供支持。此外,深度学习库如 tensorflow、pytorch 等也是必备,它们为构建和训练大模型提供了丰富的工具与函数,如在使用 pytorch 搭建神经网络模型时,可利用其简洁的 API 快速定义模型结构、设置优化器和损失函数等。
DeepSeek 相关软件:
网页端:打开常用浏览器,在地址栏输入 DeepSeek 官网网址 “DeepSeek”,即可直接进入网页版,无需下载安装,只要网络稳定,就能随时使用,十分便捷。
手机 APP:
iOS 系统:打开苹果 App Store,在搜索栏中输入 “deepseek - r1” 或 “深度求索”,找到官方应用后点击下载并安装。
安卓系统:可以在华为应用商店、小米应用商店等各大安卓应用市场,搜索 “deepseek” 进行下载;也能通过 DeepSeek 官网获取安装包,完成下载后,按照系统提示进行安装操作。安装时务必认准开发者名称 “深度求索” 或 “deepseek”,防止下载到山寨应用。
本地部署(以 Windows 系统通过 Ollama 部署 DeepSeek - R1 为例):
下载 Ollama:打开浏览器搜索 ollama,点击右上角 “Download” 按钮,根据系统版本下载安装包。下载完成后,双击安装文件,依照安装向导的提示,完成安装操作。安装完成后,在终端(如 Windows 的命令提示符)输入【ollama - v】,若显示版本信息,则说明安装成功。
下载模型:在终端输入【ollama run deepseek - r1】,即可下载默认 7B 参数规格模型。倘若需要下载其他参数规格的模型,比如 14B 模型,可输入【ollama run deepseek - r1:14b】 。
开启聊天:模型下载完成后,在终端出现【>>> 】符号后,即可在其后输入问题、指令等内容,开始与 DeepSeek 进行交互。
网页端注册:进入 DeepSeek 官网后,点击页面右上角的 “注册 / 登录” 按钮。按照提示填写手机号或邮箱,设置密码,完成相关验证步骤,即可成功注册并登录,免费使用基础功能。若想体验部分高级功能,可能需要额外付费。
手机 APP 注册:打开安装好的 DeepSeek app,在登录界面点击 “注册” 选项。若选择手机号注册,输入手机号码,接收并填写验证码,然后设置密码;若使用邮箱注册,填写邮箱地址、设置密码并完成邮箱验证。另外,也支持微信快捷登录,点击微信登录按钮,按照提示授权即可完成登录。
大模型种类繁多,不同模型在架构、参数规模、应用场景等方面存在差异。以 DeepSeek 为例,其具备多种模型版本,如 R1、V3 等。R1(671B 满血版)参数规模庞大,在逻辑推理、代码生成等高复杂度任务上表现卓越,适用于专业领域的深度分析与开发;V3 则针对通用对话场景进行优化,能够更好地满足日常交流、智能客服等场景的需求。
模型版本 |
参数规模 |
擅长领域 |
适用场景 |
R1(671B 满血版) |
6710 亿 |
逻辑推理、代码生成、复杂数据分析 |
科研项目、软件开发、专业咨询 |
V3 |
适中 |
通用对话、文本生成、简单问答 |
智能客服、日常交流、内容创作辅助 |
Qwen32B 蒸馏版 |
相对较小 |
轻量级任务、对响应速度要求高的场景 |
移动设备端应用、快速查询类功能 |
在选择模型时,需依据自身需求与任务特点进行判断。若从事科研工作,需要处理复杂的逻辑推理和数据分析任务,R1 版本可能更为合适;而若只是用于日常的信息查询和简单的文本交互,V3 或 Qwen32B 蒸馏版便能满足需求。
高质量的数据是大模型发挥性能的关键。数据的质量、规模和多样性直接影响模型的训练效果。在准备数据时,首先要明确数据来源,可从公开数据集、自有业务数据等渠道获取。例如,在构建一个行业专属的智能体时,除了使用公开的通用数据集进行预训练,还需收集大量该行业的专业文档、案例数据等,以增强模型对行业知识的理解。
数据预处理也是不可或缺的环节,包括数据清洗、标注、分词等步骤。数据清洗用于去除数据中的噪声、重复数据和错误信息;标注则根据任务需求,为数据添加相应的标签,如在情感分析任务中,标注文本的情感倾向(积极、消极或中性);分词是将连续的文本序列拆分成独立的词汇单元,以便模型进行处理。以中文文本处理为例,可使用 jieba 等分词工具进行分词操作。
如果大家在深度学习过程中显卡资源不够用,需要租GPU云服务器,可以从性价比、易用、稳定三个方向来找。 七月份易嘉云平台yijiacloud.com.cn,有活动可以免费使用算力,新用户注册给50算力金,够跑24小时4080,需要的话可以去薅。
操作步骤:
登录百宝箱智能体开发平台(tbox.alipay.com),点击 “使用专业版”。此时在 “应用广场”,能看到百宝箱新增 DeepSeek R1 和 V3 等模型的温馨提示。
点击 “新建应用”,可创建 “对话型” 应用,填写应用的 “名称” 和 “功能介绍” 后,点击 “确定”。
在应用的编辑页面选择 DeepSeek R1 满血版,同时也可根据需要选择其他模型。完成这一步后,就可与自己的智能体开始对话。由于选择的是 DeepSeek - R1 满血版,每次提问都能看到思维链,它体现了模型的思考过程(思维链默认展开,也可点击收起),完成思考过程后,智能体再给出正式回答。构建完智能体之后,还能通过右上角的 “发布”,一键发布到支付宝小程序等平台。
若想让智能体实现联网功能,可选择新建 “工作流” 应用。然后插入 “文本大模型” 节点,在 “模型选择” 中选择 DeepSeek R1 满血版(也可切换其他模型)。先将 “工作流” 切换为 “对话” 模式,“文本大模型” 节点生成搜索关键词,“插件” 节点 “夸克搜索” 按关键词进行查询,然后将搜索得到的结果,放入到 DeepSeek R1 模型节点的提示词中,就能实现联网。也可直接在 “应用广场” 搜索到可以联网的 DeepSeek “工作流”。
优势:与支付宝生态深度融合,可快速将智能体应用于支付相关的业务场景,如智能支付咨询、消费场景推荐等。同时,借助支付宝庞大的用户基础,能够快速获取大量的用户反馈,便于对智能体进行优化与改进。
操作步骤:
准备工作:下载钉钉桌面版并登陆。
创建 DeepSeek 智能体:
进入 AI 助理创建页面:在钉钉开发者后台,找到左侧导航栏中的 “AI 助理”。点击 “AI 助理”,进入 AI 助理管理页面,点击页面右上角的 “创建助理” 按钮。
模型配置:在 “模型配置” 选项卡中,点击 “添加” 按钮,在弹出的模型列表中找到 DeepSeek 相关模型(如 DeepSeek - V2, DeepSeek - R1 等),根据需求选择合适的模型。
技能配置(可选):钉钉 AI 助理平台提供了一些预置的技能,如 “联网查询”、“链接速读”、“图片解读”、“生成图片” 等,可增强智能体的能力。对于 DeepSeek 智能体,特别推荐启用 “联网查询” 技能,这能让智能体直接访问互联网上的信息,大大扩展其知识范围,使其能够回答更多类型的问题。
知识库配置(可选):若希望智能体能够回答特定领域的问题,或者具备企业内部的专业知识,可以为它配置知识库。在 “知识” 选项卡中,点击 “助理知识” 旁边的 “管理” 按钮,上传或添加相关知识内容,完成后点击 “保存” 。
优势:天然适用于企业办公场景,可与企业内部的各类业务系统无缝集成,如考勤系统、项目管理系统等。通过配置知识库,能够快速打造企业专属的智能助手,提升企业内部的沟通效率与协作能力。
操作步骤:
部署 Dify:切换到 dify\docker 目录,输入命令 docker compose up -d 回车,等待所有服务启动完成(首次启动时间较长,可能需要 5 - 6 个小时左右)。安装所有服务完成之后,执行 docker compose ps 查看所有服务是否都正常运行。若本地安装了 Ollama 和 DeepSeek 模型,需要修改.env 文件,在最后面加上 Ollama 的 api 地址 host.docker.internal:11434 ,如:
# 启用自定义模型 CUSTOM_MODEL_ENABLED=true # 指定Ollama的API地址 OLLAMA_API_BASE_URL=http://host.docker.internal:11434 |
若本地 80 端口被占用,继续在.env 文件里面找到相应的端口设置行进行修改,修改完之后,要重启 docker 生效。
配置 Dify:打开浏览器,访问 Dify 默认地址是http://localhost:80 (若修改了地址,就是http://localhost: 修改的端口)。首次打开,需要设置管理员登陆邮箱和密码并牢记。注册之后,进入登陆界面,输入账号和密码登陆。登陆到控制台之后,点击右上角的头像,在点击 “设置”,添加 DeepSeek 模型。点击完设置之后,在页面左侧点击 “模型供应商”,找到 Ollama,点击添加模型。若本地安装了 Ollama,模型类型选 LLM,模型名称填写本地部署的模型名称(如 deepseek - r1:1.5b),基础 URL 地址填写之前在.env 文件中添加的 Ollama api 地址http://host.docker.internal:11434,其它不变,最后点击右下角的保存按钮。
创建应用(AI 智能客服):点击 “工作室” 栏目,进入创建应用页面,点击创建空白应用。然后进入应用类型选择和应用名称页面,选择 “聊天助手”,填写应用名称后,点击右下角 “创建” 按钮。创建好之后,进入应用测试页面,若显示成功应用到 deepseek 的模型,则应用创建成功。
创建知识库:点击上方菜单 “知识库” 栏目,数据源选择导入已有文本(也可根据自身情况选择其他数据源),然后选择文件导入,点击下一步。设置文本分段与清洗(默认 “高质量” 即可),点击下一步,当显示绿色对号时,表示知识库创建完成。
引用知识库:回到已创建好的应用,点击应用进入应用设置页面,找到 “上下文”,右边点击 “添加”,在弹出的选择引用知识库窗口中,选中刚添加的知识库,再点添加。添加完成后进行测试,若能引用知识库内容,则说明设置成功。测试无误后,点击右上角的发布按钮,即可正式启用 AI 应用。若本地没有安装 Ollama,也可使用 Dify 提供的在线大模型,在模型供应商处选择相应模型(如硅基流动上配置的模型),到对应网址注册申请 api 接口并输入进行设置即可 。
优势:专注于企业知识库的构建与管理,提供了丰富的工具与功能,如数据分段、索引设置、知识检索等。能够帮助企业快速搭建安全、高效的知识管理体系,实现知识的沉淀与复用,提升企业的核心竞争力。
在构建智能体之前,需清晰构想其用途。例如,构建一个为企业服务的智能体,可使其具备分析市场数据、提供决策建议、处理客户咨询等功能;若为个人使用,智能体可以是帮助规划旅行路线、按需求推荐菜谱、以特定风格创作内容(如二次元风格写短剧剧本)等。以 “中二病也爱刷爽剧” 智能体为例,目标是给定主题后,它能用二次元风格写出短剧剧本 。
向 DeepSeek 构建的智能体提问时,要详细描述身份、处境、需要解决的问题以及期望得到的结果等信息。采用 “背景信息 + 具体要求 + 输出格式” 的公式提问,能让智能体的回答更符合预期。比如,“我是一名健身教练,需要为新手会员制定一份为期一周的健身计划,计划要包含每天的训练内容、时长和注意事项,以表格形式呈现”。对于复杂任务,可将其拆分成多个步骤提问,如研究 “人工智能在医疗领域的应用”,可先问 “人工智能在医疗领域有哪些常见的应用方向”,再针对具体方向进一步提问,像 “人工智能在医学影像诊断中的原理是什么” 。
DeepSeek 在逻辑推理、复杂问题解答上表现出色,遇到数学证明、逻辑谜题、复杂业务问题分析等场景时,可充分发挥其优势,如 “证明数学中的勾股定理”“分析公司业务增长缓慢的原因及解决方案”。此外,还可使用标签和调用历史功能,用 “# 标签” 标记重要对话记录,方便后续查找;通过 “@(日期)” 等方式调用历史会话,快速回顾之前的讨论内容,基于之前的结果继续提问或深入探讨。比如在一系列关于项目策划的对话中,标记为 “# 项目策划”,后续可随时通过该标签找到相关内容 。
通过以上系统的学习与实践步骤,你将逐步踏入大模型的精彩世界。在这个过程中,不断地探索、尝试和优化是提升能力的关键。随着对大模型理解的深入,你将能够充分发挥其潜力,为自己的工作、学习和生活带来更多的创新与便利。