【项目实训】【项目博客#01】项目启动与初步规划(第1-2次会议阶段性总结)

【项目实训】【项目博客#01】项目启动与初步规划(第1-2次会议阶段性总结)

文章目录

  • 【项目实训】【项目博客#01】项目启动与初步规划(第1-2次会议阶段性总结)
  • 【项目博客#01】HarmonyOS平台API搜索与代码生成工具项目启动与初步规划
      • 日期:2025.3.12-2025.3.23
    • 会议概述
    • 一、项目选题讨论
    • 二、需求分析
      • 2.1 开发者痛点
      • 2.2 需求场景
    • 三、技术路线规划
      • 3.1 API文档问答部分
      • 3.2 代码生成工具部分
    • 四、项目风险评估
      • 4.1 GPU算力获取问题
      • 4.2 时间管理风险
      • 4.3 模型性能风险
    • 五、初步工作计划
    • 六、团队分工
    • 七、下一步工作
    • 总结

【项目博客#01】HarmonyOS平台API搜索与代码生成工具项目启动与初步规划

日期:2025.3.12-2025.3.23

会议概述

在项目实训的第1-2次会议中,我们团队"哈哈哈萌霓队"围绕项目选题、技术路线和风险评估进行了深入讨论。本文将对会议内容进行总结,为后续工作提供参考。

一、项目选题讨论

会议初期,我们提出了四个备选项目方向:

  1. 英语阅读理解问答系统:利用开源数据集,实现手写识别功能,支持主客观题问答
  2. 软件学院知识问答系统:基于山软智库学长整理的学科资料,构建专属于软件学院的知识库
  3. RISC-V AI代码工具链:开发类编译器工具,将RISC-V平台高级语言代码转换为汇编语言
  4. HarmonyOS平台API文档问答和代码生成工具:帮助开发者快速查找API并生成代码

经过团队讨论,我们最终选择了第四个方向——基于DeepSeek微调的HarmonyOS平台API搜索与代码生成工具。选择该方向的主要考虑因素包括:

  • 符合"通用人工智能(DEEPSEEK应用研发)"的题目要求
  • 具有明确的应用场景和用户需求
  • 能够充分利用DeepSeek的API调用、提示词工程、RAG知识库、知识图谱和指令微调等技术
  • 团队成员对HarmonyOS开发有一定了解,有利于项目实施
  • 项目具有较高的创新性和实用价值

二、需求分析

2.1 开发者痛点

  • 新版本API文档分散在多个页面(检索效率低)
  • ArkTS语言生态较新(代码示例获取困难)

2.2 需求场景

  • 开发过程中需要快速定位API使用方式(搜索场景)
  • 编写业务逻辑时需要参考标准写法(生成场景)

三、技术路线规划

针对上述问题,我们详细讨论了技术实现路线,主要分为API文档问答和代码生成两大部分:

3.1 API文档问答部分

  1. 数据获取与处理

    • 从HarmonyOS官方网站爬取API文档、开发指南和示例代码
    • 对爬取的数据进行清洗、格式化和增强处理
    • 构建结构化的数据集,便于后续知识库构建
  2. 知识库构建方案

    • 方案A:直接搭建RAG(检索增强生成)知识库供DeepSeek模型查询
    • 方案B:通过知识抽取构建知识图谱,再结合DeepSeek模型进行查询
    • 方案C:探索GraphRAG等特殊处理方式,提升查询效果
  3. 模型优化策略

    • 评估直接使用DeepSeek模型+RAG的效果
    • 考虑针对HarmonyOS API文档进行指令微调
    • 探索如何生成或获取微调所需的高质量数据集

3.2 代码生成工具部分

  1. 功能规划

    • 自然语言到ArkTS代码的生成
    • 代码补全功能
    • 代码错误检测与修复建议
  2. 数据获取策略

    • 从GitHub和Gitee爬取ArkTS项目代码
    • 探索如何构建指令微调所需的"问题-代码"对数据集
    • 考虑使用DeepSeek模型自动生成问题,形成训练数据
  3. 模型训练方案

    • 评估LoRA、QLoRA和全参数微调等不同方案
    • 设计超参数调优策略
    • 制定模型评估指标和优化路径

四、项目风险评估

我们识别了以下主要风险点并讨论了应对策略:

4.1 GPU算力获取问题

  • 风险:学校提供的服务器资源有限,无法满足大规模模型训练需求
  • 应对策略
    • 探索使用云服务器(如阿里云、腾讯云等)进行模型训练
    • 考虑使用团队成员个人设备进行分布式训练
    • 优先采用低资源消耗的微调方法(如LoRA、QLoRA)
    • 评估使用量化技术降低模型计算需求

4.2 时间管理风险

  • 风险:学期课程压力大,实验和课设任务多,有效工作时间有限
  • 应对策略
    • 制定详细的项目时间表,明确每周任务和里程碑
    • 根据团队成员课程安排,合理分配任务
    • 采用敏捷开发方法,每周进行进度回顾和调整
    • 优先实现核心功能,确保基础功能可用

4.3 模型性能风险

  • 风险:模型性能可能无法达到预期的量化指标
  • 应对策略
    • 设置阶段性目标,逐步提升模型性能
    • 准备多种技术路线作为备选方案
    • 建立数据质量控制机制,必要时进行人工筛选
    • 设计详细的模型评估方法,及时发现和解决问题

五、初步工作计划

基于上述讨论,我们制定了初步的工作计划:

  1. 第4-5周:需求分析与技术选型

    • 确定具体需求,划分功能优先级
    • 完成知识图谱、模型微调总体设计与详细设计
    • 构建基本原型
  2. 第6-7周:数据集构建与预处理

    • 从官方文档和开发者社区爬取并收集数据集
    • 清洗、整理为所需要的格式
    • 对数据集进行数据筛选和增强
  3. 第8-13周:模型训练与优化

    • 完成DeepSeek-7B的本地部署
    • 使用多组超参数进行训练微调
    • 验证生成的代码与需求的一致性和正确性
  4. 第14-16周:系统开发与联调

    • 分别实现前后端基础功能
    • 将用户数据及反馈对接到相应微调模型
    • 完成端到端流程测试,优化界面交互
  5. 第17-18周:项目部署与测试

    • 本地化部署测试
    • 撰写技术文档与手册

六、团队分工

根据团队成员的专长和兴趣,我们初步确定了以下分工:

  1. 赵一衡(组长):负责数据爬取、模型微调、前端开发
  2. 李彦鋆:负责数据处理、模型微调、后端开发
  3. 王旭:负责数据爬取、知识图谱构建、后端开发
  4. 于梦滢:负责数据处理、知识图谱构建、前端开发
  5. 张逸凡:负责数据处理与增强、接口集成

七、下一步工作

  1. 建立项目代码仓库和文档管理系统
  2. 开始数据爬取工作,构建初步数据集
  3. 搭建DeepSeek模型的本地运行环境
  4. 设计系统架构和接口规范
  5. 制定详细的项目进度表和任务分解

总结

通过第1-2次会议,我们确定了项目方向、技术路线和初步工作计划。"基于DeepSeek微调的HarmonyOS平台API搜索与代码生成工具"项目旨在帮助HarmonyOS开发者提高开发效率,具有明确的应用价值和技术挑战。

尽管面临算力资源、时间管理和模型性能等风险,但团队已制定了相应的应对策略。我们相信,通过团队协作和技术创新,能够按计划完成项目目标,开发出一款实用的HarmonyOS开发辅助工具。

接下来,我们将按照工作计划,开始具体的技术实现工作,并定期进行进度回顾和调整,确保项目顺利推进。

你可能感兴趣的:(创新项目实训—哈哈哈萌霓队,harmonyos,鸿蒙,自然语言处理,python)