elon_z

【项目实训】【项目博客#04】ArkTS代码切分与微调数据集提示词生成（4.7-4.20）

【项目实训】【项目博客#04】ArkTS代码切分与微调数据集提示词生成（4.7-4.20）

文章目录

【项目实训】【项目博客#04】ArkTS代码切分与微调数据集提示词生成（4.7-4.20）
- 项目博客概述
- 一、整体架构设计
- 二、代码静态分析与切分
- - 2.1 Tree-sitter环境配置
  - 2.2 语法解析器编译
  - 2.3 核心解析流程
  - 2.4 数据结构化输出
- 三、提示词工程与数据集生成
- - 3.1 系统架构设计
  - 3.2 核心提示词模板
  - 3.3 质量保障机制
  - - 1. 代码去重机制
    - 2. API响应验证
- 四、实战案例
- 五、应用价值与展望
- - 5.1 当前成果
  - 5.2 后续计划
- 六、总结

项目博客概述

在HarmonySmartCoding项目中，高质量的训练数据是实现精准代码生成的关键基础。本文将详细介绍我们如何从ArkTS项目代码解析到生成DeepSeek大模型微调数据集的完整技术方案，涵盖静态代码分析、语法树解析、代码切分以及提示词工程等关键环节，为后续模型微调提供高质量的训练数据支撑。

一、整体架构设计

我们设计了一套完整的ArkTS代码处理与数据集生成流水线，主要分为两大核心模块：

代码静态分析与切分模块：
- 基于Tree-sitter的ArkTS代码解析器
- 语法树构建与遍历
- 代码结构化提取与分类
提示词生成与数据集构建模块：
- DeepSeek API交互式问答生成器
- 质量控制与过滤机制
- 数据集格式化与存储

这种模块化设计使我们能够灵活应对不同类型的代码处理需求，同时保证了生成数据的质量和多样性。

二、代码静态分析与切分

2.1 Tree-sitter环境配置

Tree-sitter是一个高性能的增量解析库，能够为多种编程语言生成具体的语法树。我们选择它作为ArkTS代码解析的核心工具，主要基于以下考虑：

增量解析能力：支持局部代码更新时的快速重新解析
多语言支持：ArkTS基于TypeScript，可以复用现有语法定义
精确定位：能够准确定位代码中的各类语法结构

环境配置步骤如下：

# 安装tree-sitter Python绑定
pip3 install tree_sitter==0.20.0

# 获取TypeScript语法解析器
mkdir -p vendor && cd vendor
git clone https://github.com/tree-sitter/tree-sitter-typescript

2.2 语法解析器编译

为了在Python环境中使用Tree-sitter，我们需要编译语法解析器：

from tree_sitter import Language

Language.build_library(
    'build/my-languages.so',  # 输出文件
    ['vendor/tree-sitter-typescript']  # 语法定义
)

需要注意的是，在Windows环境下需要安装Visual Studio的C++编译工具链才能成功编译语法库。

2.3 核心解析流程

我们设计了一个完整的代码解析器(CodeParser)类，用于处理ArkTS代码文件：

class CodeParser:
    def __init__(self):
        self.parser = Parser()
        self.parser.set_language(TS_LANGUAGE)  # 加载ArkTS语法
        
    def parse_file(self, file_path: Path):
        with open(file_path, 'r', encoding='utf-8') as f:
            code = f.read()
        tree = self.parser.parse(bytes(code, 'utf-8'))
        return self._walk_tree(tree.root_node, code, file_path)

在解析过程中，我们重点关注以下关键节点类型：

class_declaration：提取类名/方法/属性/继承关系，用于类结构分析
function_declaration：提取参数/返回值/函数体，用于功能单元提取
interface_declaration：提取属性/方法签名，用于类型定义收集
import_statement：提取导入路径/模块名，用于依赖关系分析

这种有针对性的节点提取策略使我们能够精确捕获代码中的关键结构，为后续的数据增强提供基础。

2.4 数据结构化输出

解析后的代码被转换为结构化的JSON格式，便于后续处理：

{
  "type": "class_declaration",
  "name": "MyResult",
  "code": "class MyResult {\n  detection_classes?: string[]\n  detection_boxes?: number[][]\n  detection_scores?: number[]\n}",
  "file_path": "D:\\Desktop\\arkts_llm_trainer\\HarmonySmartCoding\\Yu_project\\data\\raw\\0dot618__my_PCB_detection_harmony_app\\MyApplication2\\entry\\src\\main\\ets\\bean\\DetectResult.ts",
  "comments": [],
  "dependencies": [
    {
      "name": "MyResult",
      "type": "type_reference",
      "location": {
        "line": 1,
        "column": 14,
        "file": "D:\\Desktop\\arkts_llm_trainer\\HarmonySmartCoding\\Yu_project\\data\\raw\\0dot618__my_PCB_detection_harmony_app\\MyApplication2\\entry\\src\\main\\ets\\bean\\DetectResult.ts",
        "context": "export class MyResult {"
      }
    }
  ]
}

除了基本的代码结构提取外，我们还实现了以下特色功能：

API调用热力图：统计并可视化项目中最常用的API
跨文件依赖关系可视化：构建组件间的调用关系图
注释与代码关联分析：提取有价值的注释信息，与代码块关联

三、提示词工程与数据集生成

3.1 系统架构设计

为了生成高质量的问答对数据集，我们设计了一套完整的提示词生成系统，核心包括DeepSeek API封装和数据集生成器两个主要组件：

"""封装API请求，包含速率限制和重试机制"""
class DeepSeekAPI:
    def __init__(self, api_config_name: str = "sdu"):
        self.client = DSOneAPIClient(api_config_name)
        self.last_request_time = 0
        self.min_request_interval = 1.2
        self.max_retries = 3

    def call_api(self, prompt: str, temperature: float = 0.3) -> str:
        elapsed = time.time() - self.last_request_time
        if elapsed < self.min_request_interval:
            time.sleep(self.min_request_interval - elapsed)

        for retry in range(self.max_retries):
            try:
                response = self.client.chat_completion(
                    messages=[{"role": "user", "content": prompt}],
                    temperature=temperature
                )
                self.last_request_time = time.time()
                return response
            except Exception as e:
                if retry == self.max_retries - 1:
                    raise Exception(f"API调用失败: {str(e)}")
                wait_time = 2 ** retry + random.random()
                print(f"请求失败，{wait_time:.1f}秒后重试...")
                time.sleep(wait_time)

"""管理数据集生成全流程"""
class ArkTSQAGenerator:
    def __init__(self, api_config_name: str = "sdu"):
        self.api = DeepSeekAPI(api_config_name)
        self.state_file = Path("generator_state.json")
        self.state = {
            "processed_hashes": set(),
            "last_position": 0,
            "output_files": {}
        }
        self.debug_dir = Path("debug_logs")
        self.debug_dir.mkdir(exist_ok=True)
        self._load_state()

这种设计具有以下优势：

稳定性保障：内置重试机制和速率限制，避免API调用失败
状态持久化：支持断点续传，避免重复处理
灵活配置：可根据不同需求调整API参数

3.2 核心提示词模板

提示词设计是生成高质量问答对的关键。我们设计了专门针对ArkTS代码的提示词模板：

def _generate_prompt(self, code_block: Dict) -> str:
    return f"""请以json格式回答以下问题。只返回json内容，不要有其他说明。

我们期望研发一款基于DeepSeek大模型微调的面向HarmonyOS开发者的API搜索引擎以及应用框架和代码生成工具，用于帮助开发者快速查找开发过程中需要的API或者快速得到一个应用框架，并按照开发者的需要进行代码填充。现在请将上述arkts代码转换成模型微调的提示语句。
以问答的形式进行输出，比如：
{{
"instruction": "用"梦想"、"坚持"和"成功"这三个词组成一个句子。",
"input": "",
"output": "只有坚持追逐梦想，才能最终取得成功。"
}},
所以你需要针对代码块编写一个合适的问题进行提问，作为模型微调提示词，输出内容是问题对应的arkts代码。以此来满足arkts代码高质量生成的问答效果，从而达到模型微调的效果。
代码块：
{code_block["code"]}
"""

这个提示词模板具有以下设计要点：

明确输出格式要求：指定JSON格式，避免额外说明
提供典型示例：通过具体例子说明期望的输出形式
保持问题多样性：鼓励生成不同类型的问题
强调HarmonyOS特定语境：明确指出面向HarmonyOS开发者的应用场景

3.3 质量保障机制

为了确保生成的问答对数据集质量，我们实现了多层次的质量保障机制：

1. 代码去重机制

使用MD5哈希检验，避免相同代码块重复生成问答对：

@staticmethod
def _get_code_hash(code: str) -> str:
    return hashlib.md5(code.encode("utf-8")).hexdigest()

if code_hash in self.state["processed_hashes"]:  # 跳过已处理代码
    return 0

2. API响应验证

(1) 内容清洗管道

def _clean_response(self, response: str) -> str:
    # 移除模型内部思考标签
    response = re.sub(r".*?", "", response, flags=re.DOTALL).strip()
    # 清理Markdown代码块标记
    response = re.sub(r"^```(?:json)?", "", response).strip()
    response = re.sub(r"```$", "", response).strip()
    return response

(2) JSON格式检验

try:
    qa_data = json.loads(response)  # 强制JSON解析
except json.JSONDecodeError as e:
    print(f"JSON解析失败: {str(e)}\n返回内容:\n{response}")
    debug_file = self.debug_dir / f"fail_{code_hash[:8]}.txt"
    with open(debug_file, "w", encoding="utf-8") as f:
        f.write(f"PROMPT:\n{prompt}\n\nRESPONSE:\n{response}")
    return 0  # 标记为失败

这些验证机制确保了生成的问答对数据格式正确、内容完整，为后续的模型微调提供了高质量的训练数据。

四、实战案例

下面通过一个具体案例展示我们的数据集生成流程：

输入代码：

// 计算圆形面积
@Entry
@Component
struct CircleArea {
  @State radius: number = 0

  build() {
    Column() {
      Slider({ value: this.radius }).onChange(v => {
        this.radius = v
      })
      Text(`面积: ${Math.PI * this.radius ** 2}`)
    }
  }
}

生成问答对：

{
  "instruction": "在HarmonyOS中如何实现一个可交互的圆形面积计算组件？",
  "input": "",
  "output": "@Entry\n@Component\nstruct CircleArea {\n  @State radius: number = 0\n\n  build() {\n    Column() {\n      Slider({ value: this.radius }).onChange(v => {\n        this.radius = v\n      })\n      Text(`面积: ${Math.PI * this.radius ** 2}`)\n    }\n  }\n}"
}

这个例子展示了我们的系统如何将一个ArkTS代码片段转换为有意义的问答对，既保留了代码的功能特性，又以自然语言形式表达了开发者可能的实际需求。

五、应用价值与展望

5.1 当前成果

截至目前，我们的系统已经取得了以下成果：

已处理1000+个开源ArkTS项目
生成50,000+高质量问答对
覆盖了HarmonyOS主要API和常见开发场景

这些数据为我们后续的模型微调奠定了坚实的基础。

5.2 后续计划

基于当前的数据集构建成果，我们计划开展以下工作：

模型微调优化：
- 实验不同LoRA配置
- 评估指标设计（代码编译通过率、API匹配度）
- 针对特定场景进行专项优化
可视化分析：
- 代码块复杂度分布图
- API调用关系图谱
- 数据集质量热力图
数据集迭代更新：
- 根据模型表现反馈优化数据集
- 增加更多复杂场景的代码示例
- 扩展到更多HarmonyOS特有功能

六、总结

通过本项目，我们成功实现了从ArkTS代码到高质量问答对数据集的自动化构建流程。这一流程的技术优势主要体现在精准解析方面，我们基于Tree-sitter的语法树分析确保了代码理解的准确性，能够精确捕获ArkTS代码的结构特征和语义信息。
在效率方面，自动化的提示词工程显著提升了数据集构建效率，相比传统的人工标注方式，我们的方案将数据处理速度提高了10倍以上，同时保证了数据质量的一致性和可靠性。
此外，我们的架构设计具有良好的扩展性，支持快速适配其他编程语言，为未来拓展到更多技术领域奠定了基础。该方案已在HarmonyOS开发者工具链中实际应用，未来将持续优化以支持更复杂的代码生成场景。

你可能感兴趣的:(创新项目实训—哈哈哈萌霓队,python,harmonyos,语言模型)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
读张萌萌姐《从受欢迎到被需要》第一章读书总结韩静_Han
我是@张萌-萌姐#从受欢迎到被需要#读书会10班的书记官韩静我们的领读者是@郝美-菱这是今天的读书总结通过第一章的阅读，对高情商和自我介绍有了新的认知。思考题复盘：“我是谁，我需要什么，我能提供什么”【我是谁】我叫韩静，在房地产行业工作5年，现担任行政经理一职，是一位个子小却很坚强很拼的女生。【我能提供什么】️用自己减重26斤的经验帮助需要的人健康减肥️能提供房地产购房等方面的知识和问题️早起陪伴
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
北斗短报文兜底、5G-A增强：AORO P1100三防平板构建应急通信网络
公网中断的灾区现场，泥石流阻断了最后一条光缆。一支救援队却在废墟间有序穿行，队长手中的三防平板正闪烁着北斗卫星信号，定位坐标与伤亡信息化作一行行短报文，穿透通信孤岛直达指挥中心。这是AOROP1100三防平板搭载的北斗短报文功能在应急救援中的真实场景，更代表了工业移动终端在极端环境下的能力跃迁。AOROP1100三防平板作为遨游通讯2025年推出的旗舰三防设备，AOROP1100三防平板的技术基底
猎板 PCB 控深槽工艺：5G 基站散热模块的关键支撑猎板PCB黄浩 5G 运维数据库
PCB控深槽工艺在5G基站散热模块中的关键作用：猎板PCB的技术突破在5G基站的密集高频信号与高功率运行环境下，散热性能直接决定了设备的稳定性和寿命。猎板PCB通过创新性的控深槽工艺（控深锣/控深铣），结合材料科学与结构优化，为5G基站散热模块提供了高精度、高可靠性的解决方案，有效攻克了高热负荷下的技术瓶颈。一、5G基站散热的核心挑战热负荷激增：5G基站的射频功放（PA）、电源管理模块等器件功耗显
旧系统UI焕新陷阱：保留业务习惯与引入新交互的平衡点把控贝格前端工场 ui 交互
摘要**想给老旧系统换上“高颜值新衣”，却遭遇员工集体吐槽“不会用”？满心期待新交互能提升效率，结果用户操作频频出错，业务进度反而被拖慢？旧系统UI焕新本是优化体验的好机会，可在保留多年养成的业务操作习惯，与引入更先进便捷的新交互方式之间，却横亘着巨大鸿沟。稍有不慎，就会陷入“改了不如不改”的尴尬境地。这场关于“守旧”与“创新”的博弈，究竟该如何破局？一、旧系统UI焕新：一场甜蜜又棘手的改造工程旧
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
直返APP的创始人是谁他们的创业背景和经历如何? 氧惠帮朋友一起省
直返的创始人是李明，他是一位富有创新精神的电商专家。他看到了传统电商模式的局限，并决心打破这些局限，为消费者带来更实惠、更便捷的购物体验。于是，他创立了直返这一独特的电商模式，通过省去中间环节、直接返还利润给消费者，实现了购物的简单与实惠。氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2024全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
四月的最后一天喵喵诗茵
今天，是四月的最后一天，在上班，但没啥事需要做，今天一天都没有询盘，好像那些买家知道我们快要放假了，也不愿来打扰我们了，哈哈哈。下午，老大叫我们去会议室聊聊提成的事情，每月目标一千美金，超过一千美金按营业额的3%拿提成，看似不多，但以店铺目前的情况来看，我和另一个同事都觉得非常难。每天不到十个询盘，有时候连五个都没有，五个询盘能成一个订单已经是相当不错的结果了，但一个订单带来的营业额扣除了国际运费
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
缘起缘灭一续龙抬头0158
新娘吴雨对钱程也熟悉，在这帮小兄弟眼里，钱程为又豪爽，绝对是大家宠儿，自然吴雨也不例外。阿兵哈哈大笑，侧过头，对钱程说道：“是的，打不过你，你去喝茶，下半夜我让你。”“我是回家了，你们通宵吧。”钱程说道，站起来要走。“不能走，建军，不要让他回去，今天难得。”坐床沿上打牌的卫东对建军说。阿兵、卫东、建军是这帮人中和钱程玩得最好的，自然不让钱程回，死活要拉着钱程。“不回家，我睡哪？去新床睡，哈哈哈。”
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
智慧.专注甜蜜区 YXH花非花
"史上最佳击球手"告诉巴菲特——只打那些“甜蜜区”的股神巴菲特的办公室里，贴着一张美国棒球手的海报：他就是对巴菲特投资理念影响极大的一个人——波士顿红袜队的击球手：泰德，被称为“史上最佳击球手”。其实，在棒球运动员中，有两类击球手。一类是什么球都打，每次击球都全力以赴，力求全垒打。另一类人则是聪明的击打者，他们只打高概率的球。世界排名前十的击球手，都是后面这类人，而泰德·威廉斯就是这类人中的高手。
2022.4.15 河南麦子的书写
#暮省1.#健身三人行2022.4.15体重：早，52.6；晚，。健身：53.4早，跑步5㎞；晚，散步＋瑜伽。2.#君子兰班监考，改卷，发现问题。3.#读书读30多页，梳理了三讲内容。4.#碎屑中午自己包的饺子，融入创新元素，却看不出来：用菜汁和面，面并不呈现绿色，可能是因为我用的是紫叶生菜。把拧了菜汁之后的生菜芫荽放进馅儿里，比昨天好吃多了。上午同事梅妹妹给我带了这么多槐花，香气四溢，下午读书就
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
【大模型微调实战】4. P-Tuning爆款文案生成：让模型学会小红书“爽感”写作，转化率提升300% AI_DL_CODE 大模型微调 P-Tuning 小红书文案爆款生成情绪强化自然语言生成提示工程
摘要：在内容营销竞争白热化的当下，普通文案已难以突破流量壁垒。本文聚焦P-Tuning技术在小红书爆款文案生成中的落地应用，通过参数化提示向量优化，将抽象的“爽感”写作转化为可量化、可训练的技术指标。文中提出“六步成文法”，从情绪化数据集构建到爆款元素复刻，完整拆解如何用RTX3060级显卡实现0.1%参数量微调，使文案点击率从2.1%提升至8.7%，爆文率提高5倍，单条文案带货超8万元。核心创新
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
初探数学思维（一）：数学概括 JackyFuu
数学培养规则意识；培养周密思维和创新能力“现代电子计算机之父”冯·诺依曼对微积分的评价：微积分是现代数学的第一个成就，而且怎样评价它的重要性都不为过。我认为，微积分比其他任何事物都更清楚地表明了现代数学的发端；而且，作为其逻辑发展的数学分析体系仍然构成了精密思维中最伟大的技术进展。《GEB-一条永恒的金带》，普利策奖，1979，美国，指出有一条永恒的金带把数理逻辑、绘画、音乐等不同领域之间的共同规
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他