Nnbwbyhxy

输入GSM8K数据集对Llama2-int4模型进行性能评估

思路：逐条输入GSM8K数据集获得模型输出并于数据集中的回答进行比对

from llama_cpp import Llama  # 从 llama_cpp 导入 Llama 类，用于加载并调用 Llama 模型
import time  # 导入 time 模块用于时间测量
import pandas as pd  # 导入 pandas 用于数据处理，尤其是读取和操作 Parquet 文件
from sklearn.metrics import accuracy_score  # 导入 accuracy_score，用于计算准确率
import numpy as np  # 导入 numpy，用于数值计算
from nltk.translate.bleu_score import sentence_bleu  # 导入 BLEU 分数计算工具
from rouge import Rouge  # 导入 ROUGE 分数计算工具
import math  # 导入 math 库，用于数学运算

# 加载 Parquet 文件，读取训练数据
train_main = pd.read_parquet('/home/lqsilicon/retarded_bar/main/train-00000-of-00001.parquet')

# 加载模型，指定模型路径
model = Llama(model_path='/home/lqsilicon/Public/xgx/llama.cpp/models/llama-2-7b-chat.Q4_0.gguf')

# 从训练数据中提取问题和答案列，分别存储为列表
questions = train_main['question'].tolist()  # 将问题列转换为列表
answers = train_main['answer'].tolist()  # 将答案列转换为列表

# 打印问题总数，用于确认数据是否加载正确
print(f"问题总数: {len(questions)}")

# 评测模型性能的函数
def evaluate_performance(model, questions, answers):
    total_time = 0  # 初始化总推理时间
    correct = 0  # 初始化正确答案数量
    total = len(questions)  # 问题总数
    results = []  # 用于存储所有评测结果

    rouge = Rouge()  # 创建 ROUGE 实例，用于计算 ROUGE 分数
    rouge_scores = []  # 用于存储 ROUGE 分数
    bleu_scores = []  # 用于存储 BLEU 分数
    perplexities = []  # 用于存储困惑度

    # 使用批量推理优化
    batch_size = 8  # 设置每次批处理的大小，可以根据实际情况调整
    num_batches = (total + batch_size - 1) // batch_size  # 计算批次数量

    # 对每个批次进行推理评测
    for batch_idx in range(num_batches):  # 遍历所有批次
        start_idx = batch_idx * batch_size  # 当前批次的开始索引
        end_idx = min((batch_idx + 1) * batch_size, total)  # 当前批次的结束索引，确保不越界

        batch_questions = questions[start_idx:end_idx]  # 当前批次的问题
        batch_answers = answers[start_idx:end_idx]  # 当前批次的答案

        # 记录批次推理的开始时间
        batch_start_time = time.time()

        # 获取批次问题的模型回答
        batch_responses = [model(question, max_tokens=4096) for question in batch_questions]

        # 记录批次推理的结束时间
        batch_end_time = time.time()

        # 计算本批次的推理时间
        batch_inference_time = batch_end_time - batch_start_time
        total_time += batch_inference_time  # 累加总推理时间

        # 处理批次中的每一个问题及其模型回答
        for i in range(len(batch_questions)):
            question = batch_questions[i]  # 当前问题
            expected_answer = batch_answers[i]  # 当前问题的期望答案
            response = batch_responses[i]  # 当前问题的模型回答

            # 获取并去除多余空白符的生成文本
            generated_text = response['choices'][0]['text'].strip()
            # 检查生成的文本是否为空
            if not generated_text:
                print(f"警告: 模型未生成有效的文本。跳过问题: {question}")
                continue  # 跳过该问题，继续下一个问题

            # 计算 BLEU 分数，基于期望答案和生成答案
            reference = expected_answer.split()  # 将期望答案按空格分词
            candidate = generated_text.split()  # 将生成的文本按空格分词
            bleu_score = sentence_bleu([reference], candidate)  # 计算 BLEU 分数
            bleu_scores.append(bleu_score)  # 将该 BLEU 分数加入列表

            # 计算 ROUGE 分数
            rouge_score = rouge.get_scores(generated_text, expected_answer)[0]  # 获取 ROUGE 分数
            rouge_1 = rouge_score['rouge-1']['f']  # 获取 ROUGE-1 的 F1 值
            rouge_2 = rouge_score['rouge-2']['f']  # 获取 ROUGE-2 的 F1 值
            rouge_l = rouge_score['rouge-l']['f']  # 获取 ROUGE-L 的 F1 值
            rouge_scores.append((rouge_1, rouge_2, rouge_l))  # 将 ROUGE 分数存入列表

            # 计算困惑度（Perplexity）
            perplexity = math.exp(-batch_inference_time / len(batch_questions))  # 使用困惑度公式
            perplexities.append(perplexity)  # 将困惑度存入列表

            # 输出当前问题的推理结果和相关评测指标
            print(f"问题: {question}")
            print(f"答案: {expected_answer}")
            print(f"模型回答: {generated_text}")
            print(f"推断时间: {batch_inference_time / len(batch_questions):.4f} seconds")  # 输出平均推理时间
            print(f"BLEU: {bleu_score:.4f}, ROUGE-1: {rouge_1:.4f}, ROUGE-2: {rouge_2:.4f}, ROUGE-L: {rouge_l:.4f}, Perplexity: {perplexity:.4f}\n")

            # 保存该问题的结果
            results.append([question, expected_answer, generated_text, batch_inference_time / len(batch_questions), bleu_score,
                            rouge_1, rouge_2, rouge_l, perplexity])

    # 计算总体评测结果
    average_bleu = np.mean(bleu_scores)  # 计算平均 BLEU 分数
    average_rouge_1 = np.mean([score[0] for score in rouge_scores])  # 计算平均 ROUGE-1 分数
    average_rouge_2 = np.mean([score[1] for score in rouge_scores])  # 计算平均 ROUGE-2 分数
    average_rouge_l = np.mean([score[2] for score in rouge_scores])  # 计算平均 ROUGE-L 分数
    average_perplexity = np.mean(perplexities)  # 计算平均困惑度
    accuracy = correct / total  # 计算模型准确率
    average_time = total_time / total  # 计算平均推理时间

    # 输出总体评测结果
    print(f"总问题数: {total}")
    print(f"准确率: {accuracy * 100:.2f}%")  # 输出准确率
    print(f"平均推断时间: {average_time:.4f} seconds")  # 输出平均推理时间
    print(f"平均 BLEU: {average_bleu:.4f}")  # 输出平均 BLEU 分数
    print(f"平均 ROUGE-1: {average_rouge_1:.4f}")  # 输出平均 ROUGE-1 分数
    print(f"平均 ROUGE-2: {average_rouge_2:.4f}")  # 输出平均 ROUGE-2 分数
    print(f"平均 ROUGE-L: {average_rouge_l:.4f}")  # 输出平均 ROUGE-L 分数
    print(f"平均困惑度: {average_perplexity:.4f}")  # 输出平均困惑度

    return results  # 返回评测结果

# 执行评测
results = evaluate_performance(model, questions, answers)

# 将评测结果保存到 CSV 文件
results_df = pd.DataFrame(results, columns=["Question", "Expected Answer", "Generated Answer", "Inference Time", "BLEU",
                                            "ROUGE-1", "ROUGE-2", "ROUGE-L", "Perplexity"])  # 将结果转换为 DataFrame
results_df.to_csv("evaluation_results.csv", index=False)  # 保存为 CSV 文件，索引不保存

一些概念解释：

Parquet 是一种开源的列式存储文件格式，通常用于大数据处理和分析。它被设计为一种高效、压缩的存储格式，可以存储大量数据，同时保持较高的读取性能。Parquet 文件格式广泛应用于像 Hadoop、Spark 等大数据处理框架中，特别适合用于存储和处理结构化和半结构化数据。在 Python 中，使用 pandas 可以方便地读取和处理 Parquet 文件。

gguf 格式

gguf 是一种用于存储和优化 Llama 模型推理的格式，它旨在提高模型在推理时的效率和性能。gguf 格式与 LLaMA 模型的标准格式相比，进行了特定的优化，使得在内存和存储方面更加高效，且可以在各种硬件平台上更好地执行

使用 Llama 模型和 gguf 格式

在实际使用中，Llama 模型通常是以标准格式（如 PyTorch、TensorFlow 格式等）发布的，但是可以通过一些工具（如 llama.cpp）将模型转换为 gguf 格式以优化推理性能。转换后的模型可以使用 llama.cpp 相关工具进行加载，从而高效地进行推理。

ROUGE 分数概述

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 是一种用于评估自动生成文本与参考文本之间相似度的指标，广泛应用于自然语言处理（NLP）任务，尤其是在文本生成、摘要生成、翻译等任务中。ROUGE 指标主要通过计算生成文本和参考文本之间的n-gram重合度来衡量文本的质量。

ROUGE 包含多个子指标，常见的有 ROUGE-1、ROUGE-2 和 ROUGE-L。每种 ROUGE 分数都基于不同的评估方式，下面将详细介绍这些常见的 ROUGE 分数。

ROUGE 分数的计算方法

ROUGE 计算的核心是基于 precision、recall 和 F1 score，这些度量标准的计算方法如下：

Precision：生成文本中与参考文本匹配的n-gram数量与生成文本中的n-gram总数之比。
Recall：生成文本中与参考文本匹配的n-gram数量与参考文本中的n-gram总数之比。
F1 Score：Precision 和 Recall 的调和平均数，是衡量综合性能的指标。

对于每种 ROUGE 指标，都会计算 Precision、Recall 和 F1 分数。

什么是 n-gram？

n-gram 是自然语言处理（NLP）中一种常见的文本处理模型，用于表示和分析连续的 n 个词或字符的序列。它是基于上下文的，尤其关注一个词或字符的相邻词或字符的关系。

在 n-gram 模型中，n 代表连续单元的数量。根据 n 的不同，n-gram 可以分为不同的类型，如 unigram、bigram、trigram 等。

n-gram 的定义：

n-gram 是一个由 n 个连续的项目（通常是单词或字符）组成的序列。对于文本来说，这些项目通常是单词或字符。

n-gram 在 NLP 中的应用

语言建模：
- n-gram 模型广泛应用于语言建模任务中。例如，在机器翻译、文本生成、语音识别等领域，n-gram 模型通过计算词序列的概率来预测下一个词。通过考虑过去的 n-1 个词来预测当前词。
- 例如，在生成一个句子的过程中，基于前面的单词预测下一个单词，n-gram 模型就可以用来计算这种概率。
文本分类和情感分析：
- 在情感分析任务中，n-gram 可以帮助捕捉文本中连续的词语搭配，比如短语或常见的表达方式，这些搭配往往对情感的判断至关重要。
机器翻译：
- 在机器翻译中，n-gram 模型可以帮助评估翻译的质量。通过计算翻译中 n-gram 的重合度，来衡量翻译文本与参考翻译的相似度。
信息检索：
- 在搜索引擎中，n-gram 模型可以帮助理解用户查询的意图，并根据查询中的词序列找到更相关的文档。
拼写校正：
- n-gram 模型也常用于拼写校正任务。例如，给定一个错别字，n-gram 可以根据上下文词序列的统计信息来判断用户最可能想打的正确单词。

什么是 BLEU（Bilingual Evaluation Understudy）？

BLEU（Bilingual Evaluation Understudy）是一个用于自动评估机器翻译（MT）质量的指标，特别是用于评估生成文本（例如机器翻译、文本生成等任务）与参考文本之间的相似度。BLEU 衡量的是生成文本的 n-gram 与参考文本中的 n-gram 的匹配程度。

BLEU 是一种 精确度（Precision）度量，它通过计算生成文本中的 n-gram 与参考文本中的 n-gram 的重合度，来评估翻译的质量。BLEU 的核心思想是，通过比较机器生成的翻译与人工参考翻译之间的相似性，来量化机器翻译的质量。

BLEU 评分的计算步骤

计算各个 n-gram 的精确度：比如，计算生成文本与参考文本中 unigram、bigram、trigram 等的匹配度。

n-gram 计算：计算机器翻译结果（候选翻译）和参考翻译之间的 n-gram 重叠情况。常见的 n-gram 包括 unigram（单词级的1-gram）、bigram（2-gram）等。
计算长度惩罚：
如果生成文本比参考文本短，会减少 BLEU 得分，避免机器生成极短的翻译。
综合计算 BLEU 得分：
将精确度和长度惩罚结合，计算最终的 BLEU 分数。

什么是困惑度（Perplexity）？

在大模型性能评估中，困惑度（Perplexity, PP） 是一种常用的衡量语言模型性能的指标，特别是在自然语言处理（NLP）任务中，如文本生成、机器翻译等。

困惑度的定义

困惑度衡量的是模型对预测下一个词的“困惑”程度，换句话说，它是模型预测准确性的倒数。困惑度越低，说明模型对数据的拟合越好。

具体来说，困惑度 是模型预测给定词序列的概率的倒数的指数。公式为：

其中，H(p)是模型对一个词序列的交叉熵（Cross-Entropy），也就是说，困惑度可以从交叉熵中计算出来。

交叉熵和困惑度的关系

交叉熵是衡量模型预测分布与真实分布之间差异的度量，公式为：

H(p)=−1N∑i=1Nlog⁡p(yi∣xi)H(p) = - \frac{1}{N} \sum_{i=1}^{N} \log p(y_i | x_i)H(p)=−N1i=1∑Nlogp(yi∣xi)

其中：

NNN 是数据集中的样本数，
p(yi∣xi)p(y_i | x_i)p(yi∣xi) 是模型预测的第 iii 个样本 xix_ixi 下的正确标签 yiy_iyi 的概率。

因此，困惑度与交叉熵的关系为：

PP=2H(p)PP = 2^{H(p)}PP=2H(p)

困惑度的直观解释

低困惑度： 当困惑度较低时，说明模型能够更好地预测接下来的词，也就是模型的预测能力较强。
高困惑度： 困惑度较高则表示模型的预测准确性较差，意味着模型对下一个词的预测不确定性较高。

逐条推理的速度很慢下面有一些常见的优化方法

如果在逐条推理时速度较慢，有几种方法可以提高推理的速度。以下是一些常见的优化策略，可以根据具体情况选择合适的方法：

1. 批量推理（Batch Inference）

批量推理是提升推理速度的最常见方法之一。通过将多个输入样本一次性传入模型，而不是逐条处理，可以显著减少模型加载和计算的时间开销。

如何做：

将多个问题/输入组合成一个批次，使用 batch_size 的方式传递给模型。
模型能够并行处理批次中的所有输入，从而减少了每次推理的时间成本。

注意：

批次大小（batch_size）需要根据硬件（特别是 GPU 的内存）进行调整，过大的批次可能会导致内存不足。
如果使用的是 CPU 推理，批量处理也能通过多线程优化计算效率。

2. 并行化推理

如果硬件支持并行处理（如多核 CPU 或多个 GPU），可以利用并行计算进一步加速推理过程。

如何做：

使用 Python 的多线程或多进程模块，或者通过使用分布式计算框架（如 torch.distributed、TensorFlow Distributed）来并行化模型推理。
在多 GPU 环境下，可以将任务分配给多个 GPU，分别进行并行推理。

3. 使用更小的模型

如果推理速度是关键需求，可以考虑使用更小的模型（如 7B 或 13B 模型，甚至 3B 或更小）。较小的模型需要的计算量较少，推理速度更快。

如何做：

尝试使用更轻量级的模型（例如更小的 Llama 模型或量化版本的模型），或者使用高效的模型架构（如 MobileBERT、DistilBERT 等）。

示例：

可以切换到 llama-2-7b（更小的版本）来替代较大的 llama-2-13b。

这样可以在牺牲一些准确率的情况下，显著提高推理速度。

4. 量化模型

对模型进行量化（例如 8-bit 或 4-bit 量化）可以显著降低模型的计算复杂度和内存占用，从而提高推理速度。

如何做：

使用库如 llama.cpp 提供的量化支持，或者在 TensorFlow、PyTorch 中利用量化工具进行转换。

5. 使用更强的硬件（GPU / 专用加速器）

如果当前使用的硬件不够强大，换用更强的硬件可以大幅提升推理速度。比如使用 GPU 或 TPUs 进行加速，特别是对于大型模型，GPU 可以提供显著的加速。

如何做：

如果尚未使用 GPU 进行推理，可以尝试将模型迁移到 GPU 上执行。大部分深度学习框架（如 PyTorch、TensorFlow）都支持 GPU 加速。
确保 CUDA 和 cuDNN 的版本是兼容的，以便充分利用 GPU 性能。

6. 推理时减少计算量

减少每次推理时的计算量可以加速推理过程。具体做法包括：

限制生成的最大 token 数量：通过减少每次生成的 token 数量，可以减少计算量和时间。
使用少量的上下文：如果模型支持，可以限制输入文本的长度，减少模型需要处理的上下文大小。

7. 优化数据传输

如果推理涉及从磁盘或网络加载数据，可以考虑优化数据传输过程，以减少 I/O 阻塞：

缓存输入数据：避免每次推理时都从磁盘加载相同的数据，使用内存缓存（例如 joblib 或 pickle）存储预处理好的数据。
异步加载数据：在推理时，异步加载输入数据，以便计算与数据准备可以同时进行。

8. 调整模型推理策略

减少温度（Temperature）：如果模型的生成过程使用了采样（如基于温度的采样），可以通过减少采样的温度值来加速生成过程。较低的温度值通常会使生成更加确定，因此减少计算量。
Greedy Search：如果模型支持，可以使用贪心搜索（Greedy Search），而不是更复杂的采样方法（如束搜索 Beam Search）。

9. 使用高效推理库

使用高效的推理框架或库可以提升速度。例如，ONNX Runtime 或 TensorRT（适用于 NVIDIA GPU）等工具可以帮助优化模型推理的速度。

如何做：

将模型转换为 ONNX 格式，并使用 ONNX Runtime 进行推理。
使用 TensorRT 对模型进行加速（适用于 NVIDIA GPU）

下一步考虑采用一些优化方法

Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
ChatGPT还不能写小说吗？刘若愚
最近，ChatGPT大热，据说可以写论文，编故事，好像无所不能。于是，我给它出了个题目：写一篇5万字的科幻小说。人物：刘若愚，化学家；刘子琪，大律师；仔仔，刘子琪的宠物猫；周金凝，医生；刘泽余，大侦探；赵政淇，程序猿；杰夫（Jeff）机器人它给我的回答是：我很抱歉，我是一个AI语言模型，无法写出如此长篇的小说。但我可以为您提供一些写作灵感和指导：确定故事背景和时间线：在科幻小说中，背景和时间线非常
AI心理学四层架构揭秘：语言模型为何“说谎“？ TGITCIC AI-大模型的落地之道语言模型人工智能自然语言处理大模型国产大模型大模型落地
第一章神经层：代码编织的"脑电图"1.1注意力权重的量子跃迁当Claude3.5Haiku处理"达拉斯所在州的首府"这类问题时，其注意力权重图谱呈现出量子跃迁特征。研究团队通过归因图技术捕捉到：在输入"达拉斯"的瞬间，模型内部Texas节点的激活强度达到87.6%，首府概念节点同步飙升至79.3%。这种非线性激活模式与人类大脑的默认模式网络惊人相似。模型层级激活时序决策路径可解释性神经层300ms
BEYOND BINARY REWARDS: TRAINING LMS TOREASON ABOUT THEIR UNCERTAINTY 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习人工智能语言模型自然语言处理机器学习深度学习
https://gist.github.com/josherich/8a30dbf3d6ae0cae1048c3331f38fe80https://gist.github.com/josherich/8a30dbf3d6ae0cae1048c3331f38fe801引言与此担忧一致，研究表明，即使最初校准良好的大型语言模型（LLMs）在RL训练后也会变得过度自信（Lengetal.,2
Gradient-Adaptive Policy Optimization:Towards Multi-Objective Alignment of Large Language Models 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习语言模型人工智能自然语言处理深度学习机器学习
2025.acl-long.549.pdfhttps://aclanthology.org/2025.acl-long.549.pdf1.概述大型语言模型（LLMs）（Anthropic,2023;OpenAI,2024）已经在广泛的实际应用中展示了显著的能力（Bubecketal.,2023），包括内容创作（Yuanetal.,2022）、编程辅助（Chenetal.,2021;Gaoetal.
Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals 樱花的浪漫因果推断大模型与智能体人工智能算法机器学习语言模型自然语言处理
UncoveringBiasinLargeVision-LanguageModelsatScalewithCounterfactuals-ACLAnthologyhttps://aclanthology.org/2025.naacl-long.305/1.概述最近，大型视觉-语言模型（LVLMs）因其能够将语言模型（LLMs）的对话能力扩展到多模态领域而受到欢迎。具体来说，LVLMs可以根据文本提
Langchain学习笔记(十)：文档加载与处理详解
注：本文是Langchain框架的学习笔记；不是教程！不是教程！内容可能有所疏漏，欢迎交流指正。后续将持续更新学习笔记，分享我的学习心得和实践经验。前言在构建基于大语言模型的应用时，文档处理是一个至关重要的环节。无论是构建RAG（检索增强生成）系统，还是进行知识库问答，我们都需要将各种格式的文档转换为模型可以理解和处理的形式。Langchain提供了强大的文档加载和处理功能，支持多种文件格式，并提
BGE-M3模型结合Milvus向量数据库强强联合实现混合检索
在基于生成式人工智能的应用开发中，通过关键词或语义匹配的方式对用户提问意图进行识别是一个很重要的步骤，因为识别的精准与否会影响后续大语言模型能否检索出合适的内容作为推理的上下文信息（或选择合适的工具）以给出用户最符合预期的回答。在本篇文章中，我将尽可能详细地介绍想达成准确识别用户提问意图的解决方案之一，即基于功能强大的BGE-M3模型和Milvus向量数据库实现混合检索（稠密向量densevect
构建高效 RAG 流程的七个关键点及其落地实践 charles666666 搜索引擎大数据需求分析交互笔记数据库
人工智能应用浪潮中，检索增强生成（RAG）技术凭借着结合大型语言模型（LLMs）的生成能力和信息检索系统的独特优势，成为了各企业挖掘数据价值、提升业务智能化水平的关键手段之一。然而，构建一个高效且精准的RAG流程并非易事，其中存在着诸多关键点和挑战。作为一名非资深IT技术顾问，我将基于丰富的实战经验，为大家深入剖析构建高效RAG流程的七个关键点及其落地实践。一、文档解析：混合格式的“第一道坎”在企
使用中转API在Python中调用大型语言模型 (LLM) 的实践** qq_37836323 python 语言模型开发语言
**在人工智能技术中，大型语言模型(LLM)已成为自然语言处理(NLP)和生成任务的重要工具。然而，由于网络限制，直接访问OpenAI的API在中国可能面临挑战。因此，本文将介绍如何使用中转API地址http://api.wlai.vip来调用LLM，并提供相关的demo代码。什么是大型语言模型(LLM)？大型语言模型是一种深度学习模型，训练于大量文本数据上，能够生成、总结、翻译和回答问题等。Op
大模型【进阶】（四）QWen模型架构的解读 ReinaXue 人工智能 transformer 语言模型迁移学习 AudioLM 语音识别神经网络
一、Qwen大模型的背景Qwen（通义千问）是阿里巴巴云开发的大型语言模型（LLM）和多模态模型系列，旨在提供强大的自然语言理解、文本生成、图像理解、音频处理及工具使用能力。Qwen系列包括Qwen、Qwen1.5、Qwen2、Qwen2.5和Qwen3等版本，涵盖了从小型（0.5B参数）到超大型（480B参数）的模型规模，支持多语言（119种语言）和多模态任务（文本、图像、音频、视频）。本文将重
2025年最新五大顶级大模型技术对比分析报告 it_czz 人工智能
2025年最新五大顶级大模型技术对比分析报告执行摘要本报告基于2025年最新数据，深度分析当前最顶尖的5个已发布大语言模型：KimiK2(月之暗面)、Claude3.5Sonnet、GPT-4o、Gemini2.5Pro、DeepSeekR1，从技术架构、成本效益、性能表现、适配场景等多个维度进行全面对比。核心发现KimiK2：中文优化最强，超长上下文处理能力突出，本土化程度最高Claude3.5
AI+MCP智能研判系统架构
AI+MCP智能研判系统架构1.系统概述1.1核心理念AI+MCP智能研判系统是一个创新的网络安全分析平台，通过将大语言模型（LLM）的智能理解能力与MCP（ModelContextProtocol）协议的标准化工具调用能力相结合，实现了"自然语言提问→AI智能理解→MCP工具调用→AI深度研判→智能结果输出"的完整闭环。1.2技术创新点智能意图识别：基于LLM的自然语言理解，自动解析用户查询意图
优化提示内容生成技术框架：提示工程架构师的坚实后盾
优化提示内容生成技术框架：提示工程架构师的坚实后盾引言背景：大语言模型时代的“提示瓶颈”当GPT-4、Claude3、Gemini等大语言模型（LLM）的参数规模突破万亿、上下文窗口扩展至百万token时，一个矛盾逐渐凸显：模型能力的跃升与提示质量的滞后，正在成为制约AI应用落地的核心瓶颈。2023年斯坦福大学的研究显示，在企业级LLM应用中，70%的功能故障源于提示设计缺陷——或因指令模糊导致输
从0搭建到持续优化：提示工程架构师的评估体系迭代全流程
从0搭建到持续优化：提示工程架构师的评估体系迭代全流程引言：AI时代的关键角色与评估挑战在人工智能技术迅猛发展的今天，提示工程(PromptEngineering)已从一个小众技能演变为决定AI系统成败的核心能力。随着大语言模型(LLM)能力的不断增强，提示工程架构师(PromptEngineeringArchitect)作为一个新兴职业应运而生，成为连接业务需求与AI能力的关键桥梁。为什么提示工
！LangChain代理决策架构与源码深度剖析(75)
LangChain代理决策架构与源码深度剖析一、LangChain代理决策架构概述1.1代理决策架构的核心组件LangChain代理的决策架构是其智能交互的核心，主要由大语言模型（LLM）、工具集（Tools）、提示模板（PromptTemplate）、规划器（Planner）、执行器（Executor）和反馈机制六大组件构成。这些组件通过协同工作，实现从用户输入解析到最终结果输出的完整决策流程。
Crome：因果鲁棒奖励建模框架——破解LLM对齐中的奖励黑客难题大千AI助手人工智能 #OTHER Python 人工智能深度学习神经网络大模型因果推断奖励黑客 RewardHacking
Crome（CausalRobustRewardModeling）是由GoogleDeepMind联合麦吉尔大学和魁北克人工智能研究所（MILA）于2025年提出的创新框架，旨在解决大语言模型（LLM）对齐中奖励模型（RM）的奖励黑客（RewardHacking）问题。该框架通过因果数据增强与反事实训练机制，显著提升RM对真实质量属性（如事实性、安全性）的敏感性，同时抑制对虚假属性（如文本长度、格
LIMO：仅需817样本激活大模型数学推理能力，挑战“数据规模至上”传统范式大千AI助手人工智能 #OTHER #Prompt 人工智能机器学习神经网络算法大模型 LIMO LessIsMore
“以认知模板唤醒沉睡知识，让推理能力在精不在多”LIMO是由上海交通大学、SII（ShanghaiArtificialIntelligenceLaboratory）、GAIRLab联合提出的突破性研究（2025年2月发表），其核心颠覆了传统AI领域“复杂推理需海量训练数据”的认知，证明仅用817个高质量样本即可激发大语言模型（LLMs）的数学推理能力，在AIME、MATH等竞赛级任务中超越使用10
【Ollama】大模型本地部署与 Java 项目调用指南科马 LLM java 开发语言 llama 语言模型
Ollama大模型本地部署与Java项目调用指南一、引言背景介绍Ollama是一个轻量级的大语言模型部署工具，支持快速在本地拉取、运行主流开源模型（如LLaMA3、Mistral、Gemma等）。它简化了模型部署的过程，内置RESTfulAPI，使得开发者可以像调用本地服务一样使用强大的大模型能力。本文将介绍如何在本地部署Ollama模型，并通过Java项目调用Ollama提供的API接口，实现本
人机协作革命：AI原生应用的商业化路径探索 AGI大模型与大数据研究院 AI-native ai
人机协作革命：AI原生应用的商业化路径探索关键词：AI原生应用、人机协作、商业化路径、智能代理、大语言模型、AI产品设计、价值闭环摘要：本文深入探讨AI原生应用在商业化过程中的关键路径和挑战。我们将从技术架构、产品设计和商业模式三个维度，分析如何构建可持续的AI商业生态。通过解析智能代理系统、价值闭环设计等核心概念，结合多个行业案例，为开发者提供从技术实现到商业变现的全链路思考框架。背景介绍目的和
DesktopCommanderMCP：深度部署与使用指南皓月照山川 AI人工智能人工智能自动化运维 windows
DesktopCommanderMCP：深度部署与使用指南引言DesktopCommanderMCP是一个强大的本地化模型上下文协议（ModelContextProtocol,MCP）服务器，它通过为大型语言模型（如Claude）提供与其桌面环境直接交互的能力，极大地扩展了AI助手的应用边界。它允许模型执行终端命令、管理文件系统、控制进程，从而实现从代码编写、项目构建到系统管理的端到端自动化工作流
提示工程监控不到位：5个未做日志记录导致的排查困难
提示工程监控不到位：5个未做日志记录导致的排查困难关键词：提示工程,日志记录,LLM应用调试,AI监控,排查困难,提示模板,上下文追踪摘要：在大语言模型(LLM)应用爆发的时代，提示工程已成为连接人类需求与AI能力的核心桥梁。但多数开发者聚焦于"如何写好提示"，却忽视了"如何记录提示"——日志记录作为提示工程的"黑匣子"，直接决定了AI应用故障排查的效率与准确性。本文通过5个真实场景案例，深入浅出
提示工程中的上下文窗口优化：架构师提升模型记忆的关键 AI实战架构笔记 ai
提示工程中的上下文窗口优化：架构师提升模型记忆的关键元数据标题：提示工程中的上下文窗口优化：架构师提升模型记忆的关键策略与实践指南关键词：上下文窗口管理、提示工程架构、大型语言模型优化、注意力机制效率、长序列处理、记忆增强技术、动态上下文规划摘要：在大型语言模型(LLM)应用中，上下文窗口是连接模型能力与实际需求的关键桥梁。本文从架构师视角，系统探讨上下文窗口优化的理论基础、设计原则与实施策略。通
实践篇：构建基于LLM与本地Pandas的混合式数据分析引擎超人阿亚 pandas 数据分析数据挖掘
公众号：dify实验室基于LLMOps平台-Dify的一站式学习平台。包含不限于：Dify工作流案例、DSL文件分享、模型接入、Dify交流讨论等各类资源分享。在上一篇《思路探索：当大型语言模型遇见数据分析的现实挑战》中，我们阐述了团队确立的技术路线：利用大型语言模型（LLM）作为自然语言到代码的“翻译器”，并结合PythonPandas库作为后端的高性能“计算核心”。本文将从工程实践的角度，详细
2024智能交通趋势：提示工程架构师用AI提示词引领技术变革 AIGC应用创新大全人工智能 ai
2024智能交通趋势：提示工程架构师用AI提示词引领技术变革副标题：从自动驾驶决策到城市交通大脑——大语言模型提示工程实战指南摘要/引言问题陈述：智能交通系统正面临前所未有的复杂性挑战——自动驾驶车辆需要实时处理多源异构数据，城市交通管理需平衡效率与安全，出行服务平台要满足个性化需求。传统AI开发模式依赖大量标注数据和专业领域知识，导致系统迭代缓慢、场景适应性差。当大语言模型(LLM)成为通用人工
思路探索：当大型语言模型遇见数据分析的现实挑战
大家好，我是dify实验室的阿亚。近期，我们团队启动了一项旨在简化数据分析流程的探索性项目。我们的目标是构建一个能够通过自然语言进行交互的数据分析工具，让业务人员无需编写复杂的查询语句，仅通过提问即可获取数据洞察。然而，在将这一构想付诸实践的过程中，我们遇到了一系列预料之外的挑战。本文旨在记录我们的探索路径与思考沉淀。一、第一阶段探索：直接利用大模型进行数据分析项目初期，我们最直接的设想是利用大型
字节跳动Coze Studio开源了！架构解析 GISer_Jinger 中大厂面试项目开源架构前端 javascript
CozeStudio是字节跳动推出的一款AI应用开发平台，专注于帮助开发者快速构建、测试和部署基于大语言模型的智能应用。其整体架构围绕“低代码开发AI应用”的核心目标设计，融合了模型能力、工具集成、流程编排和多端部署等功能。以下是其整体架构的详细解析：1.前端交互层（UILayer）核心功能：提供可视化操作界面，是开发者与平台交互的入口，聚焦于低代码开发体验。主要组件：应用编辑器：支持拖拽式流程编
Java中的模型API、RAG与向量数据库：构建智能应用的新范式张道宁人工智能
引言在当今人工智能迅猛发展的时代，Java开发者如何利用最新的AI技术构建智能应用？本文将深入探讨模型API、检索增强生成(RAG)和向量数据库这三种关键技术，以及它们如何协同工作来提升Java应用的智能化水平。一、模型API：Java中的AI能力接入1.1什么是模型API模型API是大型语言模型(LLM)提供的编程接口，允许开发者通过HTTP请求与AI模型交互。在Java生态中，我们可以通过多种
详细指南:如何使用WildCard升级到ChatGPT 4.0 扑扑特桔 chatgpt AIGC ChatGPT ChatGPT plus openai
1.了解ChatGPT自从ChatGPT3.5发布以来,它便吸引了无数人的注意。今天我们要聊的,是它的继任者——ChatGPT-4.0。1.1什么是ChatGPT-4.0？ChatGPT-4.0是由OpenAI研发的一款先进的人工智能语言模型。相比于其前任,它在自然语言的理解和生成上,有了更进一步的提升。想象一下,这个模型能更流畅地对话,理解复杂问题,并且在执行各种任务时都能提供更精准的答案。从信
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

输入GSM8K数据集对Llama2-int4模型进行性能评估

gguf 格式

使用 Llama 模型和 gguf 格式

ROUGE 分数概述

ROUGE 分数的计算方法

什么是 n-gram？

n-gram 的定义：

n-gram 在 NLP 中的应用

什么是 BLEU（Bilingual Evaluation Understudy）？

BLEU 评分的计算步骤

什么是困惑度（Perplexity）？

困惑度的定义

交叉熵和困惑度的关系

困惑度的直观解释

1. 批量推理（Batch Inference）

2. 并行化推理

3. 使用更小的模型

4. 量化模型

5. 使用更强的硬件（GPU / 专用加速器）

6. 推理时减少计算量

7. 优化数据传输

8. 调整模型推理策略

9. 使用高效推理库

你可能感兴趣的:(语言模型)