码农三叔

(9-4-01)MM-Vet多模态大模型评估系统：多模态大模型评估

9.4 多模态大模型评估

在本项目中，通过文件mm-vet-v2_evaluator.py评估常见多模态模型在 MM-Vet-v2 数据集上的表现。通过预定义的提示和 GPT 模型，对比模型的预测结果与标准答案，生成准确性评分，并支持多次运行以统计稳定性。最终，将评分结果保存为 JSON 文件，并导出能力和能力整合评估的 CSV 报告，用于分析模型的性能和能力分布。

文件mm-vet-v2_evaluator.py的具体实现流程如下所示。

（1）下面代码的功能是实现对大模型预测结果与人工标注的正确答案之间的比较，并根据一定的规则为预测结果生成一个准确性得分（Correctness Score）。这段代码在构建自动化评估工具时具有广泛的适用性，特别是用于生成式 AI 模型的性能比较和优化。

prompt = """Compare the ground truth and prediction from AI models, to give a correctness score for the prediction.  in the question indicates where an image is.  in the ground truth means it is totally right only when all elements in the ground truth are present in the prediction, and  means it is totally right when any one element in the ground truth is present in the prediction. The correctness score is 0.0 (totally wrong), 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, or 1.0 (totally right). Just complete the last space of the correctness score.

| Question | Ground truth | Prediction | Correctness |
| --- | --- | --- | --- |
| What is x in the equation? | -1  -5 | x = 3 | 0.0 |
| What is x in the equation? | -1  -5 | x = -1 | 0.5 |
| What is x in the equation? | -1  -5 | x = -5 | 0.5 |
| What is x in the equation? | -1  -5 | x = -5 or 5 | 0.5 |
| What is x in the equation? | -1  -5 | x = -1 or x = -5 | 1.0 |
| Can you explain this meme? | This meme is poking fun at the fact that the names of the countries Iceland and Greenland are misleading. Despite its name, Iceland is known for its beautiful green landscapes, while Greenland is mostly covered in ice and snow. The meme is saying that the person has trust issues because the names of these countries do not accurately represent their landscapes. | The meme talks about Iceland and Greenland. It's pointing out that despite their names, Iceland is not very icy and Greenland isn't very green. | 0.4 |
| Can you explain this meme? | This meme is poking fun at the fact that the names of the countries Iceland and Greenland are misleading. Despite its name, Iceland is known for its beautiful green landscapes, while Greenland is mostly covered in ice and snow. The meme is saying that the person has trust issues because the names of these countries do not accurately represent their landscapes. | The meme is using humor to point out the misleading nature of Iceland's and Greenland's names. Iceland, despite its name, has lush green landscapes while Greenland is mostly covered in ice and snow. The text 'This is why I have trust issues' is a playful way to suggest that these contradictions can lead to distrust or confusion. The humor in this meme is derived from the unexpected contrast between the names of the countries and their actual physical characteristics. | 1.0 |
"""

（2）下面代码定义了函数 arg_parser，其功能是通过 argparse 模块创建一个命令行参数解析器，用于解析和管理运行时参数。主要的用途是设置路径、模型、提示词（prompt）、API密钥、评估细节等相关配置，以便执行基于多模态或语言模型的任务。它允许用户自定义运行的参数，也提供了默认值，便于快速实验。

def arg_parser(prompt=prompt):
    parser = argparse.ArgumentParser()
    parser.add_argument(
        "--mmvetv2_path",
        type=str,
        default="/path/to/mm-vet-v2",
        help="下载 mm-vet.zip 并解压 `unzip mm-vet.zip`，然后在这里更改路径",
    )
    parser.add_argument(
        "--result_file",
        type=str,
        default="results/llava_llama2_13b_chat.json",
        help="模型结果文件路径，必须以 .json 结尾",
    )
    parser.add_argument(
        "--result_path",
        type=str,
        default="results",
        help="保存评分结果的路径",
    )
    parser.add_argument(
        "--openai_api_key", 
        type=str, 
        default=None,
        help="如果未指定，则使用环境变量 OPENAI_API_KEY。",
    )
    parser.add_argument(
        "--gpt_model", 
        type=str, 
        default="gpt-4-0613", 
        help="GPT 模型名称",
    )
    parser.add_argument(
        "--prompt", 
        type=str, 
        default=prompt, 
        help="模型使用的提示词",
    )
    parser.add_argument(
        "--subset",
        type=str,
        default=None,
        help="包含评估 ID 的 JSON 文件路径",
    )
    parser.add_argument(
        "--decimal_places",
        type=int,
        default=1,
        help="保留小数位数",
    )
    parser.add_argument(
        "--num_run",
        type=int,
        default=1,
        help="我们在论文中设置为 5",
    )
    args = parser.parse_args()
    return args

（3）函数 get_file_names 的功能是根据输入参数动态生成和返回三个文件路径，分别用于存储评分结果、能力评分结果和能力整合评分结果。这些路径基于模型名称、子集名称、GPT 模型版本和运行次数等参数动态拼接生成，并与结果目录合并，以便后续读取和存储。

def get_file_names(args, model, subset_name):
    # 保存每个样本的评分结果文件
    grade_file = f"{model}_{args.gpt_model}-grade-{args.num_run}runs_dev8.json"
    grade_file = os.path.join(args.result_path, grade_file)

    # 保存与能力/能力整合相关的评分结果文件
    cap_score_file = (
        f"{model}_{subset_name}{args.gpt_model}-cap-score-{args.num_run}runs_dev8.csv"
    )
    cap_score_file = os.path.join(args.result_path, cap_score_file)
    cap_int_score_file = f"{model}_{subset_name}{args.gpt_model}-cap-int-score-{args.num_run}runs_dev8.csv"
    cap_int_score_file = os.path.join(args.result_path, cap_int_score_file)

    # 返回生成的文件路径
    return grade_file, cap_score_file, cap_int_score_file

（4）函数load_metadata的主要功能是加载元数据文件（mm-vet-v2.json）和一个可选的子集文件（args.subset），解析并统计与任务能力相关的信息，包括能力类别的计数、组合及其分布。函数返回多个关键数据结构（如计数器、数据框等）以便后续使用，特别是处理能力类别组合的排序、名称生成以及数据框的初始化。

def load_metadata(args):
    # 加载用户指定的子集文件（如果提供）
    if args.subset:
        with open(args.subset, "r") as f:
            subset = json.load(f)
        
        # 提取子集名称（文件名去掉扩展名）
        subset_name = pathlib.Path(args.subset).stem
        subset_name = subset_name + "_"
    else:
        subset = None
        subset_name = ""

    # 加载主元数据文件 mm-vet-v2.json
    mmvet_metadata = os.path.join(args.mmvetv2_path, "mm-vet-v2.json")
    with open(mmvet_metadata, "r") as f:
        data = json.load(f)

    # 初始化统计相关的数据结构
    counter = Counter()  # 用于统计每种能力的出现次数
    cap_set_list = []  # 存储能力组合的列表
    cap_set_counter = []  # 存储每个能力组合的计数
    len_data = 0  # 子集数据总量

    # 遍历数据条目，统计能力和能力组合的分布
    for id, value in data.items():
        # 如果子集文件存在，跳过不在子集中的数据
        if subset is not None and id not in subset:
            continue

        # 获取当前条目的能力集合
        cap = value["capability"]
        cap = set(cap)

        # 更新能力计数器
        counter.update(cap)

        # 如果能力组合是新的，添加到列表并初始化计数
        if cap not in cap_set_list:
            cap_set_list.append(cap)
            cap_set_counter.append(1)
        else:
            # 增加已有能力组合的计数
            cap_set_counter[cap_set_list.index(cap)] += 1

        # 增加子集数据计数
        len_data += 1

    # 对能力计数器按出现频率降序排序
    sorted_list = counter.most_common()
    columns = [k for k, v in sorted_list]
    # 为数据框添加额外列
    columns.append("total")
    columns.append("std")
    columns.append("runs")
    df = pd.DataFrame(columns=columns)

    # 对能力组合按频率降序排序
    cap_set_sorted_indices = np.argsort(-np.array(cap_set_counter))
    new_cap_set_list = []
    new_cap_set_counter = []
    for index in cap_set_sorted_indices:
        new_cap_set_list.append(cap_set_list[index])
        new_cap_set_counter.append(cap_set_counter[index])

    cap_set_list = new_cap_set_list
    cap_set_counter = new_cap_set_counter
    # 将能力组合转换为字符串名称
    cap_set_names = ["_".join(list(cap_set)) for cap_set in cap_set_list]

    # 为能力组合初始化数据框
    columns2 = cap_set_names
    columns2.append("total")
    columns2.append("std")
    columns2.append("runs")
    df2 = pd.DataFrame(columns=columns2)

    # 返回解析和统计结果
    return (
        subset,
        subset_name,
        data,
        counter,
        cap_set_list,
        cap_set_counter,
        len_data,
        df,
        df2,
        cap_set_names,
    )

（5）函数runs()的主要功能是使用指定的 GPT 模型对 AI 模型的预测结果进行多次评估，输出评分结果并保存到文件中。函数runs()的主要实现步骤如下：

加载评估所需的预测结果文件和已有评分结果（如果存在）。
检查是否需要更多运行以满足配置的运行次数。
遍历每个数据条目，生成问题提示（prompt），并将问题与预测传递给 GPT 模型。
解析 GPT 的响应以提取评分，记录模型的输出和评分。
支持处理响应错误和重试逻辑，确保评分的准确性。
将评分结果实时保存到指定文件。

def runs(
    args,
    grade_file,
    data,
    len_data,
    subset=None,
):
    # 加载模型预测结果文件
    with open(args.result_file) as f:
        results = json.load(f)

    # 如果评分结果文件存在，加载已保存的评分结果；否则初始化为空
    if os.path.exists(grade_file):
        with open(grade_file, "r") as f:
            grade_results = json.load(f)
    else:
        grade_results = {}

    # 检查是否需要更多运行以满足指定运行次数
    def need_more_runs(args, grade_results, len_data):
        need_more_runs = False
        if len(grade_results) > 0:
            for k, v in grade_results.items():
                if len(v["score"]) < args.num_run:
                    need_more_runs = True
                    break
        return need_more_runs or len(grade_results) < len_data

    # 当需要更多运行时，继续评估
    while need_more_runs(args, grade_results, len_data):
        for j in range(args.num_run):
            print(f"eval run {j}")
            for id, line in tqdm(data.items()):
                # 如果提供了子集，跳过子集之外的条目
                if subset is not None and id not in subset:
                    continue
                # 如果该条目的当前运行已经评分，则跳过
                if id in grade_results and len(grade_results[id]["score"]) >= (j + 1):
                    continue

                # 获取模型预测结果
                model_pred = results[id]

                # 构造问题文本，将替换为
                queries = line['question'].split('')
                query = ""
                for q in queries:
                    if q.endswith((".jpg", "jpeg", ".png")):
                        query += ""
                    else:
                        query += q
                question = prompt + '| ' + ' | '.join([
                    query.replace('\n', '
'),
                    line['answer'].replace("", "  ").replace("", "  ").replace('\n', '
'),
                    model_pred.replace('\n', '
'),
                    ""
                ])

                # 构建消息内容
                messages = [
                    {"role": "user", "content": question},
                ]

                # 初始化条目评分
                if id not in grade_results:
                    sample_grade = {"model": [], "content": [], "score": []}
                else:
                    sample_grade = grade_results[id]

                # 开始尝试评分，设置初始温度
                grade_sample_run_complete = False
                temperature = 0.0

                while not grade_sample_run_complete:
                    try:
                        # 调用 GPT 模型获取响应
                        response = client.chat.completions.create(
                            model=args.gpt_model,
                            max_tokens=3,
                            temperature=temperature,
                            messages=messages,
                        )
                        content = response.choices[0].message.content
                        # 提取评分值
                        flag = True
                        try_time = 1
                        while flag:
                            try:
                                content = content.split(" ")[0].strip()
                                score = float(content)
                                if score > 1.0 or score < 0.0:
                                    assert False
                                flag = False
                            except:
                                # 如果解析失败，生成新的提示语重试
                                question_try = question + "\n\nPredict the correctness of the answer (digit): "
                                messages = [
                                    {"role": "user", "content": question_try},
                                ]
                                response = client.chat.completions.create(
                                    model=args.gpt_model,
                                    max_tokens=3,
                                    temperature=temperature,
                                    messages=messages,
                                )
                                content = response.choices[0].message.content
                                try_time += 1
                                temperature += 0.5
                                print(f"{id} try {try_time} times")
                                print(content)
                                if try_time > 5:  # 超过最大重试次数，评分置为 0.0
                                    score = 0.0
                                    flag = False
                        grade_sample_run_complete = True
                        response_model = response.model
                    except RateLimitError as e:
                        # 如果触发速率限制，暂停一段时间
                        print("sleep 30s")
                        time.sleep(30)
                    except BadRequestError as e:
                        # 捕获无效请求错误，记录默认值并退出评分循环
                        content = "BadRequestError"
                        score = 0.0
                        flag = False
                        print(id, "BadRequestError")
                        response_model = args.gpt_model
                        break

                # 更新评分结果
                if len(sample_grade["model"]) >= j + 1:
                    sample_grade["model"][j] = response_model
                    sample_grade["content"][j] = content
                    sample_grade["score"][j] = score
                else:
                    sample_grade["model"].append(response_model)
                    sample_grade["content"].append(content)
                    sample_grade["score"].append(score)
                grade_results[id] = sample_grade

                # 保存评分结果到文件
                with open(grade_file, "w") as f:
                    json.dump(grade_results, f, indent=4)

    return grade_results

（6）函数export_result的主要功能是基于评估结果生成两个数据表格（df 和 df2），统计不同能力及其组合的得分表现，并将结果导出为 CSV 文件保存。具体过程包括：

初始化能力得分统计字典 cap_scores 和能力组合得分字典 cap_scores2。
遍历评估结果，根据能力类别和能力组合累加对应的得分。
计算各能力的平均得分及标准差，并更新数据框。
将数据表保存为 CSV 文件供后续分析使用。

def export_result(args, model, df, df2, grade_results, data, cap_set_counter, cap_set_names):
    # 初始化能力得分字典，记录每次运行的得分
    columns = df.columns
    columns2 = df2.columns

    # 为每种能力初始化一个包含运行次数的得分列表
    cap_scores = {k: [0.0] * args.num_run for k in columns[:-2]}
    counter["total"] = len_data  # 记录总样本数

    # 初始化能力组合的得分字典
    cap_scores2 = {k: [0.0] * args.num_run for k in columns2[:-2]}
    counter2 = {columns2[i]: cap_set_counter[i] for i in range(len(cap_set_counter))}
    counter2["total"] = len_data

    # 遍历评估结果，累加得分
    for k, v in grade_results.items():
        # 如果提供了子集，仅处理子集内的数据
        if subset is not None and k not in subset:
            continue

        # 遍历每次运行的得分
        for i in range(args.num_run):
            score = v["score"][i]
            caps = set(data[k]["capability"])  # 获取当前样本的能力类别

            # 累加能力类别的得分
            for c in caps:
                cap_scores[c][i] += score
            cap_scores["total"][i] += score

            # 找到当前能力组合的索引并累加得分
            index = cap_set_list.index(caps)
            cap_scores2[cap_set_names[index]][i] += score
            cap_scores2["total"][i] += score

    # 计算能力类别的平均得分
    for k, v in cap_scores.items():
        cap_scores[k] = np.array(v) / counter[k] * 100

    # 计算总得分的标准差和每次运行的平均值
    std = round(cap_scores["total"].std(), args.decimal_places)
    total_copy = cap_scores["total"].copy()
    runs = str(list(np.round(total_copy, args.decimal_places)))

    # 更新每个能力类别的平均得分
    for k, v in cap_scores.items():
        cap_scores[k] = round(v.mean(), args.decimal_places)

    # 将总得分的标准差和运行记录添加到结果
    cap_scores["std"] = std
    cap_scores["runs"] = runs
    df.loc[model] = cap_scores

    # 计算能力组合的平均得分
    for k, v in cap_scores2.items():
        cap_scores2[k] = round(
            np.mean(np.array(v) / counter2[k] * 100), args.decimal_places
        )
    cap_scores2["std"] = std
    cap_scores2["runs"] = runs
    df2.loc[model] = cap_scores2

    # 导出结果到 CSV 文件
    df.to_csv(cap_score_file)
    df2.to_csv(cap_int_score_file)

    return df, df2

（7）下面这段代码是主程序入口，完成了以下功能：

解析命令行参数：通过 arg_parser() 获取用户输入的参数。
验证输入参数的合法性：
确保提供的结果文件路径存在。
确保结果文件的格式为 JSON。
加载 OpenAI API 客户端：基于提供的 API 密钥或环境变量 OPENAI_API_KEY 初始化 OpenAI 客户端。
加载元数据：通过调用 load_metadata(args) 获取模型能力及评估数据相关的信息。
生成文件路径：通过 get_file_names 生成评分文件和能力得分保存文件的路径。
运行评估过程：调用 runs 函数，对模型的输出进行多次运行评估，并保存结果。
导出结果：通过 export_result 函数生成能力类别及组合得分的 CSV 文件。
打印结果：输出评分结果和保存路径。

if __name__ == "__main__":
    # 解析命令行参数
    args = arg_parser()

    # 设置 OpenAI API 密钥
    if args.openai_api_key:
        OPENAI_API_KEY = args.openai_api_key
    else:
        OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

    # 初始化 OpenAI 客户端
    client = OpenAI(
        api_key=OPENAI_API_KEY
    )

    # 验证结果文件的存在性和格式
    if os.path.exists(args.result_file) is False:
        import pdb; pdb.set_trace()
        raise ValueError("结果文件不存在")
    if not args.result_file.endswith(('.json', '.JSON')):
        raise ValueError("结果文件应为 JSON 格式")

    # 提取模型名称
    model = pathlib.Path(args.result_file).stem

    # 加载元数据
    metadata = load_metadata(args)
    (
        subset,
        subset_name,
        data,
        counter,
        cap_set_list,
        cap_set_counter,
        len_data,
        df,
        df2,
        cap_set_names,
    ) = metadata

    # 生成评分和能力得分文件的路径
    file_names = get_file_names(args, model, subset_name)
    (
        grade_file,
        cap_score_file,
        cap_int_score_file,
    ) = file_names

    # 对模型输出进行评估
    grade_results = runs(
        args,
        grade_file,
        data,
        len_data,
        subset,
    )

    # 导出能力得分结果
    df, df2 = export_result(
        args,
        model,
        df,
        df2,
        grade_results,
        data,
        cap_set_counter,
        cap_set_names,
    )

    # 打印结果及保存路径
    print(df)
    print("\n")
    print(df2)
    print("\n")
    print(f"评分结果已保存于:\n{grade_file}\n{cap_score_file}\n{cap_int_score_file}")

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
今晚吃太饱了爱伤心的蚂蚁
今晚吃太饱了，两碗干饭，两碗肉汤，一碗牛奶银耳汤，感觉肚子都顶出来了，圆滚滚的！明早要早起，出发去小蚂蚁家！看着剩下的肉汤，倒掉多可惜，干掉了！看着小蚂蚁熬的银耳汤，倒掉多可惜，于是热了一下，顺便热袋牛奶倒进去，大娃喝点，小蚂蚁喝点，还剩下一大碗，继续干掉！吃的太饱，人也懒洋洋的，躺床上不想动，感受的肚子撑撑的感觉，好久没吃这么饱了！这一晚灌的都是汤汤水水的，天冷的晚上，半夜要睡不安稳咯！哈哈！小
你对待万事万物的态度行靜
昨晚爸爸把洒水壶灌满水，对我说：你也该去浇浇你阳台上的花咯。这么大的天气，几天没浇水都快死了。我才意识到自己容易突然间忽视一些事情。尤其是身旁的一些事，可能它们呆久了，反而习以为常。想想每天的生活状态就是在不断的重复着一些事，有点固定模式。没有什么特别发生。记录我的一天：上班，挤公交，用手机或电脑，吃饭，上课。没有
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
承德十大亲子鉴定医院名单(附2024年10所正规医院) 国医基因陈主任
承德哪家医院可以做亲子鉴定？承德市中心医院、中国人民解放军第二六六医院、承德医学院附属医院等都可以做常规亲子鉴定采样采集，一般的医院并不可以为你提供常规亲子鉴定检测的服务。承德亲子鉴定中心地址：承德市西大街路北11号（承德国医基因）。一般只有少数三甲医院可以做亲子鉴定采样，或者当地亲子鉴定中心可以做亲子鉴定。如果想做亲子鉴定，最好直接到亲子鉴定中心内或亲子鉴定医院采样点内进行双方抽血鉴定，这样会更
践行8.0~第六周11.25-12.02 初队长
突破后的喜悦最可怕的不是自己不清楚，而是自己清楚了，却依然不心动，我想这就是我们每个人的惰性存在，在这一周的践行，我发现自己依然是停留在自己的模式当中，不断的恶性的轮回，虽然的话，那再晨间日记方面是纸质的填写，但是对一天的工作没有起到应有的计划和推动的作用而我自己呢，也有些时候的话会处于一个相对来讲放松的一个状态，时间的把控的话也有一些点的消极，所以在这周的间隙，重点是关注自己的三大目标为目标来进
5G基站信号加速器！AD8021ARZ-REEL7亚德诺超低噪声高速电压放大器专利失真消除技术! 深圳市尚想信息技术有限公司 5G通信高速运放 ADI黑科技 8K视频医疗超声
AD8021ARZ-REEL7ADI：重新定义高速放大器的性能极限！一、产品简介AD8021ARZ-REEL7是ADI（亚德诺半导体）推出的超低噪声高速电压反馈放大器，采用XFCB工艺和专利失真消除技术，专为4K/8K视频处理、医疗成像、5G通信等超高频应用设计。以1.8GHz带宽和0.1nV/√Hz超低噪声，成为高速信号调理的终极解决方案！二、五大颠覆性优势军工级信号保真度1.8GHz-3dB带
打造自己的梦想生态系统轻风style
今天听了第5周5.1的梦想系统和随堂练习：梦想仓库与八大关注表。参照老师给出的例子，列出了八大关注对应的自己的梦想。有些写的时候内心都在怀疑，但因为老师有说到，要没有分别心的去列出，不管是近的，远的，小的，大的，自己觉得可以实现的，或者觉得根本不可能实现的，都统统的列出来。就像音频中提到的，林语堂说过的话，梦想无论怎样模糊，总潜伏在我们心底，使我们的心境永远得不到宁静，直到这些梦想成为事实才止；像
我是孩子妈妈，我会让孩子饿着吗？松玲子
回老家过年，就是一场在关于喂养孩子问题上与老人的巅峰对决。前天我们回老家了，他爷爷奶奶就说孩子瘦了，就说我喂的不好，不按时喂，第一天夜里孩子总是睡一会就哭，睡一会就哭，夜里不知醒了多少次，弄得我真是几乎彻夜未眠。一大早，我还没起，我就听见他爷爷奶奶在外边说，今黑夜阳阳怎么老哭，是不是饿的，然后又延伸到我喂养的问题上，说不吃盐不行，不吃盐孩子没劲，吃蛋光吃个蛋黄，吃不饱，给他吃全蛋就行，哎呀我去，我
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
D124:如何训练独立思考力？大栗子_
当我们要判断一个理论或者思想是否正确，需要有三个层次，分别是体验、解释和分析。首先看体验。很多时候，我们会相信“听上去、感觉是对的”的事情。我们之前讲的太空笔的故事之所以大多数人都认为是对的，就是有一些看似真实的关键词，比如美国，NASA，设计等，这些词看起来非常权威，但是离我们又遥远，这时候我们的大脑就会放松警惕了。于是，我们毫不犹豫就接受了。说到这里，你有没有发现之前的电视广告中的各种高让我们
社交电商平台有哪些？社交电商怎么做？氧惠评测
社交电商平台有很多，以下是一些常见的社交电商平台：氧惠APP是与以往完全不同的抖客+淘客app！2024全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（训练营导师每天出单带货几万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大礼包，教你如何1年做到百万团队。珊珊导师氧惠邀请码888999，注册送万元推广大礼包，教你如何1年做到百万团队。氧惠app：氧惠ap
京东中秋节会打折吗？京东中秋节活动力度大吗？高省APP珊珊
京东中秋节会打折，并且活动力度通常是比较大的。以下是具体分析：京东中秋节打折情况降价促销：京东在中秋节期间会推出大规模的降价促销活动，涵盖食品、家居、家电等多个品类，以及众多热门品牌。消费者可以在此期间享受到实实在在的降价优惠。多种优惠形式：除了直接的降价促销，京东还会通过满减优惠、折扣促销、限时秒杀等多种形式的优惠活动来吸引消费者。这些优惠活动通常具有较高的吸引力，能够激发消费者的购买欲望。目前
Android 应用权限管理详解
文章目录1.权限类型2.权限请求机制3.权限组和分级4.权限管理的演进5.权限监控和SELinux强制访问控制6.应用权限审核和GooglePlayProtect7.开发者最佳实践8.用户权限管理9.Android应用沙箱模型10.ScopedStorage（分区存储）11.背景位置权限（BackgroundLocationAccess）12.权限回收和自动清理13.权限请求的用户体验设计14.G
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
农场种蔬菜赚钱小游戏有哪些五大可以赚钱的小游戏APP 氧惠帮朋友一起省
喜欢种菜吗？我特意带来农场种蔬菜赚钱小游戏排行榜2022，线上汇集了超多模拟种菜玩法，玩家可以免费种植赚钱哦！每天都有大量的种植任务，线上完成就能赚钱哦！快来下载吧！1.氧惠APP购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面，送1:1超级补贴(邀请好友自购多少，你就推广得多少，非常厉害)，欢迎各位
严重的DDoS 攻击澳大利亚主要宽带提供商 Fancy1816575412
本周早些时候，澳大利亚最大的固定无线宽带运营商CirrusCommunications遭受了一次重大的DDoS攻击，导致其一半以上的网络瘫痪。该公司在其网站上声称：“强大的架构、数百个传输站点以及光纤和微波回程的使用使其能够以非常高的正常运行时间提供高速”。CirrusCommunications表示，它覆盖了澳大利亚十大人口中心以及几个主要的区域中心，主要为企业和政府客户提供服务。然而，据The
3次创业身价百亿，2年前却被大众判“死刑”，李想如今怎样了？职心眼儿
他，19岁放弃高考去创业；25岁，成为亿万富豪，被央视评为“80后创业”领军人物；39岁，身价再次暴涨，一夜间闯过200亿大关。他，在3个领域连续创业20年，一家公司市值700亿，一家公司市值2000亿。而他的最高学历，却只有高中。这个人，就是理想汽车的创始人——李想。纵观李想的创业史，可谓是颇为传奇：一个既没背景，又没资金高中毕业生，怎么就让3位互联网巨头（张一鸣、王兴、程维）同时为自己站台？更
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

(9-4-01)MM-Vet多模态大模型评估系统：多模态大模型评估

9.4 多模态大模型评估

你可能感兴趣的:(训练,RAG,多模态),人工智能,机器学习,计算机视觉,深度学习,多模态,大模型)