AI专题精讲

MATC：通过数学推理和图表还原增强视觉语言预训练

温馨提示：
本篇文章已同步至"AI专题精讲" MATC：通过数学推理和图表还原增强视觉语言预训练

摘要

视觉语言数据，如图表、图形和信息图，在人类世界中无处不在。然而，现有的最先进的视觉语言模型在这些数据上的表现并不理想。我们提出了MATCHA（数学推理与图表去渲染预训练），旨在增强视觉语言模型在联合建模图表/图形与语言数据方面的能力。具体而言，我们提出了几个预训练任务，涵盖了图形解构和数值推理，这些是视觉语言建模中的关键能力。我们从最近提出的图像到文本视觉语言模型Pix2Struct开始进行MATCHA预训练。在标准基准测试如PlotQA和ChartQA上，MATCHA模型比现有的最先进方法提高了近20%的性能。我们还考察了MATCHA预训练如何在截屏、教科书图表和文档图形等领域迁移，并观察到整体性能提升，验证了MATCHA预训练在更广泛的视觉语言任务中的实用性。

1 引言

视觉语言是使用紧密集成的文本和视觉元素传达意义的系统（Horn, 1998）。它在人类世界中无处不在，典型的例子包括图表、图形和图解，存在于教科书、科学论文、网页等地方。视觉语言也是高度复杂的——除了文本，它的结构单元还包括线条、形状、颜色、方向、尺度、角度、空间等。需要从这些结构单元中识别模式，并执行空间分组和/或对齐，以提取用于推理的信息。尽管视觉语言非常普遍且重要，但在机器学习社区中，关于视觉语言理解的研究相对较少。预训练于自然图像或从网络爬取的图像-文本对的视觉语言模型在视觉语言任务（如ChartQA (Masry et al., 2022) 和PlotQA (Methani et al., 2020)）上的表现较差，这是由于联合建模语言和符号的复杂性（实验中有更多证据）。Pix2Struct (Lee et al., 2023) 是一种最近提出的视觉定位语言预训练策略，显著优于标准的视觉语言模型，并且超越了广泛的基于OCR的管道方法。Pix2Struct设计了一种新颖的网页截图解析任务，并为图像到文本编码解码器Transformer（Vaswani et al., 2017）设计了可变分辨率输入表示。在这项工作中，我们使用Pix2Struct作为基础模型，并进一步通过图表去渲染和数学推理任务进行预训练。

我们认为，视觉语言理解需要两个关键要素：(1) 布局理解（包括数字提取及其组织），(2) 数学推理。(1) 需要发现图像的潜在模式并将图像中的元素以逻辑形式组织。(2) 需要对从(1)中提取的元素进行操作，并推导出任务或查询所要求的有意义信息。基于这些观察，我们提出了两个互补的预训练任务来增强视觉语言理解：图表去渲染和数学推理。在图表去渲染任务中，给定一个图表，图像到文本模型需要生成其底层数据表或用于渲染的代码。第二个任务是数学推理预训练。我们选择了两个数值推理数据集MATH (Saxton et al., 2019) 和DROP (Dua et al., 2019)，将输入渲染为图像，图像到文本模型需要解码答案。

我们使用一系列视觉语言任务来测试我们方法的有效性。 最重要的是，我们在ChartQA和PlotQA上进行测试，这些是关于图表和图形的问答数据集。在这两个数据集上，MATCHA甚至超越了假设能够访问图表底层数据表的最先进模型，并且在没有黄金数据表的情况下，比之前的最先进方法高出多达20%。我们还在图表到文本的总结任务上测试MATCHA，观察到它在Pix2Struct上有明显的改进，并在Chart-to-Text（Kantharaj et al., 2022）Pew拆分上达到了最先进的性能。最后，但同样重要的是，为了检验MATCHA预训练是否能迁移到标准图表和图形领域之外的数据集，我们还在四个额外的领域上测试了MATCHA，这些领域是Pix2Struct曾经评估过的：文档、插图、用户界面和自然图像（包括数据集，如教科书问答、控件说明等）。我们展示了与基础模型Pix2Struct相比，大多数附加数据集的持续改进。

总结，我们的贡献包括：(1) 提出了一组有效的预训练任务，用于视觉语言学习；(2) 展示了在所有评估任务中的一致性改进，并在ChartQA、PlotQA和Chart-to-Text总结（Statista集）上取得了最先进的结果，且未访问黄金数据表；(3) 验证了MATCHA预训练能迁移到视觉语言基准测试，超越图表和图形领域，并在图表领域以外的广泛数据集（如教科书VQA和控件说明）上实现了最先进的性能；(4) 进行了全面的消融实验和分析，以理解每个预训练组件的影响及其对下游任务性能的影响。

2 相关工作

视觉语言研究与对视觉语言的关注缺乏。视觉与语言的研究主要集中在自然图像上。视觉基础推理数据集如NLVR2（Suhr et al., 2019）和MaRVL（Liu et al., 2021）大多属于自然图像领域。合成数据集如SHAPES（Andreas et al., 2016）、NLVR（Suhr et al., 2017）和CLEVR（Johnson et al., 2017）可以看作是视觉语言领域。然而，它们的视觉语言系统明显比现实世界中的系统要简单，例如图表和图形。因此，从这些合成数据集中提取信息是直截了当的。此外，合成数据集中的查询通常比较简单，不需要复杂的推理（例如，问题通常关于空间关系或物体计数）。因此，当前的视觉语言模型能够很好地处理上述提到的合成视觉推理数据集。然而，它们在真实世界的视觉语言数据集上表现较差，这些数据集的信息提取和推理变得更加复杂（我们将在第4节中展示这一点）。

基于OCR和端到端方法的视觉定位语言。 LayoutLM（Xu et al., 2020；Huang et al., 2022）利用了patch-OCR对齐损失，将外部OCR系统的知识注入Transformer模型中。PresSTU（Kil et al., 2022）和PaLI（Chen et al., 2023）也设计了OCR感知的预训练目标，模型需要预测从现成的OCR系统中获取的文本。ChartBERT（Akhtar et al., 2023）依赖OCR文本和位置来训练Transformer编码器。虽然OCR系统可以帮助准确提取文本，但运行它们的成本不低。此外，OCR系统并不涵盖那些不显式使用文本的视觉语言系统。例如，图表和图形并不总是显式写出数字。在我们并行的工作DEPLOT（Liu et al., 2023）中，我们探索了将图表到文本的翻译模块（没有OCR）与大型语言模型结合的方法。

Donut（Kim et al., 2022）、Dessurt（Davis et al., 2023）和Pix2Struct（Lee et al., 2023）是用于视觉语言的端到端预训练模型，其中Donut和Dessurt专注于文档理解，Pix2Struct旨在为所有视觉语言任务提供通用的预训练检查点。MATCHA的架构与Pix2Struct相同——我们在Pix2Struct检查点的基础上，继续通过新的目标进行预训练。

通过设计新颖的预训练任务来学习推理。 MATCHA与设计更好的预训练目标以帮助语言模型（LMs）进行更好推理的文献相关，因为通过简单的语言建模目标（例如，掩蔽语言建模和自回归语言建模）很难培养这种能力。Geva et al.（2020）；Eisenschlos et al.（2020）通过人工编写的模板生成额外的专注于（数值）推理的预训练数据。Pi et al.（2022）合成数据和程序，然后使用程序执行器模拟答案。语言模型预训练为根据数据和程序预测答案。Wu et al.（2022）探索了一系列合成预训练任务，并发现即使是注入简单的归纳和推理规则，也能教会语言模型进行推理。我们通过将图表映射到数据和代码，并直接学习文本数学推理数据集，来教导图像到文本模型进行推理。

3 方法

我们认为，布局理解和基本数学运算能力是进行视觉语言理解/推理的关键要素。我们通过提出两个预训练任务——图表还原（§3.1）和数学推理（§3.2），将这些能力注入到模型中，下面将详细介绍这两个任务。

3.1 图表还原

图表通常是由一个底层的数据表和一段代码生成的。代码决定了图形的整体布局（例如，图表类型、方向、颜色/形状方案），而底层的数据表则决定了实际的数字及其分组。数据和代码都会发送给编译器/渲染引擎，以生成最终的图像。为了理解图表，一个人需要在图像中发现视觉模式，有效地解析并将其分组，从而提取关键信息。逆向图表渲染过程需要具备所有这些能力，因此它可以作为一个完美的预训练任务。

实际上，获得图表、其底层数据表和渲染代码是非常具有挑战性的。为了收集足够的预训练数据，我们独立地积累了（图表，代码）对和（图表，表格）对。对于（图表，代码）对，我们爬取了所有符合许可证要求的GitHub IPython笔记本，并提取其中包含图形的代码块。每个图形及其前面的代码块会被保存为一个（图表，代码）对。

对于（图表，表格）对，我们探索了两种来源。第一种是手动编写代码，将Herzig等人（2020）从网络爬取的Wikipedia表格转换为图表。我们随机组合了多种绘图选项。关键的随机变量包括：使用matplotlib或seaborn作为绘图包；使用条形图、折线图或饼图；图表的样式和颜色；是否在图表上显式显示数字；文本的字体和大小。除了我们自己的合成数据外，我们还加入了Methani等人（2020）生成的图表-表格对（来自PlotQA），以丰富预训练语料库。第二个来源是从网站爬取的图表-表格对。像Statista这样的网页提供了这两者。我们直接使用了Masry等人（2022）爬取的图表-表格对（来自ChartQA），这些对包含来自四个网站的约2万对：Statista、Pew、Our World in Data和OECD。

需要注意的是，为了避免泄露测试数据，PlotQA和ChartQA任务使用的相同图表数据作为预训练数据，我们仅使用训练集中的图表-表格对进行预训练，严格排除测试图表/表格。在消融实验（§5.1）中，我们将展示来自两种来源的图表-表格对都是有用的，并且拥有多样化的图表-表格对总是能带来更好的效果。然而，仅使用我们的合成数据已经带来了显著的改进，表明图表还原的概念可以轻松地迁移到其他领域的图表（包括真实世界中的图表）。

3.2 数学推理

进行视觉语言推理需要：

有效识别和分组视觉元素，
在这些元素上应用数学运算（如排序、最小/最大值、平均值等）。

图表还原解决了第一个问题，但当前的预训练框架仍缺乏第二个能力。因此，我们提出通过学习文本数学数据集，显式地将数值推理知识注入到图像到文本模型中。我们使用了两个现有的文本数学推理数据集进行预训练：MATH（Saxton等，2019）和DROP（Dua等，2019）。

MATH是一个合成数据集，包含每个问题模块（类型）有两百万个训练样本（详见附录§A，列出了MATHA预训练中包括的模块）。DROP是一个阅读理解类型的问答数据集，其中输入是段落上下文和问题。DROP包含96k个问题-答案对，涵盖6.7K个段落。要解决DROP中的问题，模型需要阅读段落，提取相关数字并进行数值计算以预测答案。我们发现这两个数据集互补地有帮助。MATH包含大量分类问题，帮助我们识别需要显式注入模型的数学运算，而DROP的阅读理解格式类似于典型的问答任务，模型需要同时执行信息提取和推理。

在实践中，我们将这两个数据集的输入渲染为图像（对于DROP，将上下文和问题合并）。图像到文本模型被训练为解码图像给出的答案。MATH和DROP的示例可以在图1（浅红色）中找到。

除了两个新提出的预训练策略外，为了防止灾难性遗忘，我们还继续应用Pix2Struct（Lee等，2023）中的截图解析预训练。具体来说，给定一个网站的截图（其中网站的部分被遮罩），图像到文本的变压器需要预测能够呈现原始未遮罩网站截图的简化HTML代码。最终的预训练任务是所有前述任务的混合，我们将在§4.1中讨论混合权重。

4 实验

我们在§4.1中详细介绍实验设置，在§4.2中介绍主要结果，在§4.3中介绍额外的Pix2Struct任务的结果。

4.1 实验设置

预训练数据集/任务

总体而言，我们创建了一个预训练任务的混合，包含40%的数学推理、40%的图表还原和20%的截图解析。每个特定任务/数据集的权重如表1所示。对于图表还原，我们有四个数据来源：

我们自己合成的图表-表格对，
来自ChartQA的图表-表格对，
来自PlotQA合成的图表-表格对，
图表到代码的数据。

最初，我们为四个任务分配了相等的权重，但我们注意到由于图表到代码任务非常困难（预训练数据噪声较大），训练不稳定。因此，我们将图表到代码的权重降低至4%，并将所有图表到表格的任务增加至12%。对于数学推理，我们为MATH和DROP分配了相等的权重（各为20%）。

有关预训练数据集消融实验的更多信息，请参见§5.1。

评估数据集

我们在多模态英语问答和生成任务上评估了MATCHA，包括ChartQA（Masry等，2022），PlotQA（Methani等，2020），以及图表到文本总结（Kantharaj等，2022）。ChartQA和PlotQA都是图表领域的问答数据集，其中输入是图表的图像和一个查询，目标是一个答案字符串。ChartQA有两个子集：（1）增强集和（2）人工集，其中增强集是机器生成的，因此更具提取性，而人工集是人工编写的，需要更复杂的推理。PlotQA也有两个版本：v1和v2。类似地，v1更侧重于提取性问题，而v2则需要更多的数学推理。然而，v1和v2都是机器生成的。图表到文本总结数据集也有两个子集，它们分别是“Pew”和“Statista”，这些名称描述了图像示例的来源。对于Pew，金标准摘要是自动从图像周围的区域提取的；对于Statista，摘要是人工编写的。各数据集的大小如表2所示。除了图表领域的数据集外，我们还在Pix2Struct（Lee等，2023）中使用的其他数据集上进行了评估。我们按照Pix2Struct的确切设置和协议重新运行Pix2Struct实验，但用MATCHA替换了初始检查点。更多实验细节请参见Lee等（2023）。

评估指标

对于ChartQA和PlotQA，我们遵循之前的工作（Masry等，2022；Methani等，2020；Lee等，2023），使用放宽的正确性（完全匹配，但允许最多5%的数值误差）。对于Chart-to-Text，我们使用BLEU4。对于所有Pix2Struct实验，我们使用Lee等（2023）中引入的相同指标。

训练和推理细节

我们每200步保存一次检查点，并保留产生最高验证分数的检查点。遵循Lee等（2023），我们在ChartQA的增强集和人工集上联合微调模型（即，两个集的一个检查点），并使用在人工验证集上选择的检查点作为测试的最终检查点。对于PlotQA和Chart-to-Text，我们为v1、v2、Pew和Statista集训练独立的模型。对于预训练，我们使用批量大小512和最大序列长度192，预训练100k步，最终的MATCHA检查点在第90k步选择（此时的平均完全匹配验证分数最高）。对于下游任务微调，我们使用批量大小256和最大序列长度128。对于ChartQA和Chart-to-Text，我们微调10k步，PlotQA微调20k步（因为它显著更大）。Pix2Struct任务的设置与原论文相同。对于PaLI基线，我们使用较大的17B变体，微调5000步，并每1000步保存一次检查点。所有MATCHA和Pix2Struct模型都在64个GCP-TPUv3上进行预训练/微调，而PaLI模型在128个GCP-TPUv4上进行微调。

请注意，由于MATCHA是一个图像到文本的模型（没有文本输入分支），每当需要输入文本时，文本会被渲染为图像。例如，对于问答任务，我们将问题作为标题预置在图表上，并将带有问题标题的整个图像输入模型。

4.2 主要结果

我们在表3中总结了主要结果，在三个图表/绘图领域基准任务（ChartQA、PlotQA和Chart-to-Text Summarization）上，将MATCHA与一系列基准模型和SOTA模型进行比较。

在ChartQA任务中，MATCHA比之前的SOTA模型（没有访问底层金标准数据表的Pix2Struct）提高了8.2%。即使我们考虑那些假设存在金标准数据表的模型，它们通常比MATCHA低3-5%。表现最好的基线模型VisionTaPas有一个专门的模块用于建模表格，但仍然落后MATCHA 2.4%。

在PlotQA任务中，MATCHA再次是整体表现最好的模型。在v1集上，能够访问底层数据表的VL-T5比MATCHA好大约4%，这也是直观的，因为PlotQA是一个合成数据集，包含相对简单的查询，v1是提取性的问题集，查询更加直接。

在v2集上，问题涉及到数值推理，MATCHA超越了所有模型，包括那些能够访问底层金标准数据表的模型。

在Chart-to-Text总结任务中，MATCHA在Pew和Statista上都优于Pix2Struct，并且成为Pew任务的新SOTA。然而，MATCHA在Statista任务上表现不如PaLI-17B（res. 588）。

温馨提示：
阅读全文请访问"AI深语解构" MATC：通过数学推理和图表还原增强视觉语言预训练

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
9、汇编语言编程入门：从环境搭建到简单程序实现神经网络酱汇编语言 MEPIS GNU工具链
汇编语言编程入门：从环境搭建到简单程序实现1.数据存储介质问题解决在处理数据存储时，若要使用MEPIS系统，需确保有其可访问的存储介质。目前，MEPIS无法向采用NTFS格式（常用于Windows2000和XP工作站）的硬盘写入数据。不过，若硬盘采用FAT32格式，MEPIS就能进行写入操作。此外，MEPIS还能将文件写入软盘和大多数USB闪存驱动器。若工作站连接到局域网，还可通过FTP协议或挂载
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
第28章汇编语言--- 异常处理 hummhumm 汇编算法开发语言程序设计高级语言异常处理汇编语言
在汇编语言中，异常处理是一个重要的概念，它涉及到处理器如何响应和处理程序运行时发生的非正常情况。异常可以是硬件错误（例如除零错误、非法指令）或者软件触发的中断（例如系统调用）。当发生异常时，处理器会暂停当前正在执行的程序，并转移到一个预先定义好的位置来处理这个异常。为了详细阐述第28章关于汇编语言中的异常处理，我们可以考虑一个简化的例子，展示异常处理的基本结构。请注意，实际的代码将取决于具体的处理
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
2025年SDK游戏盾终极解析：重新定义手游安全的“隐形护甲” 上海云盾商务经理杨杨游戏安全
副标题：从客户端加密到AI反外挂，拆解全链路防护如何重塑游戏攻防天平引言：当传统高防在手游战场“失效”2025年全球手游市场规模突破$2000亿，黑客单次攻击成本却降至$30——某SLG游戏因协议层CC攻击单日流失37%玩家，某开放世界游戏遭低频DDoS瘫痪6小时损失千万。传统高防IP的致命短板暴露无遗：无法识别伪造客户端流量、难防协议篡改、误杀率超15%。而集成于游戏终端的SDK游戏盾，正以“源
LVS+Keepalived实现高可用和负载均衡 2401_84412895 程序员 lvs 负载均衡运维
2、开启网卡子接口配置VIP[root@a~]#cd/etc/sysconfig/network-scripts/[root@anetwork-scripts]#cp-aifcfg-ens32ifcfg-ens32:0[root@anetwork-scripts]#catifcfg-ens32:0BOOTPROTO=staticDEVICE=ens32:0ONBOOT=yesIPADDR=10.1
深入理解汇编语言子程序设计与系统调用网安spinage 汇编语言开发语言汇编算法
本文将全面解析汇编语言中子程序设计的核心技术以及系统调用的实现方法，涵盖参数传递的多种方式、堆栈管理、API调用等关键知识点，并提供实际案例演示。一、子程序设计：参数传递的艺术1.寄存器传参：高效简洁.386.modelflat,stdcalloptioncasemap:none.dataxdd5;定义变量ydd6sumdd?.code;函数定义：addxy1addxy1procpushebpmo
CodeFoeces-450B ss5smi
题目原题链接：B.JzzhuandSequences题意根据公式公式计算对应fn的值。参考了其他作者的代码和思路。找循环点。负数取余需要加取余数到>0为止才可取余。代码#includeusingnamespacestd;constintmod=1e9+7;intmain(){longlongf[10],x,y,n;cin>>x>>y>>n;x=(x+mod)%mod;y=(y+mod)%mod;f
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
5G基站信号加速器！AD8021ARZ-REEL7亚德诺超低噪声高速电压放大器专利失真消除技术! 深圳市尚想信息技术有限公司 5G通信高速运放 ADI黑科技 8K视频医疗超声
AD8021ARZ-REEL7ADI：重新定义高速放大器的性能极限！一、产品简介AD8021ARZ-REEL7是ADI（亚德诺半导体）推出的超低噪声高速电压反馈放大器，采用XFCB工艺和专利失真消除技术，专为4K/8K视频处理、医疗成像、5G通信等超高频应用设计。以1.8GHz带宽和0.1nV/√Hz超低噪声，成为高速信号调理的终极解决方案！二、五大颠覆性优势军工级信号保真度1.8GHz-3dB带
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
Android 应用权限管理详解
文章目录1.权限类型2.权限请求机制3.权限组和分级4.权限管理的演进5.权限监控和SELinux强制访问控制6.应用权限审核和GooglePlayProtect7.开发者最佳实践8.用户权限管理9.Android应用沙箱模型10.ScopedStorage（分区存储）11.背景位置权限（BackgroundLocationAccess）12.权限回收和自动清理13.权限请求的用户体验设计14.G
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
Selenium 特殊控件操作与 ActionChains 实践详解小馋喵知识杂货铺 selenium 测试工具
1.下拉框单选操作(a)使用SeleniumSelect类（标准HTML标签）Selenium提供了内置的Select类用于操作标准下拉框，这种方式简单且直观。fromselenium.webdriver.support.uiimportSelect#定位下拉框dropdown=Select(driver.find_element("id","dropdown_id"))#通过以下三种方式选择单个
元宇宙中的视觉技术：虚拟化身与场景生成 xcLeigh 计算机视觉CV 元宇宙虚拟化身场景生成 AIGC 数字孪生
元宇宙中的视觉技术：虚拟化身与场景生成前言一、元宇宙与视觉技术的深度关联1.1元宇宙概念深度剖析1.2视觉技术：元宇宙的“灵魂之窗”二、虚拟化身：数字世界的“第二自我”2.1虚拟化身技术的深度解析2.1.1核心技术构成2.1.2技术实现原理与流程2.2虚拟化身的应用领域及案例展示2.2.1游戏娱乐领域2.2.2教育培训领域三、场景生成：构建元宇宙的虚拟天地3.1场景生成技术全景透视3.1.1关键技
C++编程基础与面向对象概念解析侯昂面向对象编程 C++语法函数类与对象继承与多态性
C++编程基础与面向对象概念解析背景简介C++是一种广泛使用的面向对象编程语言，它允许开发者创建高效、灵活且功能强大的程序。本文基于《C++Primer》一书的章节内容，深入解析C++的核心概念和面向对象编程原则，旨在帮助读者构建扎实的C++编程基础。面向对象编程的原则软件危机与进化介绍了软件危机的产生和软件进化的必要性，强调了面向对象编程（OOP）在应对这些问题中的优势。面向对象编程范式讨论了面
手把手教你用C语言实现顺序表
hello，大家好，本篇文章旨在为大家讲解如何使用C语言实现顺序表，还有就是小编自己复习一下相关知识，OK，那我们现在开始。在通讯录中，有增删查改等功能，那么顺序表我们也会对以上功能进行实现。一、创建并初始化顺序表1.创建typedefintSLDataType;#defineINIT_CAPACITY4//动态顺序表--按需申请typedefstructSeqList{SLDataType*a;
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
MySQL复习题
一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
大模型量化终极对决：FP8 vs AWQ INT4，谁才是性能与精度的王者？曦紫沐大模型人工智能大模型量化 FP8 AWQ_INT4
摘要在大模型部署与优化中，量化技术是突破性能瓶颈的关键。FP8量化与AWQINT4量化作为当前主流方案，分别以“高精度”和“极致压缩”为核心优势。本文通过表格对比二者的数据格式、精度损失、硬件依赖及适用场景，助您在不同需求下精准选择最优方案。一、数据格式：浮点与整数的底层差异FP8量化采用浮点数（FP8），包含E4M3（4位阶码+3位尾数）和E5M2（5位阶码+2位尾数）两种格式，保留动态范围；而
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比