机器学习系统能在多大程度上理解数学

1.1 LLEMMA：一个开放的数学语言模型

论文地址：https://mathai2023.github.io/papers/45.pdf

代码地址：https://github.com/EleutherAI/math-lm

预训练数据集：https://huggingface.co/datasets/EleutherAI/proof-pile-2

文章提出了 LLEMMA，一个专注于数学领域的大型语言模型。通过在 Proof-Pile-2 上对 Code Llama 继续进行预训练，从而得到 LLEMMA。其中 Proof-Pile-2 是由科学论文、包含数学内容的网络数据和数学代码混合的数据集。此外，Llemma 能够使用工具和进行形式定理证明，而无需任何微调。在 MATH 基准测试中，LLEMMA 超越了所有已知的公开发布的模型，甚至在参数相同的情况下也超过了未公开发布的 Minerva 模型系列。他们公开发布了所有工件，包括 7B 和 34B 参数模型、Proof-Pile-2，以及实验的复现代码。

Llemma 在自然语言问题和形式化语言问题上都表现出了非凡的能力：

自然语言能力

形式化语言能力。左侧：给定形式命题、自然语言命题和自然语言 LaTeX 证明，生成 Isabelle 形式证明；右侧：给定形式命题，生成 Lean 形式证明

这个工作对标谷歌的 Minerva 模型，模型开源且训练数据和代码完全公开，可以作为后续开展其他数学实验的基础模型。

1.2 llmstep：基于 LLM 的 Lean 证明步骤建议

论文地址：https://mathai2023.github.io/papers/40.pdf

代码地址：https://github.com/wellecks/llmstep

基础模型：https://github.com/EleutherAI/pythia

这是一个基于 LeanDojo 的非常具有实用性的工作，论文作者 Sean Welleck 八月份就在社区开了帖子llmstep（https://leanprover.zulipchat.com/#narrow/stream/219941-Machine-Learning-for-Theorem-Proving/topic/llmstep）并开放代码。附带的，其提供了一个实用的插件，如下所示：

llmstep 示例-vscode

LLMSTEP 是一个集成语言模型至 Lean 证明助手的工具。它通过 Lean4 策略(tactic) 将用户的证明状态发送给托管有语言模型的服务器（下图左侧），然后调用模型会生成建议，这些建议随后在 Lean 中进行检查，并在用户的开发环境内显示（下图右侧）。研究团队提供了一个语言模型基准，并且提供了用于微调和评估的代码，以支撑未来的发展。他们还实现了几种服务器选项，包括在 CPU、CUDA GPU 或 Google Colab 笔记本上运行的服务，旨在为一般用户提供快速且有效的语言模型建议。

原理图：左侧对接机器，右侧对接人类

默认地，llmstep 基于开源模型 Pythia 2.8b 使用 LeanDojo 数据集进行微调，但具体实现与模型无关，因此支持使用任何语言模型。

1.3 基于语言代理的形式定理证明方法

论文地址：https://mathai2023.github.io/papers/29.pdf

代码地址：https://github.com/trishullab/copra

社区帖子：https://leanprover.zulipchat.com/#narrow/stream/219941-Machine-Learning-for-Theorem-Proving/topic/COPRA

该研究团队提出了一种使用语言代理的方法，COPRA(In-Context Prover Agent)，并在形式定理证明任务中展现出了最新的性能。该方法将大型语言模型（GPT-4）作为执行状态回溯搜索的策略组成部分。在搜索过程中，该策略能够选择适当的证明技巧，并从外部数据库中检索引理和定义。所选的每个策略都在底层证明框架内执行，且执行反馈被用来构建下一次策略调用的提示信息。此外，该搜索过程会追踪其历史信息，利用这些信息减少幻觉现象和减少不必要的LLM查询。研究团队在 Lean 的 miniF2F 基准测试以及 Compcert 项目的 Coq 任务集上对 COPRA 进行了评估。结果显示，在这些基准测试中，COPRA 的性能显著优于单次调用 GPT-4 以及其他在证明数据上进行微调的最先进模型，尤其是在快速找到正确证明的能力方面。

策略生成流程示意图

将执行证明的反馈状态存储下来，用于指导下一次决策。这篇工作同时也是 ICLR2024 的在投文章（https://openreview.net/forum?id=XCMbagV0No）

1.4 Lemur：将大语言模型集成到自动程序验证

论文地址：https://mathai2023.github.io/papers/28.pdf

大型语言模型展示的代码理解能力引发了一个问题：它们是否可以用于自动程序验证，这类任务通常需要对程序属性进行高水平的抽象推理，而这对验证工具来说是极具挑战性的。研究者们提出了一种将 LLMs 和自动推理器的能力结合起来用于自动程序验证的通用方法。他们形式地描述了这种方法，并将其形式化为一系列推导规则，并证明了其正确性。研究者将这个演算体系实例化为一个可靠的自动验证过程，在合成程序以及竞赛数据集上都取得了实际的改进效果。

这个工作主要是面向程序验证

1.5 基于大语言模型温度缩放的 Lean 证明步骤预测

论文地址：https://mathai2023.github.io/papers/25.pdf

利用大型语言模型（LLMs）的推理能力来进行定理证明是个充满希望但又富有挑战性的任务。这项任务需要在特定领域内进行微调，但大型语言模型容易过拟合。这个问题因为两个原因而变得更加严重：一是像 Lean 或 Isabelle 这样的形式化环境中训练数据的稀缺性；二是使用评估基准进行超参数搜索和模型选择的成本过高。在本研究中，他们提出了温度缩放作为小数据集上多轮训练的正则化方法，并通过实验证明了其有效性，在 Lean3 上得到了 1.5B、7B 和 13B 参数的监督式策略的 SOTA 生成模型。此外，作者们对证明搜索的超参数做了详细的消融实验，分析所得模型的证明搜索行为，并展示了基于策略的证明搜索与时间预算约为对数增长规模。

1.6 Magnushammer：基于 Transformer 的前提选择方法

论文地址：https://mathai2023.github.io/papers/23.pdf

社区帖子：https://leanprover.zulipchat.com/#narrow/stream/219941-Machine-Learning-for-Theorem-Proving/topic/New.20paper. 3A.20Magnushammer

数据集：https://huggingface.co/datasets/Simontwice/premise_selection_in_isabelle

前提选择是自动定理证明中的关键任务，本文介绍了 Magnushammer，一种新颖的前提选择方法。传统上，这一任务依赖于领域知识和工程努力的符号方法。与之相反，此项工作展示了使用 Transformer 架构进行对比训练可以实现更高质量的相关前提检索，而不需要领域知识或特征工程开销。Magnushammer 在性能上超越了交互式定理证明中最先进且广泛使用的自动化工具：Sledgehammer。在 PISA 和 miniF2F 基准测试中 Magnushammer 分别实现了 59.5%（对比 38.3%）和 34.0%（对比 20.9%）的成功率。通过将 Magnushammer 与基于语言模型的定理证明器结合，进一步将 PISA 基准测试的最佳证明成功率从 57.0% 提高到 71.0%。此外，他们还开发并开源了一个用于前提选择的新颖的大型数据集。

1.7 大语言模型作为 Lean 定理证明的“副驾驶”

论文地址：Towards Large Language Models as Copilots for Theorem Proving in Lean，https://mathai2023.github.io/papers/4.pdf

形式化证明可以通过如 Lean 这样的证明助手严格检查，不给模型留下任何幻觉的可能 。现有基于 LLM 的证明器尝试在没有人工干预的情况下完全自动地证明定理。在这种模式下，他们在处理全新且具有挑战性的定理时会遇到困难，对于这些定理，人类的洞察可能至关重要。这篇工作探索了作为协助人类证明定理 Copilot 的 LLMs，Lean Copilot，一个在 Lean 中运行神经网络推断的框架。它使程序员能够构建各种基于 LLM 的证明自动化工具，这些工具可以无缝集成到 Lean 用户的工作流程中。Lean Copilot 工具利用 LLMs 提出证明步骤和完成中间证明目标，实验结果证明了该方法在协助人类方面相比于 Lean 中现有的基于规则的证明自动化更为有效。

这篇工作和 llmstep 类似，但是代码似乎还没有开放？

1.8 LLM 对比 ITP

论文地址：https://mathai2023.github.io/papers/19.pdf

通讯作者主页：Simon Frieder，https://www.snfrieder.org/

社区关联的帖子：https://leanprover.zulipchat.com/#narrow/stream/219941-Machine-Learning-for-Theorem-Proving/topic/ Bangalore.20talk.20on.20LLM.2BITP

形式化的100个定理：https://www.cs.ru.nl/~freek/100/

GHOSTS数据集：https://github.com/friederrr/GHOSTS

GHOSTS关联文章：https://arxiv.org/pdf/2301.13867.pdf

数据集：https://llmknow.friederrr.org/ （链接未开放）

Wiedijk 的 100 个定理列表为比较交互式定理证明器（ITP）及其数学库提供了一个基准。而正如 GHOSTS 数据集所展示的，大型语言模型（LLM）也可以作为可搜索的数学库，因为它们在预训练或微调阶段能够吸收大量的数学文献。ITP 库是唯一可与其媲美的、在规模和数学复杂性范围上相当的资源库。本文以 Wiedijk 的列表为中心，提出了首次将这两种独特的数学资源进行比较的研究。除了对此类比较本身的兴趣外，文章以 GPT-4 和 Claude 2 为代表，讨论了“LLM 中包含的知识是否与 ITPs 中编码的知识相匹配”这一问题的重要性。这种分析进一步推进了 LLM 和 ITP 技术之间的交集（例如自动形式化、由 LLM 引导的证明生成或证明完成等任务），确保 LLM 除了具备 ITP 代码生成能力外，还拥有执行所需形式化的充足数学知识。这一调查结果的数据集称为“LLMKNOW”，已向公众开放。

这篇工作很有意思，相当于在解释为什么 “大语言模型能用于形式定理证明”，以及判断某个模型是否有这方面的能力。

2. 研究导向

这个类别指面向科学研究领域的工作，区别于针对中小学的应用题竞赛题或常规的推理题，这些工作探索 AI 在数学研究方面的应用潜力。第一篇是评估综合能力的基准，后边几篇涉及：代数组合，极值图论，量子计算，动力系统，控制论，材料科学等领域的问题。

2.1 SCIBENCH：评估大型语言模型在大学水平科学问题的解决能力

论文链接：https://mathai2023.github.io/papers/44.pdf

代码地址：https://github.com/mandyyyyii/scibench

随着大型语言模型的发展进步，其在许多数学基准测试中取得了显著进展。然而，这些基准测试大多只包含初高中科目的问题、仅设有选择题，并且限制在基本算术运算的狭窄范围内。为了解决这些问题，这篇 论文介绍了一个全面的基准测试套件 SCIBENCH，旨在系统地检验解决复杂科学问题所需的推理能力。 SCIBENCH 包含两个数据集：一个开源集，包括一系列大学级别的科学问题；另一个闭源集，包括本科水平考试中的问题。基于这两个数据集，研究者对五个具有代表性的 LLMs 进行了深入的基准测试研究，并采用了不同的提示策略。此外，通过详细的用户研究，研究者得到：没有任何单一提示策略能显著优于其他策略，一些在特定问题解决技能上显示出进步的策略，可能会造成其他技能的下降。

与其他基准的对比：SCIBENCH中的所有问题都是开放式的、自由回答的问题。它们需要多个推理步骤，其中的计算涉及复杂的算术运算，如微分和积分。许多现有基准，如 ScienceQA 和 GSM8K，只包含基于年级水平科目的问题，缺乏足够的复杂性；尽管像 MATH 这样的其他基准引入了高中水平的问题，但它们只涉及有限的运算范围（四则运算和求幂），不能充分评估 LLM 的推理能力的深度；其次，最近的工作，包括 MMLU、AGIEval 和 CEval，尽管引入了跨越广泛学科的具有挑战性的问题，但主要集中在多项选择题上，而没有提供详细的解决方案，因而无法理解 LLM 的局限性，也无法辨别它们为什么会犯某些错误；这些基准通常来自在线材料，问题后往往紧跟着答案，模型可能在不真正理解问题的情况下直接预测答案。这些潜在的数据泄露为 LLM 评估提供了一条捷径，进一步损害了其有效性。

这个工作提出了数学物理化学三门学科的数据集，并给出 Baseline

数学物理化学-评测结果

2.2 我们能依赖深度学习吗：使用机器学习探索和表征组合结构

论文链接：https://mathai2023.github.io/papers/10.pdf

深度学习因其出色的模式匹配能力，在多个科学领域中展现了强大的实用性，特别是数学研究领域。近期研究显示深度学习可以发现数学对象间细微关联，这些关联可能被人类专家所忽略。本研究提出一种简单方法，帮助领域专家使用深度学习对数学对象进行表征。当某类函数、空间或线性表示等在计算中自然出现但难以简明描述时，就会面临此类表征问题。总的目标是找到简单的规则，并揭示其中的数学原理。作者开发了一种名为特征归因聚类探索（Feature Attribution Clustering for Exploration, FACE）的方法，通过聚类分析训练模型中的特征归因，得到几种原型归因，专家们可以进一步将这些原型转换为正式且严格的规则。在案例研究中，作者应用该方法在组合数学中取得新成果，表证了一类对应于某些置换表示的0-1矩阵的子集，这些置换表示被称为双边有序词。

这篇工作讨论子集刻画问题（Characterization problem）：给定集合 B 中的一个元素子集 A，找到一种简单的判别方法以确定任意元素 b ∈ B 是否属于 A。

这类问题在数学中无处不在，经典例子包括：

一个矩阵是非奇异的当且仅当它的行列式非零。
实数空间 Rn 中的一个子集是紧凑的当且仅当它是闭合且有界的。
一个图是可展平的(planar)当且仅当它不包含 K5 或 K3,3 作为其子图。

本原毕达哥拉斯三元组 (x, y, z) 总是形如 x = r2 − s2、y = 2r·s和 z = r2 + s2的，其中 r 和 s 是正的互质整数。

2.3 使用 AlphaZero 和禁忌搜索寻找非常大的极值图

论文地址：https://mathai2023.github.io/papers/21.pdf

新的极值图：https://storage.googleapis.com/gdm_girth5_graphs/girth5_graphs.zip

前 11 阶简单图的同构类：https://users.cecs.anu.edu.au/~bdm/data/graphs.html

Mathematica 图论工具：https://github.com/szhorvat/IGraphM

本研究探讨了由 Erdos 在 1975 年提出的极值图论的一个中心问题，该问题旨在找到具有给定节点数目的，最大化边数的，不含有3-环或4-环的图 。文章将这一问题形式化为序列决策问题，并比较了 AlphaZero（一种以神经网络指导的树搜索方法）和禁忌搜索（一种启发式局部搜索方法）两种方法。对任一方法，通过引入课程学习——利用在较小规模时找到的好图来加速搜索更大图的过程——文章提高了若干图规模的现行最低边界记录，成为新的 SOTA。文章还提出了一个灵活的图生成环境以及一个排列不变的网络架构，用于学习在图空间中进行搜索。

极值图（Extremal Graphs）是图论中的一个重要概念，其研究目标是在满足某些约束条件下，图的某个参数达到极值的情况。非常经典的例子是Turán图（Turán Graph）。通常，低阶极值图是可以直接暴力搜索。利用 Mathematica 的 IGraphM 暴力求解，用普通笔记本的CPU计算能遍历前 10 阶。但图论问题有个共同特点，随阶数增长计算复杂性通常呈指数增长，下表为每一阶简单图的数据：

1-11阶简单图的数目

常规做法是观察低阶的规律，然后进行归纳证明。但如果希望计算更高阶的例子，就必须采用结合深度学习的策略，比如这篇工作。

下边几篇简单带过，分别涉及量子计算，控制论与动力系统，长度泛化问题，材料科学问题的研究。

2.4 教小型 Transformer 改写 ZX 量子线路图

论文链接：https://mathai2023.github.io/papers/34.pdf

相关概念：https://zxcalculus.com/

ZX 演算（ZX calculus) 是一个用于推理线性映射的图形语言。映射通过图表示，而推理则涉及图的改写。ZX 演算主要应用在量子计算领域。研究人员训练了小型 Transformer 模型来简化 ZX 图，即执行量子电路的资源优化。初步实验表明，这些模型可以被训练以高精度简化 CNOT 和 Clifford 电路。这些是最简单类型的 ZX 图，因为它们存在有效的改写策略。此外，还有证据显示，这些 Transformer 模型学会了简化更为复杂的 Clifford + T 图，而这类图通常不存在高效的简化算法。

2.5 强化学习在控制论中的应用：数学问题解决的新方法

论文链接：https://mathai2023.github.io/papers/35.pdf‍

本文介绍了一种结合强化学习（RL）与数学分析的新方法，旨在解决控制理论的一个核心问题：如何通过反馈控制实现稳定性。这项研究特别关注不育昆虫技术（SIT）系统，并致力于找到一个能够稳定蚊子种群模型的反馈控制方式。尽管存在数学复杂性且该特定问题没有已知解决方案，但研究者们的 RL 方法识别出了一个显式稳定控制的候选解。该研究强调了人工智能与数学之间的协同作用，为解决复杂的数学问题开辟了新途径。

2.6 使用 Transformer 探索 Lyapunov 函数

论文链接：https://mathai2023.github.io/papers/13.pdf

本文考虑了数学中一个长期存在的开放问题：探索控制动力系统全局稳定性的 Lyapunov 函数。作者们提出了一种生成训练数据的方法，并训练了序列到序列的 Transformer 模型，以高精度预测多项式和非多项式系统的 Lyapunov 函数。此外，他们还引入了这个问题的新基准，并展示了他们的模型达到了新的 SOTA，超过了基于近似的技术和平方和算法常规程序。

2.7 Transformer 可以学哪些算法？一项长度泛化的研究

论文链接：https://mathai2023.github.io/papers/47.pdf

大语言模型表现出令人惊讶的涌现泛化特性，但在许多简单的推理任务上，例如算术和奇偶性判断，它们却常常遇到困难。在这项工作中，研究者们集中探讨了长度泛化问题，并提出了一个统一框架来理解 Transformers 在给定任务上 何时以及如何实现长度泛化 。首先，他们展示存在某些算法任务，标准的 Decoder Only 模型经过从头开始的训练后自然而然能表现出强大的长度泛化能力。对于这些任务，研究者们利用 RASP 编程语言证明正确的算法解决方案可以被一个简单的 Transformer 所表示。基于此，他们提出并支持了 RASP-泛化猜想：如果存在一个简洁的、对所有输入长度都有效的 RASP-L 程序，那么 Transformers 倾向于学习一个能够进行长度泛化的解决方案。 随后，他们利用这些洞见为传统上难以处理的任务（如奇偶性判断和加法）开发了新的便签（scratchpad）格式，这些格式在长度泛化方面表现出色。总体而言，这些工作为理解长度泛化机制以及 Transformers 的算法能力提供了一个全新的视角。

2.8 垂直领域的人工智能驱动的科学发现

论文链接：https://mathai2023.github.io/papers/15.pdf

将科学发现的过程自动化一直是人工智能的宏伟目标，如果成功，它将会带来巨大的社会影响。尽管目前取得了令人兴奋的进展，但大多数从实验数据中学习科学方程式的努力都集中在水平发现路径上，即直接在完整假设空间中搜索最佳方程。水平路径具有挑战性，因为相关的搜索空间呈指数级增长。这篇工作探索了另一种方式，垂直路径，该路径以增量方式构建科学方程，从基础模型开始，该模型通过控制变量实验对数据进行建模，在此实验中，大部分变量被视为常数。然后通过添加新的独立变量，使用允许这些变量变化的新的控制变量实验，来扩展先前世代中学到的表达式。这种垂直路径是由人类科学发现过程所启发的。实验证明，这样的垂直发现路径加快了符号回归，并且在计算材料科学中描述纳米结构演变的物理模型的学习方面取得了改进。

3. 数据集

部分工作比如：SCIBENCH，在前边已经出现，就不重复讨论了。随着大模型能力的不断提升，很多基准测试正在失去其作为评估工具的作用。与之对应，一些难度更大，面向更加细分领域的数据集被提了出来。

3.1 SIRD：符号积分规则数据集

论文链接：https://mathai2023.github.io/papers/39.pdf

数据集：https://github.com/mfbalin/SIRD-Symbolic-Integration-Rules-Dataset

随着神经网络和计算机硬件的不断进步，深度学习在自然科学领域的新应用场景正日益增多。尽管符号数学任务已得到一定的探索，但关于符号积分的研究却仍然较少，特别是那些使用黑箱模型的研究，并且这些研究通常缺乏可解释性。符号积分本身是一个充满挑战的搜索问题，其最终结果需要在每一步骤中应用不同的积分规则来获取。本文提出了一种新颖且可解释的方法，该方法通过预测积分规则来利用深度学习进行符号积分，以加快搜索过程。作者们提出了第一个此类的符号积分规则数据集，其中包含两百万个独特的函数与积分规则配对。该数据集还包括了应用诸如 u-替换和分部积分法等复杂规则所需的表达式。此外，文章在这一数据集上训练了一个 Transformer 模型，并将其融合进 SymPy 的 integral_steps 函数，从而创造了 guided_integral_steps。这个方法通过允许该模型指导深度优先搜索程序，使得探索的分支数量减少了6倍。

对 Sympy 的改进，但文章似乎没和 Mathematica 进行比较。

3.2 ARB：面向大型语言模型的高级推理基准

论文链接：https://mathai2023.github.io/papers/7.pdf

大型语言模型（LLMs）在各种数量推理和知识基准测试中表现出了惊人的性能。然而，随着 LLMs 越来越高的得分，许多这样的基准测试正在失去其作为评估工具的效用，尽管它们还没有在这些领域达到专家级别的表现。研究者们介绍了ARB，这是一个由高级推理问题构成的新颖的基准，其涵盖了数学、物理、生物、化学和法律等多个领域，比以往的基准测试提出了更高的挑战标准。作为 ARB 的一部分，研究者们提出了一系列需要进行高级符号推理和具备深层领域知识的数学与物理题目。他们对最近的模型如 GPT-4 和 Claude 在 ARB 上的表现进行了评估，结果显示当前模型在更具挑战性的任务上的得分远远低于50%。为了改善自动和辅助评估能力，研究者们引入了一种基于评分标准的评估方法，允许 GPT-4 对其自身的中间推理步骤打分。他们发现，评注员与GPT-4依据评分标准所做的评估得分之间有良好的一致性。

数据集构成：

ARB 数据集组成成分

评测效果：

不同模型在 ARB 数据集上的效果

3.3 CHAMP：用于细致分析大语言模型数学推理能力的竞赛级数据集

论文链接：https://mathai2023.github.io/papers/14.pdf

代码：https://yujunmao1.github.io/CHAMP

针对挑战性数学问题，目前尚不清楚哪些关于问题的信息是有益的（或者是有害的）。在这篇论文中，作者提出了一个用于此类分析的具有挑战性的基准数据集。命名为“概念和提示注释数学问题”（The Concept and Hint-Annotated Math Problems，CHAMP），该数据集由具有竞赛水平的数学问题组成，并附加了“概念”，即一般数学事实，“提示”，即针对特定问题的策略。这些实体及其相互联系使得研究者能够探索额外信息的影响，如相关提示、误导性概念或相关问题。作者使用4种模型进行了12项初步研究，总结了他们的发现，并讨论了 CHAMP 是如何支持围绕大型语言模型理解与利用上下文的一般讨论。

3.4 OpenWebMath：一个高质量数学网页文本的开放数据集

论文链接：https://mathai2023.github.io/papers/31.pdf

数据集：https://huggingface.co/datasets/open-web-math/open-web-math

越来越多的证据表明，预训练大语言模型在高质量、经过深思熟虑的词元上，如代码或数学内容，对于提升其推理能力起着关键作用。例如，Minerva 这一经过在 arXiv 和网络上数十亿数学文档微调的 PaLM 模型，在需要数量推理的问题上取得了显著进步。然而，目前已知的公开发布的网络数据集在预处理时都没有忠实地保留数学符号，因此无法利用大规模训练网页文档的优势服务于研究社区。研究人员提出来 OpenWebMath，一个受到这些工作启发的开放数据集，包含来自 Common Crawl 的 14.7B token 的数学网页。文章详细描述了从 HTML 文档中提取文本和 LaTeX 内容以及移除样板文件的方法，并且介绍了用于质量筛选和去重的方法。此外，他们在 1.4B 参数的语言模型上使用 OpenWebMath 进行了小规模实验，实验结果显示，基于这些数据集中的 14.7B 词元训练出的模型，在性能上超过了那些在超过 20 倍语言数据量上进行训练的模型。作者们希望这一公开发布的数据集能有助于推动大型语言模型推理能力的进一步发展。

数据过滤过程：

数据清洗 Pipeline

4. 工具 & 智能体

工具是智能体构建中最为重要的一环，其使得智能体能够完成许多单靠 LLM 难以完成的任务。下边几篇工作对数学智能体构建是非常好的参考。

4.1 Chameleon：大型语言模型即插即用的组合式推理

论文链接：https://mathai2023.github.io/papers/51.pdf

代码地址：https://github.com/lupantech/chameleon-llm.git

大型语言模型（LLMs）因其涌现的推理能力，在解决各种自然语言处理任务方面取得了显著进展。然而，LLMs 存在固有的局限性，它们无法访问最新信息（存储在网络或特定任务知识库中）、使用外部工具以及进行精确的数学和逻辑推理。为了减轻这些限制，作者提出了一个名为 Chameleon（变色龙）的人工智能系统。该系统通过增加即插即用的模块增强 LLMs 的组合推理能力。Chameleon 通过组合各种工具（例如，LLMs、现成的视觉模型、网络搜索引擎、Python 函数和基于启发式的模块）来合成程序，完成复杂的推理任务。Chameleon 的核心是一个基于 LLM 的规划器，负责组装一系列工具以执行生成最终响应。在两个多模态知识密集型推理任务 ScienceQA 和 TabMWP 上，Chameleon 证明了其有效性。由 GPT-4 驱动的 Chameleon 在 ScienceQA 上达到了 86.54% 的总体准确率，比最佳发布的 few-shot 结果提高了 11.37%。在 TabMWP 上，GPT-4 驱动的 Chameleon 将准确率提高了 17.0%，将最新技术水平提升到 98.78%。分析还表明，在推断指令中潜在约束时，与 ChatGPT 驱动的规划器相比，GPT-4 驱动的规划器展示了更为一致和理性的工具选择。

两个简单示例，取自在 TabMWP 数据集：

计算路程中位数（上）获取发车时间（下）

这个工作构建了一个智能体，通过组合各种工具来获取答案，且支持一般的 QA 问答，而不局限于数学问题。

QA + 简单推理

4.2 ToolDec：通过有限状态解码实现 LLM 的无语法错误和泛化性工具使用

论文链接：https://mathai2023.github.io/papers/49.pdf

代码地址：https://github.com/chenhongqiao/tooldec

大型语言模型已经展示了在使用外部工具方面的令人瞩目的能力。然而，现有方法依赖于微调或上下文学习来使用工具，这些方法会产生语法错误且难以泛化。本文提出了 ToolDec，一种基于有限状态机引导的解码算法，用于工具增强型 LLM。ToolDec 通过确保工具名称的有效性和参数类型的一致性，消除了与工具相关的错误。此外，ToolDec 使得 LLM 能够仅仅根据工具的名称来有效地选择工具，无需进行针对特定工具的微调。作者们在多个应用题问题数据集上的实验表明，ToolDec 将语法错误降至零，从而显著提升了性能，并且速度提高了最多2倍。研究还显示，在从未见过的工具上，TookDec 的泛化性能比基线高达8倍。

通过有限状态机（FSM）进行引导（结合符号与统计）

用有限状态机（FSM）进行引导大模型

4.3 结合语言模型与符号求解器解决数学应用题

论文链接：https://mathai2023.github.io/papers/16.pdf

代码链接：https://github.com/joyheyueya/declarative-math-word-problem

在教育领域，自动产生高质量的数学应用题逐步解答具有广泛应用。近来，将大型语言模型与外部工具结合起来执行复杂推理和计算，已成为解决数学应用题的一个有前景的研究方向，但是之前的方法如程序辅助语言模型（Program-Aided，PAL）倾向于解决简单的程序性问题，在需要声明式推理的问题上效果不佳。研究者提出了一种新的方法，该方法结合了一个能够逐步将应用题形式化为一组变量和方程的大型语言模型，以及一个能够解这些方程的外部符号求解器。在 GSM8K 数学应用题基准测试中，这一新方法所达到的准确率与原始的 PAL 相当。而在 ALGEBRA 数据集上，它相比 PAL 达到了 20% 的绝对提升。这里 ALGEBRA 是一个从代数教科书中提取的更具挑战性问题的新数据集。这项研究强调了在与外部工具交互解决复杂数学应用题时，使用声明式和增量式表示的优势。数据和提示信息均已开源。

声明式方法的简单示例：

声明式方法（左图）

5. 数学推理 & 应用题

作为区分，这一专题针对应用题或简单任务的数学推理，这次论坛主题就是推理，Workshop on Mathematical Reasoning and AI，大部分论文可以归到此类。

5.1 TinyGSM：通过 1B 参数在 GSM8K 上实现80%准确率

论文链接：https://arxiv.org/pdf/2312.09241.pdf

小型模型提供了诸多计算上的优势，但模型参数量对于解决问题能力的影响程度仍然是个悬而未决的问题。这项工作研究了小型模型在数学推理任务上的表现。具体来说，研究人员发现，一个具有 1.3B 参数的模型在解决数学应用题上能够达到 80.1% 的准确率，这个表现超越了大得多的现有模型，并且甚至可以与其生成训练数据的 GPT-3.5-turbo 教师模型的性能相媲美。论文的方法很简单，主要包含两个关键部分：第一部分是使用一个由 GPT-3.5-turbo 生成的、包含解答的数学应用题合成数据集，该数据集将完全公开。第二部分是使用一个验证器，从多个候选答案中选择最终输出。

5.2 MinT：通过多视图微调提高数学推理的泛化能力

论文链接：https://mathai2023.github.io/papers/55.pdf

数学领域的推理对于相对较小的语言模型（LMs）依然是一个重大挑战。许多现行方法专注于使 LMs 专长于数学推理，并且严重依赖从强大但效率不高的大型语言模型（LLMs）中提取知识。在这项工作中，研究人员探索了一种新方向，避免过度依赖 LLM 教师，引入了一种多视图微调方法，该方法有效利用了具有多样化注释风格的现有数学问题数据集。该方法独特地考虑到各种注释格式作为可能互相帮助的不同“视图”，并在训练模型时利用它们。通过在输入问题后附加不同的指令，模型可以灵活地学会以多种格式生成解决方案。实验结果表明，该策略使相对较小的 LMs 的表现超越了先前严重依赖知识蒸馏的方法，以及精心建立的基线。此外，所提出的方法赋予模型在不同视图和数据集上的潜在泛化能力，以及从不准确或不完整的噪声数据中学习的能力。作者们希望通过多视图训练范式能激发其他机器推理领域未来的研究。

多视图微调数据

5.3 基于符号规则学习的大语言模型，用以增强数值推理鲁棒性

论文链接：https://mathai2023.github.io/papers/46.pdf

ILASP 简介：Inductive Logic Programming Answer Set Programming,

https://www.doc.ic.ac.uk/~ml1909/ILASP_ALP_2020.pdf

虽然人们已经提出了一些提示策略来引导大型语言模型进行推理，但对于机器阅读理解任务，数值推理依然是一个挑战。研究者们提出了一种神经符号方法，利用 LLM 的上下文学习能力将复杂问题分解成更简单的子问题，并采用符号学习方法学习重组部分答案的规则。该方法在 DROP 基准的不同数字子集上进行了评估；结果表明，这种方法与为 DROP 专门设计的 SOTA 模型竞争力相当，并且显著优于纯粹依靠 LLM 提示的方法。此外，该方法具有数据效率高的特点，因为它无需进行任何额外的训练或微调。神经符号方法还促进了鲁棒的数值推理能力，确保模型忠实于其所呈现的文本，并提供可解释和可验证的推理过程。

神经符号算法

5.4 计划、验证和转换：多样化思维方式的集成推理

论文链接：https://arxiv.org/pdf/2310.14628.pdf

代码地址：https://github.com/tengxiaoliu/XoT

随着大型语言模型展现出在不同提示方法下的有效性，例如“思维链”和“思维程序”（Program of Thought），这些方法在数学推理任务上已经显示出了相互之间的极佳互补性。在这项工作中，研究人员提出了 XoT，一个通过用多样化推理思路启发 LLM 的集成问题解决框架。对于每个问题，XoT 总是先选择最合适的方法，然后迭代执行每种方法。在每次迭代过程中，XoT 会主动检查生成答案的有效性，并纳入外部执行器的反馈，从而能够在不同的提示方法之间动态切换。通过在 10 个主流的数学推理数据集上进行广泛实验，研究者证明了他们所提出的方法的有效性，并彻底分析了每个模块的强项。此外，实验结果表明，该框架与近期在单一推理方法上取得改进的工作相正交，并且能够进一步泛化到逻辑推理领域。通过允许方法间的切换，XoT 为在统一框架内协同集成多样化推理思维提供了新的视角。

5.5 EchoPrompt：通过重述问题提高上下文学习能力

论文链接：https://mathai2023.github.io/papers/22.pdf

代码地址：https://github.com/rajasekharmekala/echoprompt

该文章提出了 EchoPrompt，一种通过让模型在回答问题之前重新表述查询来提升性能的简单而有效的技术。该技术适用于零次提示和少数示例提示的场景，并且能够与标准提示以及思路链提示结合使用。实验结果表明，EchoPrompt 在多个因果语言模型族的各种设置中大幅提升了性能，包括数值推理（例如，GSM8K, SVAMP）、阅读理解（例如，DROP）和逻辑推理（例如，翻硬币）等任务。特别是，它使得 code-davinci-002 模型在零次提示的思路链环境下，在数值任务上的性能提升了 5%，在阅读理解任务上提升了 13%。这些结果显示，EchoPrompt 可以有效地加强在上下文学习过程中的表现，建议将其融入到各类基线提示策略中，以提高整体效能。

这类工作的想法都很简单，让模型在回答前重新表述问题，加强对问题的理解，例子如下：

回答前重新表述问题（右图）

5.6 通过算术任务学习多步推理

论文链接：https://mathai2023.github.io/papers/1.pdf

代码链接：https://github.com/TianduoWang/MsAT

数学推理被视为语言模型所必需的能力。最近的研究表明，大型语言模型在解决数学问题方面有着令人印象深刻的表现。这种成功被归因于它们的“链式思考”（COT）推理能力，即分解复杂问题成为逐步推理链的能力，但这样的能力似乎只出现在参数非常多的模型中。这项工作探讨了如何将多步推理能力整合进相对小型的语言模型中。作者提出通过在一个由多步算术任务（MSAT）组成的合成数据集上继续预训练语言模型来引入这种能力。在数学应用题任务上的实验展示了这一方法在提升语言模型数学推理能力方面的有效性。

5.7 通过重新检验解决数学应用题

论文链接：https://mathai2023.github.io/papers/18.pdf

代码链接：https://github.com/steven640pixel/PsedualMWP

解决数学应用题（MWP）的目标是理解描述性数学问题并计算结果，之前的努力大多致力于提升不同技术模块。本文带来了一个不同且新颖的视角——在训练过程中进行重新检验，并引入了一个伪双任务以增强 MWP 解决能力。研究者们提出了一种模型无关的伪双重（PseDual）学习方案，可以适配任何现有的 MWP 解决器。这个特定定义的伪双任务是将数学表达式中的数字重新填充回原始的应用题中，并使数字处于屏蔽状态。为了有效地联合两个任务的学习，研究者还设计了一个预定融合策略，用于数字填充任务，该策略平滑地将输入从真实数学表达式转换为预测的表达式。通过实证研究，伪双重学习方案已被验证在多个代表性MWP解决器中有效。

5.8 SATLM: 使用声明式提示的可满足性辅助语言模型

论文链接：https://mathai2023.github.io/papers/32.pdf

代码地址：https://github.com/xiye17/sat-lm

先前的工作将思维链技术与程序化表达结合在大型语言模型（LLMs）中，用以进行推理。这种方法对于只需单向推理的任务（例如，简单的算术问题）效果良好，但对于需要更复杂规划和搜索的问题，则效果不佳。在本文中，作者提出了一种名为可满足性辅助语言建模（SATLM）的新方法来增强 LLMs 的推理能力：利用 LLM 生成一个声明式任务说明而非命令式程序，并且借助现成的自动定理证明器来得出最终答案。通过将实际推理任务外包给自动定理证明器，这种方法能够保证相对于解析出的规格的答案的正确性，并避免在解题过程中发生规划错误。该研究在 6 个数据集上评估了 SATLM 的表现，并指出它在命令式范例中持续超越了程序辅助 LLMs 的性能。特别地，在 GSM 算术推理数据集的一个具有挑战性的子集上，SATLM 比程序辅助 LLMs 的性能高出 20% 以上；同时，在法学院入学考试（LSAT）和 BOARDGAMEQA 上，SATLM 也达到了新的 SoTA。

三种模式对比图

5.9 语言模型提示空间中基础算术性质的研究

论文链接：https://mathai2023.github.io/papers/24.pdf

最近，能够有效利用大量未标注文本数据的大型预训练神经语言模型（LLMs）彻底改变了自然语言处理领域。通过利用这些模型固有的上下文学习能力支持的提示技术，已经证明 LLMs 能够与为下游任务专门训练的模型相媲美。其中一个任务是数值推理，特别是进行基本算术运算的能力。研究者们探讨了算术运算的基本性质，例如交换律，在LLM提示的环境下是否依旧适用——即要求LLM计算13 + 37与37 + 13是否通常会导致相同的结果。与之前大多数只报告准确度的工作不同，他们通过更仔细地观察错误分布（平均绝对误差、皮尔逊相关系数R），来更好地理解在提示扰动和规模法则下的性能表现。

6. 多模态

6.1 MathVista：在视觉上下文中评估基础模型的数学推理能力

论文链接：https://mathai2023.github.io/papers/52.pdf

论文网站：https://mathvista.github.io/

尽管大型语言模型（LLMs）和大型多模态模型（LMMs）在不同领域展现了令人印象深刻的技能，但它们在视觉背景下进行数学推理的能力尚未正式评估。为LLMs和LMMs装备这种能力对于通用目的AI助手至关重要，并且在教育、数据分析和科学发现等方面展现出巨大潜力。

为填补这一空白，研究者提出了 MATHVISTA 基准测试，该测试旨在结合来自文献中识别出的多样化的数学和视觉任务挑战。研究者首先从28个现有的以数学为焦点和视觉问答数据集中，归类并确定了关键的任务类型、推理技能和视觉背景。然后构建了三个新的数据集，即IQTest、FunctionQA和PaperQA，以覆盖缺失的视觉背景类型。所呈现的问题通常需要超越光学字符识别（OCR）或图像字幕的深入视觉理解，并且要求使用丰富的领域特定工具进行组合推理，这对现有模型来说是一个显著的挑战。研究者对11个知名的开源和专有基础模型（包括LLMs、增强工具LLMs和LMMs）进行了全面评估。表现最佳的模型——多模态巴德（Multimodal Bard），仅达到了人类性能的58%（34.8%相比60.3%），表明改进的空间仍然很大。鉴于这一显著的差距，MATHVISTA激励了未来的研究，推动通用AI代理的发展，使其能够处理数学密集型和视觉丰富的现实世界任务。

6.2 用于家庭数学学习的口语理解评估

论文链接：https://mathai2023.github.io/papers/41.pdf

随着最近在会话式人工智能技术方面的进步，借助互动式数学学习家庭系统提升早期儿童教育质量正逐步变成现实。本研究通过实施一种多模态对话系统，在家中支持基于游戏的学习体验，引导儿童掌握基础数学概念。研究团队探索了任务导向型对话系统内部的口语理解（SLU）流程，该流程采用了级联自动语音识别（ASR）和自然语言理解（NLU）组件，并在孩子们参与的“儿童空间”家庭部署数据上进行了评估。这些数据来自于孩子们参与的游戏化数学学习活动。研究验证了NLU多任务架构的优势，并且试验了多种预训练语言表示，用于数学学习领域的意图识别和实体抽取。为了在真实家庭环境中识别儿童的语音，研究调查了若干ASR系统，包括谷歌云服务和最新的开源Whisper解决方案，涉及不同大小的模型。通过在带噪声的ASR输出上测试表现最佳的NLU模型，研究评估了SLU流程，以审视在真实家庭环境中理解儿童数学学习语音的挑战。

6.3 通过在向量符号架构中学习规则进行视觉抽象推理的概率归纳

论文链接：https://mathai2023.github.io/papers/20.pdf

代码链接：https://github.com/IBM/learn-vector-symbolic-architectures-rule-formulations

抽象推理是人类智能的基石，用人工智能（AI）复制这一能力是一个持续的挑战。该研究专注于通过利用分布式计算和向量符号架构（VSA）提供的运算符，高效地解决雷文递进矩阵（RPM），一种用于评估抽象推理能力的视觉测试。该方法无需硬编码RPM相关的规则公式，而是能够在对训练数据仅进行一次遍历的情况下学习VSA规则公式（因此得名Learn-VRF）。尽管参数紧凑，该方法保持了透明度和可解释性。Learn-VRF在I-RAVEN的分布内数据上提供了准确的预测，并在处理未见过的属性-规则组合时表现出强大的分布外能力，显著超越了包括大型语言模型在内的纯连接主义基线。

7. 小模型实验 & 训练微调

7.1 向小型 Transformer 教授算术

论文链接：https://mathai2023.github.io/papers/36.pdf

代码链接：https://anonymous.4open.science/r/nanoGPT-25D2

即使是小型 Transformer，在接受大量文本数据训练后，也能够展现出在基本算术等通用任务上的涌现能力，尽管这些任务并没有通过无监督的下一个词预测目标明确编码。本研究调查了从随机初始化开始训练的小型 Transformer，如何高效学习算术运算（比如加法、乘法和求平方根等初级函数），使用下一个词预测目标。研究证实，传统训练数据并不是最有效地进行算术学习，并且简单的格式更改可以显著提高模型的准确性。这导致了训练数据规模函数的剧烈相变，在某些情况下这可以通过与低秩矩阵补全的联系来解释。基于已有的工作，研究者在包含中间步骤结果的链式思维风格数据上进行训练。即使在完全没有预训练的情况下，这种方法也显著地同时提高了准确性、样本复杂性和收敛速度。研究也考察了训练过程中算术与文本数据之间的互动，并检验了少量提示、预训练和参数缩放的效应。此外，文章还讨论了与长度泛化相关的挑战。该工作强调了高质量、具有指导性的数据的重要性，这些数据考虑到了下一词预测损失的特定特征，以便迅速激发出算术能力。

7.2 学习最大公约数——Transformer 中的可解释预测

论文链接：https://mathai2023.github.io/papers/8.pdf

作者训练了小型Transformer模型来计算两个正整数的最大公约数（GCD），并证明这些模型的预测是完全可解释的。在训练过程中，模型学会了识别一个除数列表D，并且能够预测出该列表中能同时整除两个输入整数的最大元素。研究还表明，训练分布对模型性能有显著影响。仅从均匀分布的操作数进行训练的模型只掌握了少量的GCD（38/100）。当使用对数均匀分布的操作数进行训练时，模型性能提高到正确预测73个GCD，而基于对数均匀分布的GCD进行训练可以进一步提升性能，达到91个正确的GCD。

7.3 系统推理任务中的持续学习与分布外泛化

论文链接：https://mathai2023.github.io/papers/54.pdf

人类经常能够从一系列狭窄的例子中学习新的解决问题策略，并将这些策略泛化到学习过程中未曾涉及的实例，但神经网络在此方面的泛化能力仍然面临挑战。这种限制影响了数学技巧的学习，这些技巧适用于无界的问题空间（例如，所有实数）。研究者利用神经网络探索了这一局限性，它们在训练解决6×6数独谜题的特定单元格的策略时使用了一种新颖的课程——模型首先学习两个初级任务，随后研究者在训练更复杂解决策略可能会遇到的训练样例子集期间评估其分布外泛化能力。基线模型能够掌握训练分布，但未能在分布外进行泛化。然而，研究者介绍了一组足以支持高准确度和可靠的分布外泛化的扩展组合。这些结果为增强在自然数据集中由于数据分布高度不平衡而训练出的模型的健壮性提供了新的方向。

7.4 多样化监督的原则探索

论文链接：https://mathai2023.github.io/papers/17.pdf

通过下一个词预测来训练大型 Transformer 模型，推动了AI领域的重大进步。尽管这种生成式 AI 的方法取得了显著成果，但它极度依赖于人类监督。即便是像ChatGPT这样的最先进AI模型，也需要通过人类演示进行微调，这要求大量的人工输入和领域专业知识。这种对人类监督的高度依赖成为AI创新发展的一个重要障碍。为了应对这一挑战，研究者们提出了一个被称为探索性AI（EAI）的新范式，其目标是自主生成高质量的训练数据。EAI从无监督强化学习（RL）的预训练中汲取灵感，在自然语言空间实现探索。该方法利用大型语言模型来评估生成内容的新颖性，并包含两个关键组成部分：一个按照探索原则生成新颖内容的“行动者”和一个评估并提供指导性批评以引导行动者的“评价者”。实证评估显示，EAI在复杂推理任务上显著提升了模型性能，克服了对人力密集型监督的依赖限制。

8. 认知科学

8.1 AI for Mathematics: 认知科学视角

论文链接：https://mathai2023.github.io/papers/38.pdf

数学是人类种族开发和使用的最强大的概念系统之一。自动化数学家的梦想在人工智能（AI）的历史中占有一席之地。特别是大型语言模型（LLMs）的飞速进步重新点燃了广泛兴趣，促使人们建立此类系统。本文从认知科学的视角反思这些目标。作者指出了几个认知科学领域中既经典又持续的研究方向，认为这些方向对于那些寻求构建真正达到或超越人类水平的数学系统的AI实践者极为重要。文章最后提出了一些开放性问题，认为解决这些问题需要多学科合作：认知科学家、AI研究员以及数学家共同努力，以期构建更好的数学AI系统，这不仅可以推进数学的边界，还能揭示人类如何具备完成这样伟大认知任务的能力。

8.2 卷积神经网络模型对数量概念的敏感性

论文链接：https://mathai2023.github.io/papers/37.pdf

数的本质是数学哲学中的一个经典议题。认知科学家已证实，人类心理上将数字表示为组织成心理数线（MNL）的量级。本研究探讨了在学习分类图像时，卷积神经网络模型是否会无意中学到关于数字和数量的概念。事实确实如此。一个代表性的模型显示出距离效应、大小效应和比例效应，这些都是人类数量表示中的标志性特征。通过对其潜在表示进行多维尺度分析（MDS），研究者发现这些表示与人类所记录的心理数线有着密切的相似性。这些发现挑战了发展科学中的观点，该观点认为数字是所有人类婴儿固有的“核心知识”，并且提供了数字概念可学习性的存在证明。

你可能感兴趣的:(大模型,机器学习,人工智能)

数据结构奇妙旅程之深入解析快速排序山间漫步人生路数据结构排序算法算法
快速排序（QuickSort）是一种高效的排序算法，它使用了分治法的策略来将一个数组排序。其基本思想是选择一个基准元素，通过一趟排序将待排序的数据分割成独立的两部分，其中一部分的所有数据都比基准元素小，另一部分的所有数据都比基准元素大，然后再按此方法对这两部分数据分别进行快速排序，整个排序过程可以递归进行，以此达到整个数据变成有序序列。工作原理选择基准：从待排序的序列中选一个元素作为基准（pivo
llama.cpp 编译安装@Ubuntu skywalk8163 项目实践人工智能 llama ubuntu linux 人工智能
在Kylin和Ubuntu编译llama.cpp，具体参考：llama模型c语言推理@FreeBSD-CSDN博客现在代码并编译：gitclonehttps://github.com/ggerganov/llama.cppcdllama.cppmkdirbuildcdbuildcmake..cmake--build.--configRelease#可选安装makeinstall#或可选添加路径ex
CSV指南：Python程序获取大型CSV文件行数孤独打铁匠Julian 笔记经验分享 python
本指南提供了几种使用Python来获取大型CSV文件行数的方法，并解释了每种方法的适用场景。方法1:使用csv.reader处理复杂CSV文件当你的CSV文件中包含多行字段（即某些字段的值中包含换行符）时，使用csv.reader是一个可靠的选择，因为它能够正确处理这些复杂情况。这个方法适用于大多数大小的CSV文件，但是对于非常大的文件，读取整个文件可能会占用较多的时间和内存。对于极大的文件，考虑
keras.optimizers优化器中文文档地上悬河 python 开发语言后端
优化器optimizers优化器是编译Keras模型必要的两个参数之一model=Sequential()model.add(Dense(64,init='uniform',input_dim=10))model.add(Activation('tanh'))model.add(Activation('softmax'))sgd=SGD(lr=0.01,decay=1e-6,momentum=0.
2019.11.28感恩日记 afab5b74f713
1.感谢真我守护，一觉到天明，谢谢谢谢谢谢！2.感谢一大早，橘子就甩来4800的大红包，谢谢谢谢谢谢！3.感谢今天代理宝宝们疯狂加单，钱宝宝流入小十万，太牛了你们，有你们真好，谢谢谢谢谢谢！4.感谢自己拥有钱宝宝，可以去群里给宝宝们发红包，表达我的爱，谢谢谢谢谢谢钱宝宝爱我！5.感谢自己的细胞宝宝们，让我保持健康与活力，可以自由活动，活力满满，谢谢谢谢谢谢！6.感谢芬姐甩来订单，谢谢谢谢谢谢钱宝宝
买莆田鞋的app软件，三大app莆田鞋平台推荐给大家腕表鞋屋
买莆田鞋的app软件，三大app莆田鞋平台推荐给大家，如毒app、亚马逊、潮鞋之家、鞋子货源app、淘宝等app都非常的好用，还有更多的可以购买莆田鞋子，莆田鞋在哪个app买好用，下面一起看看。微信:pt188x(下单赠送精美礼品)买莆田鞋的三大app软件：一、淘宝app。买莆田鞋当然少不了淘宝，建议大家不要直接去搜索莆田鞋，那样给出的结果是很少的。大家看上哪款鞋子的型号直接去搜索就可以了，然后按
中国大学：你站起来！立恒语文
我们先来看看中国大学对外国留学生的“奇葩”待遇。近日，有网友曝出吉林大学有要求中国学生起床后须叫醒外国留学生的服务。看完之后，真是让人大跌眼镜。有网友就直接质问：吉大是大学，还是酒店？中国学生是学生，还是服务员？外国留学生是来求学的，还是享受的？这不仅让人联想到最近一段时间以来网上频频曝出的许多中国大学对外国留学生的一些“奇葩”待遇，这里举几个比较有名的事例，以飨读者。1.山东大学的“三陪”制度，
00后的我和你们三七_f4f4
大部分人认为，这个社会压力最大的莫过于90后。可能上有老下有小，可以正在被催婚。工作压力大。可是也有大部分00后也步入了社会，比起90后，他们更是迷茫，不知所措。虽没有来自家庭的压力，没有来自催婚的烦劳。可迷茫真的很可怕，不知道一会该干嘛，该想那些方面发展。觉得自己以后就这样碌碌无为了吗？就这样过一辈子吗？又不甘。图片发自App前几天在抖音上看见一个视频，他说姚明在苦练篮球。谁谁在苦练什么。问，你
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
新注册的阿里云账号有哪些优惠？阿里云新用户必看优惠大合集阿里云最新优惠和活动汇总
很多用户看到阿里云各种活动中的云服务器、云数据库、企业邮箱等云产品都仅限新用户购买之后，都纷纷直接注册了阿里云新账号之后购买，其实，阿里云新用户不仅可以优惠购买活动中的各种云产品，还有很多优惠，下面是“阿里云最新优惠和活动汇总”整理汇总的阿里云新用户必看优惠大合集。新注册的阿里云账号在购买活动中的云产品之前，还有免费领云产品通用代金券、抽取无门槛代金券、免费试用云服务器和正式购买云服务器等阿里云产
大伟荐语5.10 求索大伟
【大伟荐语】我未曾见过一个早起、勤奋、谨慎、诚实的人抱怨命运不好，良好的品格，优良的习惯，坚强的意志，是不会被假设所谓的命运打败的。——富兰克林遐思：外部再强大、再厉害的敌人，经过艰苦卓绝的斗争就能打败它；而内部的敌人——自己，实是自己最大的敌人，惟有战胜自我方能傲然屹立不倒。自己身上的懒惰、拖延、萎靡，则是阻碍自己前行最大的障碍，而一步一步地把自身的消极因素一个个祛除，树立一个积极、主动、勇敢的
【真诚子】通晓鬼谷第七篇读书日记。真诚子l通晓鬼谷
今天把个人品牌，从193读到208页，书的内容质量出奇的高，尤其是这一段。对标学习法，找一个比自己强，或者你期望成为的人进行模仿性学习，对标学习，不是到处，去找人对标兵学习很多人的优点，或是学习自己认为好的方面，而是找准一个对标高手，然后全方位的学习这个人。我在做品牌咨询时就对标，学习了一个在国内很有名的行业顶尖大咖。我先找到他公司的方案，进行完全模仿，连PPT的排版都一样，而且我只参照他一个人的
ES-LTR粗排模块 poins jenkins 运维
ES-LTR粗排模块官方资源：https://github.com/HeiBoWang/elasticsearch-learning-to-rankElasticsearch学习排名插件使用机器学习提高搜索相关性排名。它为维基媒体基金会和Snagajob等地方的搜索提供了动力！这个插件有什么功能此插件：允许您在Elasticsearch中存储特征（Elasticsearch查询模板）记录特征得分（
Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
剧本杀【幕后玩家】复盘解析+凶手是谁+剧透结局+测评+怎么玩？ VX搜_彤彤速递
每天持续更新复盘有15000＋：线下剧本杀·百变大侦探·我是谜·谁是凶手·玩吧·剧本杀线上·戏精大侦探·魔王杀·儿童剧本杀...所有谜题在等着你去揭开。为了你获得更好的游戏体验，本文仅显示《幕后玩家》剧本杀部分真相复盘，获取完整真相复盘只需两步①【微信关注公众号：云云复盘】②回复【幕后玩家】即可查看获取哦贾友仁利用自己保险公司的职务，在杨光审车时，隐瞒了车子存在刹车不灵的问题。想让杜若出车祸死亡，
过去一年，这16本好书不容错过 m0_54050778 perl
编者按：2023年在动荡与希望中收尾，2023年注定会被载入史册。疫情寒冬结束，ChatGPT横空出世，带动了人工智能技术的飞速发展；淄博烧烤、天津大爷、尔滨之旅等充满感动与幸福。但与此同时，2023年又是动荡与不安的一年，俄乌冲突的延宕，新一轮的巴以冲突，极端天气频发。在这个大环境下，有一些经典的书籍著作诞生。本文将分享2023年最值得一读的16本书籍，文章来自翻译，希望对你有所启示。关于202
生活中的很多事是既令人生气又令人伤感，但却还无可奈何城中隐士
今天一打开手机，就看到姨娘家的姐姐兰兰在抖音上发了一则信息，信息内容如下：“我绝对不是我爸妈亲生的，不知他们是从哪儿把我捡回来的”。图源网络，侵则必删今天一大早，天刚蒙蒙亮，姨父就着急莫慌给姨妈家姐姐来一电话，说是家里今天有急事，喊她赶紧回去。还没等姐姐反应过来，姨父就草草地挂断了电话。吓得姐姐立马清醒，以为家里不知出了多大的事？她赶紧从床上爬起来以最快速度第一时间从温江赶到中江。等她顶着烈日，风
2019-07-16 振华老凤祥店长崔宁宁
大爱的李老师，智慧的教授，亲爱的跃友们：大家好！我是莱州鑫和金店李总的人～崔宁宁今天是我的日精进行动第56天，我分享一下今天的改变，我们相互勉励，每天进步一点点，离成功便不远。1、比学习：人这一生最主要的就是信念，坚定不移的信念是成功路上的重要基石！2、比改变：我是一切的根源，我变了世界就变了！改变自己的心态！3、比付出：承担才能成长，付出才会杰出！4、比谦卑：学习每位优秀店长身上的优点！5、比感
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
数据管理知识体系指南（第二版）-第五章——数据建模和设计-学习笔记键盘上的五花肉数据治理数据库数据仓库数据治理
目录5.1引言5.1.1业务驱动因素5.1.2目标和原则5.1.3基本概念5.2活动5.2.1规划数据建模5.2.2建立数据模型5.2.3审核数据模型5.2.4维护数据模型5.3工具5.3.1数据建模工具5.3.2数据血缘工具5.3.3数据分析工具5.3.4元数据资料库5.3.5数据模型模式5.3.6行业数据模型5.4方法5.4.1命名约定的最佳实践5.4.2数据库设计中的最佳实践5.5数据建模和
2020-04-09 柠_fc84
我和清新冥想的相伴之旅我是来自大二的学生，一名性格活泼的女学生。平时没事喜欢看看书，做做运动，同时也是一名英语爱好者。因一次机遇结识了潘多拉口语课，在此获益良多，但这单单是满足不了我的，也是因为随着现在课程的开展，生活烦心事的增加，情绪波动大，使我紧绷。于是我和清新冥想课程英文版相遇啦。它带给我不一样的体验，使我的心情越来越轻松，那些不好的情绪也愈见愈远，我刚开始接触的时候是好奇，本来加上我对英语
第六十六章龙族危矣沧海衔月
“只希望恶魔公子，来日我族有难，能够庇护我族。”红衣女子忽的莞尔一笑，让于询根本摸不清套路，“公子所猜不错，玉京身为蕙兰楼头牌，确实乃是模仿卞赛其人，不过奴家身为大妖，吸食阳气者，俱是贪欲过重，贪图奴家身体之辈，奴家只是给他们一个小小教训罢了，他们心术不正......”后面的话语女子没有说出。于询见黄玉京对自己坦诚无比，连曾害过人亦是详细告知，倒是出乎于询预料。兴许也是这单独的空间，制造了这暧昧的
电影《外太空的莫扎克》嘉诺
今天妈妈带我去看《外太空的莫扎克》里面讲的是一部适合全家观看的奇幻喜剧，两对“冤家父子”，一只“天外来客”，三位搞笑笨贼，上演一出奇幻爆笑喜剧。任大望一心想把喜好天文的儿子任小天培养成钢琴演奏家，为此父子争吵不断。一天，神秘外星人莫扎特意外出现，从此，莫扎特帮助任小天开启了和爸爸“斗智斗勇”的生活。令任小天没有想到的是，莫扎特来到地球竟另有任务。星人莫扎特。之所以起名莫扎特，是因为他来到地球以后就
道德经第三十四章套马地汉纸
道德经第三十四章原文：大道泛兮，其可左右！万物恃之而生，而不辞，功成不名有。爱养万物而不为主，常无欲，可名于小；万物归焉而不为主，可名为大。是以圣人终不为大，故能成其大。译文：大道广泛流行，无所不到。万物依赖它生长而不推辞，有所成就而不自以为有功。养育万物而不自以为主，永远没有私欲，可以说是渺小得很，所以可称它为“小”；物归附于它而它不自以为主宰，可以说极其伟大，所以可称它为“大”。由于它不自以为
露台烤火到廚房發火 3000烦恼风
露台烤火昨天晚上，和太太兩個孩子在家中頂樓露台。我升起一盆火，在不太冷的冬天晚上，我們特地把晚餐搬上頂樓，大家聚在一起吃飯，「戶外」就像是調味料，食物總是比室內更有味道。用餐後，也沒事，太太烤著火，大兒子跟我聊著他最近讀的小說，這個上高中就酷酷的兒子，好久沒跟我說這麼久的話了。我在火上燉煮著香料奶茶，準備和太太一起享用。女兒則在一旁借太太的手機學習怎麼使用滑板。一切畫面都安安靜靜的，很緩慢的，我現
UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS liferecords LLM 语言模型人工智能自然语言处理
UNDERSTANDINGHTMLWITHLARGELANGUAGEMODELS相关链接：arXiv关键字：大型语言模型、HTML理解、Web自动化、自然语言处理、机器学习摘要大型语言模型（LLMs）在各种自然语言任务上表现出色。然而，它们在HTML理解方面的能力——即解析网页的原始HTML，对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型（经过微调
惊悚事件——出门忘带口罩了！凌朵
昨天中午，楼管在群里说要发出入证，我赶紧下楼去领。左手二个垃圾袋，右手一个垃圾袋加空洗衣液瓶。好吧，尽量不出门，出一次门多做点事，还想着顺便去买点水果蔬菜，下来一次不容易啊。我下到一楼——咦，没人？丢了垃圾，掏出手机一看，还要等一会，现在正在九号楼发着。我看着楼前的绿植，今天五点多开始，洋洋洒洒的下起雪来，顺便拍俩张图片，纪念一下这次下楼。一位大叔从我旁边经过，很惊恐的看了我一眼，然后迅速走过去了
【星座】星座恋爱研修课（51）陌生女人续事创意写作工作室
【连载】星座命运感情故事《星座恋爱研修课》目录她正蹲在地上看这个四方的包裹时，身后突然有人拍了拍她的肩膀，夏慕手一抖，差点将包裹扔到地上。回头只看到一大束玫瑰花，和用花遮住脸的某个人。“秦铮，果然是你，说吧，这个包裹里到底是什么。”夏慕接过花，在他眼前晃晃手里的盒子，秦铮抢过盒子，背在身后，笑眯眯的说道：“盒子里什么都没有啊，就是用来引你上钩的。”见她还不死心的往他身后看，索性连人带花一起搂进怀里
陈情令趣事40：蓝湛吃月饼，前后口味变化大，景仪不解思追秒懂苏小妹娱乐
（苏小妹/文）在《陈情令》里，姑苏蓝氏是极其注重礼仪的家族。什么重大节日，都有一定的礼仪。如今恰逢中秋，自然也是不例外的。一系列的礼仪操作下来，忙完的蓝景仪等小辈们赶紧跟着含光君去厨房报道了。因为某人说要吃亲手做的月饼，所以大家伙赶紧来忙活咯。蓝忘机走的是雅正的路线，他做的月饼都是比较传统的。而蓝景仪等人虽然很努力地想要学，但总归是时间有限，最后干脆打下手好了。因为相比上次端午节有大把的时间包粽子
PaperWeekly sapienst Papers PaperwithCode General ML
1.Python软件包解决DL在未见过的数据分布下性能差的问题：（1）神经网络和损失分离的模块化设计（2）强大便捷的基准测试能力（3）易于使用但难以修改（4）github:https://github.com/marrlab/domainlabTrainer和Models之间是什么关系Trainer和Models是DomainLab中的两个核心概念。Trainer是一个用于指导数据流向模型并计算S
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi