2018k

斯坦福教授告诉你：什么是多任务学习「 CS330 笔记 (二) 」

文章目录

写在前面

多任务学习基础

符号说明（notation）
任务的定义
常见任务举例

多任务分类问题（Multi-task classification）
多标签学习问题（Multi-label learning)
损失函数不同的情况

基础结构

Conditioning on the task

选择一：分离每个任务的网络
选择二：共享几乎所有的网络
选择N：其他常见的conditioning方式

1. 基于连接的限制 (Concatenation-based conditioning)
2. 加法形式的限制 (Additive conditioning)
3. 多输入结构（Multi-head architecture）
4. 乘法形式（Multiplicative conditioning）
5. more

Optimizing the objective

挑战

Negative transfer
overfitting

案例学习

介绍
架构

写在前面

本系列博客为斯坦福大学 Stanford CS330： Multi-Task and Meta-Learning 2019 的学习笔记。博客中出现的图片均为课程演示文档的截图。笔记为课程的内容整理，主要是为了方便自己理解和回顾，若有纰漏和错误，烦请指出，谢谢 ~ 。希望对你有帮助。如需转载，请注明出处。
CS330课程传送门

如果你也好奇什么元学习，好奇为什么要学习元学习，可以先搂一眼这篇元学习课程介绍

多任务学习:

模型 & 训练：
模型的类型、基础架构、多任务学习的训练过程
挑战：
处理多任务学习问题中可能遇到的挑战
真实世界多任务学习的案例研究

元学习：

问题陈述(problem formulation)
元学习算法的通用基本框架(general recipe)
黑盒适应方法（Black-box adaptation approaches）

多任务学习基础

符号说明（notation）

我们用 $\theta$ 来描述网络的参数， $x$ 是网络的输入， $y$ 是网络的输出。即可以把该网络表示成：
$f_{\theta}(y \ |\ x)$

对于单任务有监督学习问题来说，数据集 $\mathcal{D}=\{(x,y)_{k}\}$ ，目标为 $\min\limits_{\theta}\mathcal{L}(\theta,\mathcal{D})$ 。如用典型的损失函数，负对数似然函数（NLL损失函数）：
$\mathcal{L}(\theta,\mathcal{D})=-\mathbb{E}_{(x,y)\sim\mathcal{D}}[\log f_{\theta}(y\ |\ x)]$

通常我们会用反向传播来优化网络中的参数，运行诸如SGD，Adam等深度学习优化算法。

任务的定义

在上一篇就提到了这个定义，这节对“task”这个概念做一个更正式的定义
$\mathcal{T}_i\triangleq \{p_i(x),\ p_i(y\ |\ x),\ \mathcal{L}_i\}$

$p_i(x)$ : 输入 $x$ 的概率分布
$p_i(y\ |\ x)$ : 在给定输入下，labels的概率分布
$\mathcal{L}_i$ : 损失函数

这两个概率就相当于取样分布（data generating distribution）。在训练中，我们通常会设置两个数据集 $\ \mathcal{D}_i^{tr}$ 和 $\mathcal{D}_i^{test}$ 。我们会假设这两个集合的分布都等于取样分布 $p_i$ 。

所以不同的任务就可能对应于不同概率分布的输入，给定输入下不同的标记分布和不同的损失函数。一般我们会将 $\mathcal{D}_i$ 来用作为 $\mathcal{D}_i^{tr}$ 的简写。

常见任务举例

多任务分类问题（Multi-task classification）

在所有的任务中， $\mathcal{L}_i$ 是相同的。如不同文字的手写识别，个人垃圾邮件过滤器。在这些情况中，损失函数是相同的，但是每个人收到的邮件种类是不一样的，即 $p_i(x)$ 不同。甚至对于同样的输入邮件，对于不同的人也可能是不同的标签。所以 $p_i(y\ |\ x)$ 也可能是不同的。

多标签学习问题（Multi-label learning)

$\mathcal{L}_i, p_i(x)$ 是不同任务中是相同的。如输入同一张照片，任务一可能是需要判断照片中人物是否戴了帽子，任务二可能是判断人物的发色（CelebA attribute recognition）。或是其他例如场景识别等，在同样的输入条件下，我们需要得到输入的深度，表面法线等等属性。

损失函数不同的情况

任务分别处在连续空间和离散空间
我们对不同task的重视程度不同，所以不同的task损失函数的权重可能不同。

基础结构

如果我们希望在神经网络中解决不同的任务，那我们肯定需要在网络中添加机制，告诉网络该做什么。即所谓的条件（condition）。

所以在此处，我们用 $z_i$ 来表示任务描述符（task descriptor），将其添加到网络中以起到条件的作用。所以我们函数模型也就变为:
$f_{\theta}(y \ |\ x,\ z_i)$
那我们该如何实现任务描述符呢？最简单的一种做法就是将其设置为任务状态索引（task index）的独热编码（one-hot encoding）。（e.g. 一个简单的告诉你这是哪个任务的向量。）描述符中也可以包含一些关于任务的元数据（meta-data）。如:

个性化：用户标签/属性
任务的语言描述
任务的正式规范

此时我们的目标函数也需要改写为：
$\min\limits_{\theta}\sum_{i=1}^T\mathcal{L_i}(\theta,\mathcal{D_i})$

此时我们已经有基本的模型和目标，那么在我们面前就有两个亟待解决的问题：

于模型来说，我们该如何设置 $z_i$ （Conditioning on the task）
于算法来说，我们该如何优化目标（Optimizing the objective）

Conditioning on the task

假定我们将 $z_i$ 作为任务状态索引，其中包括了我们对该任务的所有已知信息。那问题来了：我们该如何添加条件使得构建出来的模型中在不同任务间分享的信息足够少？即，把问题推向极端，我们该如何构建一个在不同任务间尽可能少分享信息的神经网络？这个问题的答案其实也就是第一种，最朴素的conditioning方式：

选择一：分离每个任务的网络

答：各玩各的。对每一个任务都设置一个神经网络模型。在最后输出时，将 $z_i$ 作为判断依据，再对每一个网络的输出施加影响（个人理解类似门控），最后即可得到总输出。在这种情况下，不同任务间没有共享的参数。

选择二：共享几乎所有的网络

此时我们来考虑另一个极端，如果直接把 $z_i$ 插入到神经网络的某一层的输入或输出之后，然后正常训练网络。在这种情况下，除了插入点之后部分的参数没有被共享，其他的参数都会被所有的任务所共享。

我们还可以从参数的角度对多任务学习问题做一个解释：将 $\theta$ 分为共享的参数 $\theta^{sh}$ 和任务特定的参数 $\theta^i$ ，目标即为：
$\min\limits_{\theta^{sh},\theta^1,...,\theta^T}\sum_{i=1}^T\mathcal{L_i}(\{\theta^{sh}, \theta^i\},\mathcal{D_i})$

选择如何添加 $z_i$ 的限制条件就相当于选择如何、在哪开始共享参数。

选择N：其他常见的conditioning方式

1. 基于连接的限制 (Concatenation-based conditioning)

2. 加法形式的限制 (Additive conditioning)

这两种方式虽然看起来不同，但其实最后结果是一样的。为什么呢？
答：传送门

3. 多输入结构（Multi-head architecture）

4. 乘法形式（Multiplicative conditioning）

为什么乘法形式的限制比较有优势呢？

模型更有表达性
其实可以看做是缓和版的方法一（recall: multiplicative gating）

5. more

但比较不好的是，这些结构都比较强依赖于特定问题，且通常都是由问题的相关知识启发得出的。所以模型的构建并不系统，它更像是艺术品。

Optimizing the objective

$\min\limits_{\theta}\sum_{i=1}^T\mathcal{L_i}(\theta,\mathcal{D_i})$

Tips:

不同于传统的有监督学习，在第一步和第二步中，我们会采样两次（对任务采样，对数据采样）。
同时前两步是为了确保每一个任务都可以在不同的数据量下被均匀取样。如果一个task较另一个task有更多的数据，这可以帮我们确保我们是用同样的比例对两者进行取样。
对于回归问题，确保所有任务的输出都在同一个数量级。

挑战

Negative transfer

出现这个情况的通常表现就是：有时独立训练的网络结果反而更好。

原因如下：

优化挑战（optimization challenges）
- 由任务之间的干扰导致（cross-task interference)
- 由不同任务的学习速度不同导致
受限于模型的表达性

通常情况下，多任务学习网络对应于单任务网络要大得多。如果模型不够大的话，很容易欠拟合。

那这种情况下应该怎么办呢？显然，少分享就可以缓解这个问题，但是除了二元的解决这个问题，我们还可以通过软参数分享（soft parameter sharing）来解决。

$\min\limits_{\theta^{sh},\theta^1,...,\theta^T}\sum_{i=1}^T\mathcal{L_i}(\{\theta^{\ sh}, \theta^{\ i}\},\mathcal{D_i}) \ + \underbrace{\sum_{t\prime = 1}^T||\ \theta^{\ t}-\theta^{\ t\prime}||}_{"soft\ \ parameter\ \ sharing"}$

这样做，可以使得参数之间的相似性增加，从而减小因为参数之间差距较大所带来的影响。同时相较于直接copy任务间的参数，这样方式则更为缓和。

优点：

使得参数间的共享有更多的流动性（fluid degree）
需要更多设计/超参来控制（yet another set of design decisions\hyperparameters）

overfitting

出现这个情况的原因可能就是没有分享足够的信息。
多任务学习，某种程度上也可以理解为正则化。

案例学习

介绍

Recommending What video to Watch Next： A Multitask Ranking System

这是谷歌的一篇关于youtube视频推荐的文章。文章中将这个视频推荐问题总结为一个多任务学习问题。

conflicting objectives:

用户可能会评更高分的视频
用户可能会分享的视频
用户可能会看的视频

同时论文也关注了反馈（feedback）导致的隐式偏差：即用户观看的视频可能并不是因为他爱看，只是因为系统推荐了这个。

本文主要关注ranking过程，不考虑收集candidate video的过程

文章的最终目标主要评估了两大类：

参与度
满意度
每一类都对对应了一系列参数，最后通过手动调参的方式合在一起。

架构

多任务学习就到此为止啦~
下一节会接着介绍什么是元学习

你可能感兴趣的:(元学习)

程序员职业发展：元学习比技术更重要？ AI天才研究院 AI人工智能与大数据学习 ai
程序员职业发展：元学习比技术更重要？关键词：程序员职业发展、元学习、技术、学习能力、知识更新摘要：在快速发展的科技领域，程序员面临着技术不断更新换代的挑战。本文深入探讨了在程序员职业发展中，元学习与技术的重要性对比。通过分析元学习的核心概念、其在职业发展中的作用，结合技术的特点和局限，阐述了元学习为何可能在长远的职业发展中更为关键。同时，提供了实际的案例和操作步骤，介绍了相关的工具和资源，最后对未
《忆读书》试讲教案及备课思路捡起书来
单元首页揭示了第八单元的人文主题和语文要素，见下图：单元导语定下人文主题：书上有路勤为径。语文要素定下单元学习目标：1、阅读时注意梳理信息，把握内容要点。2、根据表达的需要，分段表述，突出重点。下面正式进入课文：一、教学目标：①知识与技能：把握课文记叙的主要内容②过程与方法：通过多种朗读形式，品位文中富有感染力的语句，感受作者所表达的“读书是我生命中最大的快乐”的情感。③情感态度价值观：理解“读书
四（上）《麻雀》试讲教案及备课思路捡起书来
单元首页揭示了第五单元的人文主题和语文要素，见下图：单元导语定下人文主题：我手写我心，彩笔绘生活。语文要素定下单元学习目标：1、了解作者是怎样把事情写清楚的。2、写一件事，把事情写清楚。下面正式进入课文：一、教学目标：①知识与技能：能够找出描写小麻雀、猎狗、老麻雀的神态、动作的句子，感受爱的强大力量。②过程与方法：抓住重点语句，结合生活实际展开想象，体会作者通过神态、动作描写表现人物形象的写作方法
基于小样本学习的图像分类综述 cdyyyyyyy 学习分类机器学习
目录引言基本概念小样本学习方法分类1、数据增强2、迁移学习3、元学习小样本学习主流方法1、基于度量的小样本学习2、基于Pretraining+FineTuning的方法3、基于元学习的小样本学习总结引言因为课程设计要求，所以进行了关于小样本学习的调研。目前小样本学习还是一个比较热门的研究，很多关于小样本学习的论文也陆续发表。本文只是一个概述，具体方法研究还有待深入。基本概念小样本学习（FSL：Fe
【论文阅读】Meta-SE: A Meta-Learning Framework for Few-Shot Speech Enhancement Bosenya12 论文阅读
这篇文章介绍了一个名为Meta-SE的元学习框架，专门用于少样本（few-shot）语音增强问题。文章的核心目标是解决在实际应用中，由于训练样本有限而导致传统深度神经网络（DNN）模型性能受限的问题。Meta-SE通过元学习的方法，利用先验的元知识快速适应新的任务和噪声类型，即使只有少量训练样本也能表现出色。背景知识与研究动机语音增强技术旨在从带噪语音信号中恢复目标语音，提升语音质量和可懂度。深度
让AI自己学会“怎么学”——元学习，才是高效训练的终极武器！ Echo_Wish Python 进阶人工智能学习
让AI自己学会“怎么学”——元学习，才是高效训练的终极武器！朋友们，今天咱不聊ChatGPT，不聊大模型黑魔法，也不玩Prompt咒语。我想聊一个比“怎么训模型”更底层、更值得思考的问题：如果我们能让模型自己学会怎么更快、更聪明地学习，是不是就能少走很多弯路？这，就是元学习（MetaLearning）要解决的事儿。说白了，元学习是AI给AI上培训课的过程。咱们天天琢磨怎么喂模型数据、调超参、搞迁移
元学习的认知思维棱镜由数入道 AI辅助教学学习元学习思维模型认知框架思维棱镜
在学习这场马拉松中，大多数人只关注如何跑得更快（学习方法），但元学习关注的却是如何学会规划路线、调整呼吸、监测体能，甚至理解身体（大脑）的运作机制，从而跑得更远、更有效率。元学习（Meta-Learning）——“学会学习”的底层操作系统本质：元学习，简而言之，就是我们的大脑如何学习、如何反思学习过程、并如何优化学习策略的能力。它不是学习具体知识，而是学习如何学习知识本身。它好比你手中的智能手机，
【LLaMA 3实战】6、LLaMA 3上下文学习指南：从少样本提示到企业级应用实战无心水 LLaMA 3 模型实战专栏 llama LLaMA 3实战 LLaMa 3上下文 AI入门程序员的AI开发第一课人工智能 AI
一、上下文学习（ICL）的技术本质与LLaMA3突破（一）ICL的核心原理与模型机制上下文学习（In-ContextLearning）的本质是通过提示词激活预训练模型的元学习能力，使模型无需微调即可适应新任务。LLaMA3的ICL架构通过以下机制实现突破：任务抽象：从示例中提取输入输出映射规则，如情感分析中的正负向判断模式模式泛化：将规则迁移到新输入，支持跨领域知识迁移动态适应：实时调整注意力分布
衡水中学状元数学学习资料完整攻略向沙托夫问好
本文还有配套的精品资源，点击获取简介：《状元全科笔记衡水内部资料数学学习文档》提供了一个全面的数学学习资源，旨在通过衡水中学的教学经验和方法提升学生的数学成绩。资料包含基础知识、题型解析、模块训练、思维拓展和学习方法，引导学生深入理解数学概念，培养逻辑思维和解决问题的能力。文档结构清晰，内容详实，附带使用指南，帮助学生系统提升数学素养，实现学习效率和成绩的双重提高。1.状元学习方法分享在追求卓越成
Python机器学习元学习库higher 音程机器学习人工智能 python 机器学习
higher是一个用于元学习（Meta-Learning）和高阶导数（Higher-ordergradients）的Python库，专为PyTorch设计。它扩展了PyTorch的自动微分机制，使得在训练过程中可以动态地计算参数的梯度更新，并把这些更新过程纳入到更高阶的梯度计算中。一、主要用途higher主要用于以下场景：元学习（Meta-Learning）比如MAML（Model-Agnosti
元学习在个性化医疗AI中的应用研究 SuperAGI2025 AI大模型应用开发宝典学习人工智能 ai
元学习在个性化医疗AI中的应用研究关键词：元学习、个性化医疗、人工智能、机器学习、医疗应用、算法原理、临床决策摘要：本文聚焦于元学习在个性化医疗AI中的应用研究。首先介绍了研究的背景，包括目的、预期读者、文档结构和相关术语。接着阐述了元学习和个性化医疗的核心概念及联系，详细讲解了元学习的核心算法原理并给出Python示例代码。同时，给出了相关数学模型和公式并举例说明。通过项目实战展示了元学习在个性
元学习与Transformer的结合：Meta-Transformer架构解析 AI智能探索者 AI Agent 智能体开发实战学习 transformer 架构 ai
元学习与Transformer的结合：Meta-Transformer架构解析关键词：元学习、Transformer、Meta-Transformer、架构解析、深度学习摘要：本文主要探讨了元学习与Transformer结合形成的Meta-Transformer架构。首先介绍了相关背景知识，包括元学习和Transformer的基本概念。接着详细解释了Meta-Transformer的核心概念，分析
AIGC模型泛化能力：文心一言的多场景适应 AI原生应用开发 AI 原生应用开发 AIGC 文心一言 ai
AIGC模型泛化能力：文心一言的多场景适应关键词：AIGC、泛化能力、文心一言、多场景适应、迁移学习、元学习、领域适配摘要：本文深入解析百度文心一言在多场景下的泛化能力构建技术，从核心概念、算法原理、数学模型到实战应用展开分析。通过揭示文心一言的分层适配架构、动态知识融合机制及多模态协同策略，探讨其如何突破单一场景限制，实现内容生成、智能交互、跨领域任务的高效迁移。结合具体代码案例和数学推导，展示
基于PyTorch的少样本学习(Few-shot Learning)实现 AI原生应用开发 pytorch 学习人工智能 ai
基于PyTorch的少样本学习(Few-shotLearning)实现：用"小抄"教会AI快速学习新任务关键词：少样本学习、PyTorch、元学习、支持集、原型网络摘要：传统深度学习需要"海量数据喂养"，但现实中很多场景（如罕见病诊断、新物种识别）只有少量样本。本文将用"小学生考试"的比喻，带您一步步理解少样本学习（Few-shotLearning）的核心原理，并用PyTorch实现一个能"看5张
迁移学习解析劭清深度学习迁移学习人工智能机器学习
一、迁移学习的核心价值1.1定义与范式演进迁移学习（TransferLearning）是通过将源领域的知识迁移到目标领域，提升目标领域模型性能的机器学习范式。其演进路径为：传统机器学习深度学习迁移学习元学习/领域自适应1.2核心优势对比方法数据需求训练成本适用场景传统训练大量标注数据高数据充足场景迁移学习少量标注数据低数据稀缺领域从头训练海量标注数据极高研究级场景1.3应用场景分析跨领域应用：自然
Meta-Learning算法在机器人适应性控制中的底层机制学习ing1 算法机器人人工智能
1.Meta-Learning算法基础1.1Meta-Learning定义与原理Meta-Learning，即元学习，是指让机器学会如何更好地学习，其核心在于通过对多个相关任务的学习来获取更高效的学习策略和知识迁移能力，从而在面对新任务时能够快速适应并取得较好的学习效果。其原理主要基于以下几个方面：任务分布假设：假设存在一个任务分布，通过对该分布中多个任务的学习，模型能够学习到一种通用的学习策略，
元学习在AIGC模型泛化能力提升中的作用 AI天才研究院计算 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
引言随着人工智能技术的迅猛发展，生成式内容创造（AIGC，ArtificialIntelligenceGeneratedContent）成为了一个备受关注的热点领域。AIGC模型，通过机器学习和深度学习技术，能够自动生成文本、图像、音频等多种类型的内容，极大地提高了内容创造的效率和多样性。然而，这些模型在实际应用中面临着泛化能力不足的问题，即在训练数据集中表现良好，但在未知或不同类型的数据上表现不
从零到前沿：2025年人工智能系统性学习路径与最新技术融合指南小李独爱秋人工智能人工智能学习
一、构建人工智能认知框架（一）基础学科筑基数学核心能力线性代数：掌握矩阵运算（张量分解在推荐系统的应用）与特征值分析（PCA降维原理）概率统计：贝叶斯网络在医疗诊断中的应用，蒙特卡洛方法在强化学习的采样策略优化理论：2025年主流的元学习（Meta-Learning）框架中的二阶优化算法发展计算机科学基础数据结构：图神经网络（GNN）中的邻接矩阵存储优化操作系统：分布式训练中的GPU资源调度策略（
AGI彻底实现还有3大鸿沟需要跨越-现在人类离AGI还很远 TGITCIC AI-大模型的落地之道 agi 人工智能 AIGC 通用人工智能实现AGI 大模型大模型开源
（前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站）。一、AGI的现状：从“专才”到“通才”的鸿沟1.1当下的AI：任务型“天才”与全能型“学渣”GPT-4在代码生成、文本创作等单一领域已接近人类水平，但跨领域迁移能力薄弱。例如，斯坦福大学测试显示，用文学分析模型解微分方程的错误率高达92%。这暴露出当前模型的核心缺陷——缺乏“元学习”能力。1.2中
基于元学习的快速适应推荐算法 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
基于元学习的快速适应推荐算法关键词推荐系统，元学习，快速适应，算法优化，协同过滤摘要本文主要介绍了基于元学习的快速适应推荐算法。首先，对推荐系统的基本概念、发展历程、核心概念和架构进行了概述。接着，详细探讨了元学习的基础知识、分类、优势以及快速适应推荐算法的原理和优缺点。随后，深入分析了元学习在推荐系统中的应用、实现和挑战。最后，通过一个实际项目案例，展示了基于元学习的快速适应推荐系统的实现过程、
通用型AI智能体Manus：技术突破与OpenManus云平台革命 Loving_enjoy 实用技巧人工智能
一、通用型AI智能体的进化：Manus的技术突破**在人工智能技术从专用型向通用型跨越的浪潮中，Manus作为新一代通用AI智能体，正重新定义人机协作的边界。其核心价值在于突破了传统AI模型"单一场景适配"的局限，构建了可自主进化、多模态交互、跨领域迁移的智能体系。**1.Manus的四大技术支柱**（1）**元学习驱动的认知框架**Manus采用混合式元学习架构（HybridMeta-Learn
第37篇Personalized Federated Learning: A Meta-Learning Approach（perfedavg联邦学习+元学习）2020个性化联邦学习使用Hessian 还不秃顶的计科生联邦学习学习
第一部分：解决的问题联邦学习（FL）在多用户协同训练模型时，因数据隐私和通信限制，用户仅与中央服务器交互。传统FL方法得到的全局模型无法适应各用户的异质数据，导致在用户本地数据集上性能不佳因此这篇论文旨在解决联邦学习中模型缺乏个性化的问题第二部分：idea基于模型无关元学习（MAML）框架，提出个性化联邦学习问题的新公式。通过寻找一个初始共享模型，让用户基于自身数据执行少量梯度下降步骤就能快速适应
KDD 2023 | 先睹为快！KDD 2023论文合集50篇（附下载地址）马拉AI 机器学习人工智能深度学习
下载地址：点我跳转1.DoubleAdapt:AMeta-learningApproachtoIncrementalLearningforStockTrendForecastingCode：NoneArea：一种用于股票趋势预测增量学习的元学习方法2.HomoGCL:RethinkingHomophilyinGraphContrastiveLearningCode：https://github.c
一切皆是映射：量子机器学习与传统元学习的融合 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1人工智能的瓶颈当前，人工智能（AI）取得了令人瞩目的进步，尤其是在图像识别、自然语言处理等领域。然而，AI仍然面临着一些瓶颈，例如：数据依赖性:AI模型通常需要大量的训练数据才能达到良好的性能，而获取和标注这些数据往往成本高昂。泛化能力:AI模型在面对未见过的数据时，泛化能力往往不足，容易出现过拟合等问题。可解释性:AI模型的决策过程往往难以解释，这限制了其在一些关键领域的应用。
一切皆是映射：元学习中的神经架构搜索（NAS）杭州大厂Java程序媛计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
元学习神经架构搜索NAS遗传算法强化学习演化算法一切皆是映射：元学习中的神经架构搜索（NAS）在人工智能的广阔领域中，神经架构搜索（NeuralArchitectureSearch，简称NAS）是一颗璀璨的明星，它代表着一种全新的方法，即通过算法自动寻找最优的神经网络架构。这种思想源于元学习（Meta-Learning），它关注的是如何使学习过程本身变得更加高效。本文将深入探讨NAS的原理、方法、
【86】喜欢“折腾”的余老师亲亲鱼老师
“我们的进度会比其他班级慢一点，因为我们的实践作业会多一些，希望你们能够明白老师要求做的一切……第三单元学习写观察日记，为了学生体验感再强一些，我让孩子们种植大蒜,每天再写一篇观察日记。原本想着连续让孩子们观察六天就好，结果是六天结束了，孩子们因各种各样的原因，小蒜苗的生长各不相同，关键是真正长出绿色叶子的没几个，于是决定再继续观察几天……要问我为什么喜欢如此折腾？我想我能给的答案一定是为了所有的
元学习（meta learning）（一）前行居士学习人工智能神经网络深度学习机器学习元学习
元学习从字面的意思就是“学习”的“学习”，也就是学习如何学习。大部分的深度学习就是在不断的调整超参数，或者在决定网络架构，改变学习率等等。实际上没有什么好方法来调这些超参，今天工业界最常拿来解决调整超参数的方法是买很多张GPU，然后一次训练多个模型，有的训练不起来、训练效果比较差的话就输入掉，最后只看那些可以训练的比较好的模型会得到什么样的性能。所以在业界做实验的时候往往就是一次开几张GPU，这些
《压缩空气》 Hecate0523
本节课的内容，主要是通过空气和水的体积改变对比实验，来探究空气的体积可以改变，有弹性。在引发的本节课的内容时，我使用了两个球一个气球一个水球，为上节课空气占据空间，有体积，又进一步加深知识学习。通过手捏和压，让学生在激发兴趣的过程中，感受了一下我们可以对空气和水施加力让它们有变化。在做压缩实验的过程中，先介绍了注射器的结构、量程、以及如何读数，学生在上个单元学习了温度计后，在学习这个注射器对于刻度
11-22各数的认识之备课思马明洋河南信阳
11—20各数的认识是一年级上册第六单元的教学内容，至此之前，学生已经在第三单元学习了1—5的认识和加减法、第五单元学习了6—10的认识和加减法。即，11—20各数的认识是在学习了“1—10的认识”基础上对数的进一步认识。1—10的教学重点是使学生体验1—9从数量到数的抽象过程，通过9再加1就是十，体会十的表达与1—9的不同是在新的位置上写1，这个位置叫十位，十位上的1表示1个十，1个十用数字符号
论文阅读笔记《SimpleShot: Revisiting Nearest-Neighbor Classification for Few-Shot Learning》深视论文阅读笔记 #小样本学习深度学习小样本学习
小样本学习&元学习经典论文整理||持续更新核心思想本文提出一种基于最近邻方法的小样本学习算法（SimpleShot），作者指出目前大量的小样本学习算法都采用了元学习的方案，而作者却发现使用简单的特征提取器+最近邻分类器的方法就能实现非常优异的小样本分类效果。本文首先用特征提取网络fθf_{\theta}fθ+线性分类器在一个基础数据集上对网络进行训练，将训练得到的特征提取网络增加一个简单的特征
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他