青松ᵃⁱ

【NLP算法面经】NLP算法面经 -- 腾讯 VS 美团（附面题）

博客主页： [青松]

【NLP百面百过】大模型算法高频面题（全面整理 ʘ‿ʘ）

一、大模型（LLMs）基础面

大模型（LLMs）架构篇

注意力机制（Attention）篇

Transformer 理论篇

二、大模型微调面

有监督微调（SFT）篇

高效微调篇

提示学习篇

人类对齐训练（RLHF）篇

Prompt 工程篇

三、大模型进阶面

大模型压缩篇

分布式训练篇

大模型魔改篇

四、NLP 任务实战面

文本分类篇

命名实体识别（NER）篇

关系抽取篇

检索增强生成（RAG）篇

五、NLP 基础面

分词（Tokenizer）篇

词嵌入（Word2Vec）篇

卷积神经网络（CNN）篇

循环神经网络（RNN）篇

长短期记忆网络（LSTM）篇

BERT 模型篇

BERT 变体篇

BERT 实战篇

六、深度学习面

激活函数篇

优化器篇

正则化篇

归一化篇

参数初始化篇

过拟合篇

集成学习篇

评估指标篇

lz从3月初脚因打球扭伤了开始，投递简历，接二连三的面试鞭尸又面试，昨天才终于上岸了，分享经验~

腾讯PCG看点（已OC）

一面

自我介绍
项目介绍
项目改进优化的点，怎么导入图谱知识加强实体表征
反问

一面面试官人特好，而且很随和，没有八股文没有code，总体面试体验很棒，大概面了45分钟

二面

自我介绍
项目介绍（很详细，从预训练语料到loss，然后到应用场景，模型上线细节，评测，全讲了一遍）
loss设计 triplet loss和交叉熵loss各自的优缺点，怎么选择
介绍一下attention机制
介绍一下ernie模型
还有什么其他比较基础的Nlp技术，我回答中包括了ner，于是问我目前比较流行的ner模型，我回答了bert\flat
简单介绍一下flat及对于嵌套式语料的融合方式
code topK两种方式（暴力，快排）

二面是二对一，面试时长达到了惊人的两小时，而且那天刚好杭州突然天气转凉，刮风下雨，坐在实验室外面冷得发抖，喉咙也干的不行。。二面压力应该是最大的把，问得很细致

三面

自我介绍
项目介绍
调参技巧，评估指标
模型不收敛原因分析，解决方案（学习率，权重初始化，数据标注，样本不平衡问题等等
梯度消失和梯度爆炸原因分析及解决办法（激活函数，网络层次，正则化
介绍transformer（从encode端到decode端完整的说了一遍
提升指标的一些trick 调参之前说过了，就说了加对抗训练，及实现细节
模型蒸馏work的原因，具体实现方式

三面对细节要求较高，基本都是一些比较基础的深度学习的知识

四面（主管面）

这里我不得不先吐槽一下，我一度以为凉了，结果3.31才给我更新了状态说是主管面。。。隔了将近半个月

自我介绍
项目介绍
项目优化的点，模型迭代多少个版本解决了什么问题
你觉得对你模型提升最大的点在哪里
局限性
如果过来实习的实习时间和时长

四面是个女主管，语气很好比较温柔，就是太能拖了，拖了半个月。。然后这里还有一个小插曲，4.1号那天开了个愚人节玩笑，我流程显示已经终止了。。所以Lz又马上投了美团,pdd

结果后来hr过来沟通说是流程太久没更新自动释放的，后来过了几天又给我恢复了。。

五面(hr面）

又隔了半个月，说是我要6月初才能任职，就往后拖了，哎无话可说
4.16 OC
4+1面终于结束了，可能lz在备胎池里一直游泳吧，也不敢说也不敢问呀哈哈

美团点评事业部搜索与NLP团队(OC)

一面（4.8）

自我介绍
项目介绍（问的很细，所有的细节，包括后续上线应用在排序模型上的一些接口，上线评测指标
bert介绍（跟transformer差不多把，就是多了两个预训练任务
梯度消失问题怎么解决（此时的lz经过腾讯的鞭打已经可以随意扯了，不得不感慨面试使人成长
算法题二叉树之字型层序遍历（5分钟搞定了）字典树trie类实现insert,search,startswith（5分钟搞定了）

一面面试官人很好，我们都开了摄像头，面对面的沟通交流，面试体验满分，而且最后还说我算法题做的很快，内涵了一波

二面（4.13）

自我介绍
项目介绍
模型主要在哪些case上有很大的改进
模型在哪些case还存在比较大的问题，后续想怎么改进
在学校还有什么ml dl方面的学习
有无论文（菜鸡，并无论文

二面也是开了摄像头的，人也很棒，说我一面面试官对我code能力有了评价，这次就不做code了，时间也差不多一个小时了，然后我问了他对我的评价，他说整体还不错，就是语速有些快，如果不是做这一行的可能没有思考时间，如果没开摄像头还以为我在读稿子。。好吧，lz就是看大张伟综艺看多了。。

【NLP百面百过】大模型算法高频面题（全面整理 ʘ‿ʘ）

一、大模型（LLMs）基础面

大模型（LLMs）架构篇

一、概念篇
- LLM架构对Transformer都有哪些优化？
二、组件篇
- 位置编码
  - 什么是正弦（Sinusoidal）位置编码？
  - 什么是旋转位置编码（RoPE）？
  - RoPE相对正弦位置编码有哪些优势？
- 长度外推
  - 正弦编码是否真的具备外推性？
  - RoPE如何进行外推？
  - 如何进行位置线性内插（Position Interpolation）？
  - NTK-Aware Scaled RoPE 和位置线性内插的区别是什么？
  - NTK-Aware Scaled RoPE 为何要对高频做外推，而对低频做内插？
- 注意力机制
  - LLM为何使用GQA代替MHA？
  - GQA如何平衡计算效率与模型性能？
  - GQA与MQA（Multi-Query Attention）有何区别？各自适用场景是什么？
  - GQA是否会影响模型对不同注意力模式的捕捉能力？如何缓解？
- PreNorm和PostNorm
  - PreNorm和PostNorm有何不同？
  - 为什么PreNorm通常能提升训练稳定性？
  - PostNorm在何种场景下可能优于PreNorm？
  - 如何通过残差连接设计缓解PostNorm的优化问题？
- RMSNorm和LayerNorm
  - 为何使用 RMSNorm 代替 LayerNorm？
  - RMSNorm与LayerNorm在数学公式上的核心区别是什么？
  - RMSNorm可能带来哪些信息损失？如何补偿？
  - RMSNorm是否适用于所有模态任务？
- 激活函数
  - LLM使用SwiGLU相对于ReLU有什么好处？
  - SwiGLU相比ReLU如何提升模型非线性表达能力？
  - 为什么SwiGLU在预训练任务中表现更佳？
  - SwiGLU的参数量是否会显著增加？如何优化？

注意力机制（Attention）篇

一、概念篇
- 什么是 Attention？
- 为什么要引入 Attention 机制？
- 如何计算 Attention？
二、变体篇
- Soft Attention 是什么？
- Hard Attention 是什么？
- Global Attention 是什么？
- Local Attention 是什么？
- Self-Attention 是什么？
- 多查询注意力（Multi-Query Attention）是什么？
- 分组查询注意力（Grouped Query Attention）是什么？
- 分页注意力（Paged Attention）是什么？
- 闪存注意力（Flash Attention）是什么？

Transformer 理论篇

一、模型结构篇
- Transformer 整体结构是怎么样的？
- Transformer 编码器有哪些子层？
- Transformer 解码器有哪些子层？
二、核心机制篇
- 位置编码
  - Transformer的输入中为什么要添加位置编码？
  - 什么是正弦（Sinusoidal）位置编码？
  - Transformer的位置编码是如何计算的？
  - Position encoding为什么选择相加而不是拼接呢？
- 多头注意力
  - Self-Attention 是什么？
  - 多头注意力相对于单头注意力有什么优势？
  - Transformer中自注意力模块的计算过程？
  - 什么是缩放点积注意力，为什么要除以？
- 残差连接
  - Transformer为什么要使用残差连接？
  - 使用残差连接有哪些好处？
- 层归一化
  - 为什么要做归一化？
  - Layer Normalization 是什么？
  - Layer Normalization 有什么用？
  - 批归一化和层归一化的区别？
  - Layer Normalization 有哪几个可训练参数？
- Mask 机制
  - 解码器中为什么要使用Mask？
  - Transformer 中有几种 Mask？
  - Padding Mask 是如何实现的？
  - Sequence Mask 是如何实现的？
三、问题优化篇
- LLM为何使用GQA代替MHA？
- LLM为何使用 PreNorm 代替 PostNorm？
- LLM为何使用 RMSNorm 代替 LayerNorm？
- LLM使用SwiGLU相对于ReLU有什么好处？

二、大模型微调面

有监督微调（SFT）篇

一、概念篇
- 从零训练一个大模型有哪几个核心步骤？
- 为什么要对LLM做有监督微调（SFT）？
- 如何将一个基础模型训练成一个行业模型？
二、数据篇
- 如何准备SFT阶段的训练数据？
- alpaca 格式是这么样的？
- sharegpt 格式是什么样的？
- alpaca 格式和sharegpt 格式分别适合什么微调场景？
- 如何自动生成指令构建SFT的训练数据？
- Self-instruct 数据生成步骤？
三、技巧篇
- 什么是灾难性遗忘？
- LM做有监督微调（SFT）变傻了怎么办？
- 如何避免灾难性遗忘？
四、对比篇
- 有监督微调（SFT）和人工偏好对齐（RLHF）有何区别？
- 有监督微调（SFT）适用于什么场景？
- 人工偏好对齐（RLHF）适用于什么场景？

高效微调篇

一、概念篇
- 什么是微调？
- 全量微调与参数高效微调的区别是什么？
- 为什么需要对大模型进行高效微调？
- 对大模型高效微调有哪些常用方法？
二、轻度微调
- 什么是轻度微调？
- 轻度微调有哪些常用方法？
- 什么是BitFit微调？
- 什么是分层微调？
- 分层微调如何设置学习率？
三、适配器微调
- 什么是适配器微调？
- 适配器微调有哪些优势？
- 讲一讲IA3微调？
四、提示学习（Prompting）
- 概念篇
  - 什么是提示学习（Prompting）？
  - 提示学习（Prompting）代表方法有哪些？
- 前缀微调（Prefix-tuning）
  - 什么是前缀微调（Prefix-tining）？
  - 前缀微调（Prefix-tining）的优点是什么？
  - 前缀微调（Prefix-tining）的缺点是什么？
- 提示微调（Prompt-tuning）
  - 什么是提示微调（Prompt-tuning）？
  - 提示微调（Prompt-tuning）的核心思想？
  - 提示微调（Prompt-tuning）的优点是什么？
  - 提示微调（Prompt-tuning）的缺点是什么？
- P-tuning
  - P-tuning 动机是什么？
  - P-tuning v2 解决了什么问题？
  - P-tuning v2 进行了哪些改进？
五、指令微调
- 为什么需要指令微调（Instruct-tuning）？
- 指令微调（Instruct-tuning）是什么？
- 指令微调（Instruct-tuning）的优点是什么？
- 指令微调（Instruct-tuning）和提示学习（Prompting）的区别是什么？
六、LoRa微调
- 什么是LoRA微调？
- 为什么在参数高效微调中使用低秩矩阵分解？
- 详细说明LoRA的工作原理及其优势？
- LoRA微调时有哪些可配置的参数？
- 在配置LoRA时，如何设置参数r和alpha？
- LoRA存在低秩瓶颈问题，ReLoRA和AdaLoRA分别通过哪些方法改进？
- 动态秩分配（如AdaLoRA）如何根据层的重要性调整秩？正交性约束的作用是什么？
- AdapterFusion如何实现多任务学习？
- 如何利用LoRAHub实现跨任务泛化？其组合阶段与适应阶段的具体流程是什么？

提示学习篇

一、概念篇
- 什么是提示学习（Prompting）？
- 提示学习（Prompting）代表方法有哪些？
二、方法篇
- 前缀微调（Prefix-tuning）
  - 什么是前缀微调（Prefix-tining）？
  - 前缀微调（Prefix-tining）的优点是什么？
  - 前缀微调（Prefix-tining）的缺点是什么？
- 提示微调（Prompt-tuning）
  - 什么是提示微调（Prompt-tuning）？
  - 提示微调（Prompt-tuning）的核心思想？
  - 提示微调（Prompt-tuning）的优点是什么？
  - 提示微调（Prompt-tuning）的缺点是什么？
- P-tuning
  - P-tuning 动机是什么？
  - P-tuning v2 解决了什么问题？
  - P-tuning v2 进行了哪些改进？
三、对比篇
- 提示微调（Prompt-tuning）与 Prefix-tuning 区别是什么？
- 提示微调（Prompt-tuning）与 fine-tuning 区别是什么？

人类对齐训练（RLHF）篇

一、概念篇
- 从零训练一个大模型有哪几个核心步骤？
- 从零训练大模型的三大阶段（Pretrain/SFT/RLHF）分别解决什么问题？
- 什么是人类偏好对齐训练？
- 为什么需要做人类偏好对齐训练？
- RLHF有哪几个核心流程？
- RLHF与SFT的本质区别是什么？为什么不能只用SFT？
- 什么是人类偏好对齐中的"对齐税"(Alignment Tax)？如何缓解？
- RLHF的三大核心模块（奖励模型训练、策略优化、偏好数据收集）如何协同工作？
- 为什么RLHF需要马尔可夫决策过程（MDP）建模？对话场景如何设计MDP五元组？
二、方法篇
- 强化学习和马尔可夫决策过程（MDP）
  - 马尔可夫决策过程的五元组是分别指什么？
  - 状态价值函数、优势价值函数、动作价值函数分别表示什么意思？
  - 在强化学习中，基于值函数的和基于策略的的优化方法有何区别？
  - 基于值函数的方法在处理连续动作空间问题时的优缺点分别是什么？
  - 基于策略的方法在处理连续动作空间问题时的优缺点分别是什么？
- PPO 算法
  - 什么是近端策略优化（PPO）？
  - RLHF中的PPO主要分哪些步骤？
  - PPO中的重要性采样(Importance Sampling)如何修正策略差异？
  - Actor-Critic架构在RLHF中的双网络设计原理？
  - KL散度在RLHF中的双重作用是什么？
  - PPO-Clip与PPO-Penalty的数学形式差异及适用场景？
- DPO 算法
  - DPO如何通过隐式奖励建模规避强化学习阶段？
  - Bradley-Terry模型与DPO目标函数的关系推导
  - DPO vs PPO：训练效率与性能上限的对比分析
三、实践篇
- RLHF训练数据的格式是什么样的？
- 人类偏好数据收集的三大范式（人工标注/用户隐式反馈/AI生成对比）？
- 如何选择人类偏好对齐训练还是SFT？
- 如何选择人类偏好对齐训练算法？
- 如何理解人类偏好对齐训练中的Reward指标？
- Reward Hack问题（奖励模型过拟合）的检测与缓解方案有哪些？

Prompt 工程篇

一、概念篇
- 什么是Prompt工程？
- 为什么需要Prompt工程？
二、技巧篇
- Prompt设计要素
  - 任务说明、上下文、问题和输出格式的作用是什么？
  - 如何优化Prompt以提高模型性能？
  - 如何规范编写Prompt？
- 上下文学习（In-Context Learning）
  - 什么是上下文学习？
  - 上下文学习三种形式（零样本、单样本、少样本）的区别？
  - 如何选择有效的演示示例？
  - 影响上下文学习性能的因素有哪些？
  - 如何通过预训练数据分布和模型规模优化上下文学习效果？
  - 为什么提示中示例的顺序和数量会影响模型性能？
- 思维链（Chain of Thought, CoT）
  - 思维链（CoT）的核心思想是什么？
  - 思维链（CoT）在解决哪些任务类型中效果显著？
  - 思维链（CoT）有哪几种常见的模式？
  - 按部就班（如 Zero-Shot CoT、Auto-CoT）、三思后行（如 ToT、GoT）、集思广益（如 Self-Consistency）三种 CoT 模式有何异同？
  - 如何在不同任务中选择和应用CoT？
  - CoT如何提升模型在复杂推理任务中的表现？
  - 为什么某些指令微调后的模型无需显式 CoT 提示？
三、对比篇
- Prompt工程与传统微调的区别是什么？

三、大模型进阶面

大模型压缩篇

一、动因篇
- 为什么需要对大模型进行压缩和加速？
二、方法篇
- 低秩分解
  - 什么是低秩分解？
  - 什么是奇异值分解（SVD）？
- 权值共享
  - 什么是权值共享？
  - 权值共享为什么有效？
- 模型量化
  - 什么是模型量化？
  - 均匀量化和非均匀量化有什么区别？
  - 大模型训练后量化有什么优点？
  - 什么是混合精度分解？
- 知识蒸馏
  - 什么是蒸馏？
  - 什么是基于反馈的知识蒸馏？
  - 什么是基于特征的知识蒸馏？
  - 什么是蒸馏损失？
  - 什么是学生损失？
  - 模型蒸馏的损失函数是什么？
- 剪枝
  - 什么是剪枝？
  - 描述一下剪枝的基本步骤？
  - 结构化剪枝和非结构化剪枝有什么不同？

分布式训练篇

一、动因篇
- 分布式训练主要解决大模型训练中的哪些问题？
二、数据并行
- 数据并行主要为了解决什么问题？
- PS架构是如何进行梯度同步和更新的？
- Ring-AllReduce是如何进行梯度同步和更新的？
- PS架构和Ring-AllReduce架构有何不同？
三、模型并行和张量并行
- 模型并行主要为了解决什么问题？
- 什么是张量并行，如何使用集群计算超大矩阵？
- 基础的流水线并行存在什么问题？
- 讲一讲谷歌的GPipe算法？
- 讲一讲微软的PipeDream算法？
四、DeepSpeed ZeRO
- 如何计算大模型占用的显存？
- ZeRO主要为了解决什么问题？
- ZeRO1、ZeRO2、ZeRO3分别做了哪些优化？
- 用DeepSpeed进行训练时主要配置哪些参数？

大模型魔改篇

一、概念篇
- 什么是模型编辑（Model Editing）？
- 模型编辑（Model Editing）核心目标是什么？
- 对比重新预训练和微调，模型编辑的优势和适用场景是什么？
- 如何用模型编辑修正大语言模型中的知识错误？
二、性质篇
- 模型编辑的五大性质（准确性、泛化性、可迁移性、局部性、高效性）分别是什么？
- 如何量化评估模型编辑的五大性质？
- 若模型编辑后泛化性较差，可能的原因是什么？如何优化？
- 模型编辑局部性如何避免“牵一发而动全身”的问题？
三、方法篇
- 外部拓展法
  - 知识缓存法（如SERAC）的工作原理是什么？
  - 知识缓存法中的门控单元和推理模块如何协作？
  - 附加参数法（如T-Patcher）如何在不改变原始模型架构的情况下实现编辑？
  - 知识缓存法和附加参数法的优缺点有何优缺点？
- 内部修改法
  - ROME方法如何通过因果跟踪实验定位知识存储位置？
  - 阻断实验的作用是什么？
  - 元学习法（如MEND）如何实现“学习如何编辑”？
  - 元学习法的双层优化框架如何设计？
  - 定位编辑法（如KN、ROME）如何通过修改全连接前馈层参数实现精准编辑？
四、对比篇
- SERAC、T-Patcher、ROME在准确性、泛化性、局部性上的表现有何差异？
- 为什么ROME的局部性表现优于T-Patcher？

四、NLP 任务实战面

文本分类篇

一、概念篇
- 什么是文本分类？
二、方法篇
- 主题建模法
  - 什么是主题建模任务？
  - 主题建模有哪些常用方法？
  - TF-IDF 算法是做什么的？
  - TF-IDF 有什么优缺点？适合哪些文本分类任务？
- 传统分类法
  - 讲一讲 FastText 的分类过程？
  - 讲一讲 TextCNN 文本分类的过程?
  - 如何基于基于预训练模型做文本分类？
- 检索匹配法
  - 什么场景需要用检索的方式做文本分类？
  - 如何用检索的方式做文本分类？
  - 检索的方法的训练阶段如何做？
  - 检索的方法的预测阶段如何做？
  - 用检索的方式做文本分类有何优缺点？
- 大模型方法
  - 如何用Prompt的方式做文本分类？
  - 如何使用多提示学习提升文本分类效果？
  - 使用LLM做文本分类任务为何需要做标签词映射（Verbalizer）？
三、进阶篇
- 文本分类任务中有哪些难点？
- 如何解决样本不均衡的问题？
- 如何冷启动文本分类项目？
- 如果类别会变化如何设计文本分类架构？
- 短文本如何进行分类？
- 长文本如何进行分类？

命名实体识别（NER）篇

一、概念篇
- 什么是实体识别？
- 实体识别有哪些常用的解码方式？
- NER的常用评价指标（精确率、召回率、F1）有何局限性？
- 预训练模型（如BERT，LLM）如何改变传统NER的范式？
二、方法篇
- 传统方法
  - 如何用序列标注方法做NER任务？
  - 什么是 CRF?
  - CRF为什么比Softmax更适合NER？
  - 如何使用指针标注方式做NER任务？
  - 如何使用多头标注方式做NER任务？
  - 如何使用片段排列方式做NER任务？
- 大模型方法
  - 如何将NER建模为生成任务（例如使用T5、GPT）？
  - 大模型做NER任务的解码策略有何不同？
  - 如何设计模板提升NER任务少样本效果？
- 对比篇
  - 序列标注方法有何优缺点？
  - 指针标注、多头标注和片段排列有何优缺点，分别适用于哪些场景？
  - 大模型方法和传统方法做NER任务分别有什么优缺点？
三、标注篇
- 实体识别的数据是如何进行标注的？
- BIO、BIOES、IOB2标注方案的区别与优缺点？
四、问题篇
- 实体识别中有哪些难点？
- 什么是实体嵌套？
- 如何解决实体嵌套问题？
- 如何解决超长实体识别问题？
- NER实体span过长怎么办？
- 如何解决 NER 标注数据噪声问题？
- 如何解决 NER 标注数据不均衡问题？

关系抽取篇

一、概念篇
- 什么是关系抽取？
- 常见关系抽取流程的步骤是怎样的？
二、句子级关系抽取篇
- 什么是模板匹配方法？
- 模板匹配方法的优点是什么？
- 模板匹配方法存在哪些局限性或缺点呢？
- 什么是关系重叠问题？
- 什么是复杂关系问题？
- 什么是联合抽取？
- 介绍下基于共享参数的联合抽取方法？
- 介绍下基于联合解码的联合抽取方法？
- 关系抽取的端到端方法和流水线方法各有什么优缺点？
三、文档级关系抽取篇
- 文档级关系抽取与单句关系抽取有何区别？
- 在进行跨句子甚至跨段落的关系抽取时，会遇到哪些特有的挑战？
- 文档级关系抽取的方法有哪些？
- 文档级关系抽取常见数据集有哪些以及其评估方法？

检索增强生成（RAG）篇

一、动因篇
- 为什么要做RAG系统？
- RAG和大模型微调的区别？
- RAG和大模型微调分别适用于什么场景？
- 讲一下RAG的总体流程？
二、流程篇
- Query 理解
  - 用户理解阶段一般会做哪些处理？有何作用？
  - 用户问题总是召回不准确，在用户理解阶段可以做哪些优化？
- Index 构建
  - 问答对问答中，如何构建索引，提升对用户问题的泛化能力？
  - 文档问答中，如何构建索引，提升对用户问题的泛化能力？
  - 问题经常命中不到文本块，如何在索引阶段做优化？
- Retrieval 召回
  - 多路检索如何实现？
  - 如何合并多路检索的结果，对它们做排序？
  - BM25检索器总是召回无关的知识，最可能的原因是什么？
  - 如何借助其他用户的使用情况，提升总体的检索性能？
- Reranker 精排
  - 为何要对检索的结果做精排（重排）？
  - 如何构建重排序模型的微调数据？

五、NLP 基础面

分词（Tokenizer）篇

如何处理超出词表的单词（OVV）？
BPE 分词器是如何训练的？
WordPiece 分词器是如何训练的？
Unigram 分词器是如何训练的？

词嵌入（Word2Vec）篇

一、动因篇
- 什么是词向量化技术？
- 如何让向量具有语义信息？
二、基于统计的方法
- 如何基于计数的方法表示文本？
- 上下文中的窗口大小是什么意思？
- 如何统计语料的共现矩阵？
- 基于计数的表示方法存在哪些问题？
三、基于推理的方法
- Word2Vec的两种模型分别是什么？
- Word2Vec 中 CBOW 指什么？
- Word2Vec 中 Skip-gram 指什么？
- CBOW 和 Skip-gram 哪个模型的词嵌入更好？
四、问题优化篇
- Word2Vec训练中存在什么问题？
- Word2Vec如何优化从中间层到输出层的计算？
  - 用负采样优化中间层到输出层的计算
  - 负采样方法的关键思想
  - 负采样的采样方法
- 为什么说Word2vec的词向量是静态的？
- Word2vec的词向量存在哪些问题？

卷积神经网络（CNN）篇

一、动因篇
- 卷积，池化的意义
二、模型篇
- 为什么卷积核设计尺寸都是奇数
- 卷积操作的特点
- 为什么需要 Padding ？
- 卷积中不同零填充的影响？
- 1 1 卷积的作用？
- 卷积核是否越大越好？
- CNN 特点
- 为何较大的batch size 能够提高 CNN 的泛化能力？
- 如何减少卷积层参数量？
三、对比篇
- SAME 与 VALID 的区别
- CNN 优缺点
- 你觉得 CNN 有什么不足？
- CNN 与 RNN 的优劣

循环神经网络（RNN）篇

一、RNN 概念篇
- RNN的作用是什么？
二、RNN 模型篇
- RNN的输入输出分别是什么？
- RNN是如何进行参数学习（反向传播）的？
- Relu 能否作为RNN的激活函数
三、RNN 优化篇
- RNN不能很好学习长期依赖的原因是什么？
- RNN 中为何会出现梯度消失，梯度爆炸问题？
- 为何 RNN 训练时 loss 波动很大
- 计算资源有限的情况下有没有什么优化方法？
- 推导一下 GRU
四、RNN 对比篇
- LSTM 相对 RNN 的主要改进有哪些？
- LSTM 与 GRU 之间的关系
- LSTM 与 GRU 区别

长短期记忆网络（LSTM）篇

一、动因篇
- RNN 梯度消失的原因？
- LSTM 如何缓解 RNN 梯度消失的问题?
- LSTM不会发生梯度消失的原因
二、模型篇
- LSTM 相对 RNN 的主要改进有哪些？
- 门机制的作用
- LSTM的网络结构是什么样的？
- LSTM中记忆单元的作用是什么？
- LSTM中的tanh和sigmoid分别用在什么地方？
- LSTM有几个门，分别起什么作用？
- LSTM 单元是如何进行前向计算的？
- LSTM的前向计算如何进行加速？
- LSTM 单元是如何进行反向传播的？
三、应用篇
- LSTM在实际应用中的提升技巧有哪些？
- 为何多层LSTM叠加可以提升模型效果？
- 双向LSTM为何更有效？
- LSTM中如何添加Dropout层？

BERT 模型篇

一、动因概念篇
1. Bert 是什么?
2. 为什么说BERT是双向的编码语言模型？
3. BERT 是如何区分一词多义的？
4. BERT为什么如此有效？
5. BERT存在哪些优缺点？
二、BERT 架构篇
1. BERT 是如何进行预训练的？
2. BERT的输入包含哪几种嵌入？
3. 什么是分段嵌入？
4. BERT的三个Embedding直接相加会对语义有影响吗？
5. 讲一下BERT的WordPiece分词器的原理？
6. 为什么BERT在第一句前会加一个【CLS】标志?
7. BERT-base 模型和 BERT-large 模型之间有什么区别？
8. 使用BERT预训练模型为什么最多只能输入512个词？
9. BERT模型输入长度超过512如何解决？
BERT 训练篇
- Masked LM 任务
  1. BERT 为什么需要预训练任务 Masked LM ？
  2. 掩码语言模型是如何实现的？
  3. 为什么要采取Masked LM，而不直接应用Transformer Encoder？
  4. Bert 预训练任务 Masked LM 存在问题？
  5. 什么是 80-10-10 规则,它解决了什么问题？
  6. bert为什么并不总是用实际的 masked token替换被“masked”的词汇？
  7. 为什么BERT选择mask掉15%这个比例的词，可以是其他的比例吗？
- Next Sentence Prediction 任务
  1. Bert 为什么需要预训练任务 Next Sentence Prediction ？
  2. 下句预测任务是如何实现的？
BERT 微调篇
1. 对 Bert 做 fine-turning 有什么优势？
2. Bert 如何针对不同类型的任务进行 fine-turning？
对比篇
1. BERT 嵌入与 Word2Vec 嵌入有何不同？
2. elmo、GPT和bert在单双向语言模型处理上的不同之处？
3. word2vec 为什么解决不了多义词问题？
4. 为什么 elmo、GPT、Bert能够解决多义词问题？

BERT 变体篇

一、BERT变体篇
- 句序预测任务与下句预测任务有什么不同？
- ALBERT 使用的参数缩减技术是什么？
- 什么是跨层参数共享？
- RoBERTa 与 BERT 有什么不同？
- 在 ELECTRA 中，什么是替换标记检测任务？
- 如何在 SpanBERT 中掩盖标记？
- Transformer-XL怎么实现对长文本建模？
二、问题优化篇
- 针对BERT原生模型的缺点，后续的BERT系列模型是如何改进【生成任务】的？
- 针对BERT原生模型的缺点，后续的BERT系列模型是如何引入【知识】的？
- 针对BERT原生模型的缺点，后续的BERT系列模型是如何引入【多任务学习机制】的？
- 针对BERT原生模型的缺点，后续的BERT系列模型是如何改进【mask策略】的？
- 针对BERT原生模型的缺点，后续的BERT系列模型是如何进行【精细调参】的？

BERT 实战篇

一、场景篇
- BERT擅长处理哪些下游NLP任务？
- BERT为什么不适用于自然语言生成任务（NLG）？
- 如何使用预训练的 BERT 模型？
- 在问答任务中，如何计算答案的起始索引？
- 在问答任务中，如何计算答案的结束索引？
- 如何将 BERT 应用于命名实体识别任务？
二、微调篇
- 什么是微调？
- 什么是继续预训练？
- 如何进行继续预训练？
三、问题篇
- 什么是 Bert 未登录词？
- Bert 未登录词如何处理？
- Bert 未登录词各种处理方法有哪些优缺点？
- BERT在输入层如何引入额外特征？

六、深度学习面

激活函数篇

一、动因篇
- 为什么需要激活函数
- 为什么激活函数需要非线性函数？
二、方法篇
- sigmoid
  - 什么是 sigmoid 函数？
  - 为什么选 sigmoid 函数作为激活函数？
  - sigmoid 函数有什么缺点？
- tanh
  - 什么是 tanh 函数？
  - 为什么选 tanh 函数作为激活函数？
  - tanh 函数作为激活函数有什么缺点？
- relu
  - 什么是 relu 函数？
  - 为什么选 relu 函数作为激活函数？
  - relu 函数有什么缺点？
  - 为什么tanh收敛速度比sigmoid快？

优化器篇

一、动因篇
- 梯度下降法的思想是什么？
二、方法篇
- SGD是如何实现的？
- SGD有什么缺点？
- Momentum 是什么？
- Adagrad 是什么?
- RMSProp是什么？
- Adam 是什么?
三、对比篇
- 批量梯度下降（BGD）、随机梯度下降（SGD）与小批量随机梯度下降（Mini-Batch GD）的区别？

正则化篇

一、动因篇
- 为什么要正则化？
- 权重衰减的目的？
二、正则化篇
- 什么是 L1 正则化？
- 什么是 L2 正则化？
- L1 与 L2 的异同
- 为什么 L1 正则化可以产生稀疏值，而 L2 不会？
- 为何只对权重进行正则惩罚，而不针对偏置？
- 为何 L1 和 L2 正则化可以防止过拟合？
三、Dropout 篇
- 什么是Dropout？
- 为什么Dropout可以解决过拟合问题？
- Dropout 在训练和测试阶段的区别是什么？
- Dropout 的变体有哪些？
- 如何选择合适的 Dropout 率？
- Dropout 和其他正则化方法（如 L1、L2 正则化）有何不同？

归一化篇

一、动因篇
- 为什么要做归一化？
- 为什么归一化能提高求最优解速度？
二、方法篇
- 主流的归一化有哪些方法？
- Batch Normalization
  - Batch Normalization 是什么？
  - Batch Normalization 的有点有哪些？
  - BatchNorm 存在什么问题？
- Layer Normalization
  - Layer Normalization 是什么？
  - Layer Normalization 有什么用？
三、对比篇
- 批归一化和组归一化的比较？
- 批归一化和权重归一化的比较？
- 批归一化和层归一化的比较？

参数初始化篇

一、概念篇
- 什么是内部协变量偏移？
- 神经网络参数初始化的目的？
- 为什么不能将所有神经网络参数初始化为0？
二、方法篇
- 什么是Xavier初始化？
- 什么是He初始化？

过拟合篇

过拟合与欠拟合的区别是什么?
解决欠拟合的方法有哪些？
防止过拟合的方法主要有哪些？
什么是Dropout？
为什么Dropout可以解决过拟合问题？

集成学习篇

一、概念篇
- 集成学习的核心思想是什么？
- 集成学习与传统单一模型相比有哪些本质区别？
- 从偏差-方差分解的角度，解释集成学习为什么能提升模型性能？
- 集成学习有效性需要满足哪些前提条件？
二、Boosting 篇
- 解释一下 Boosting 的迭代优化过程
- Boosting 的基本思想是什么？
- Boosting 如何通过残差拟合实现误差修正？
- GBDT 是什么？
- XGBoost 是什么？
- GBDT与 XGBoost 的核心差异是什么？
- 为什么XGBoost要引入二阶泰勒展开？对模型性能有何影响？
三、Bagging 篇
- 什么是 Bagging？
- Bagging 的基本思想是什么？
- Bagging的并行训练机制如何提升模型稳定性？
- 随机森林是什么？
- 随机森林与孤立森林的本质区别是什么？
- 对比Bagging与Dropout在神经网络中的异同？
四、Stacking 篇
- 什么是 Stacking ？
- Stacking 的基本思路是什么？
- Stacking中为什么要用K折预测生成元特征？
- 如何避免Stacking中信息泄露问题？
五、对比篇
- 对比Boosting/Bagging/Stacking三大范式的核心差异（目标、训练方式、基学习器关系）？
- 集成学习中基学习器的"稳定性"如何影响算法选择？
- Boosting、Bagging 与偏差、方差的关系？
- 为什么Bagging常用高方差模型？

评估指标篇

一、概念篇
- 混淆矩阵有何作用？
- 分类任务中有哪几个常规的指标？
二、F1-Score 篇
- 什么是 F1-Score？
- 对于多分类问题来说， F1 的计算有哪些计算方式？
- 什么是 Macro F1？
- 什么是 Micro F1？
- 什么是 Weight F1？
三、对比篇
- Macro 和 Micro 有什么区别？
- 什么是马修斯相关系数（MCC）？
四、曲线篇
- ROC 曲线主要有什么作用？
- 什么是 AUC（Area under Curve）？
- P-R 曲线有何作用？

你可能感兴趣的:(NLP,百面百过,AI面试,NLP面试,算法面试,人工智能)

男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
贝多芬诞辰250周年纪念万千星河赴远方
就算不是古典音乐爱好者，你也一定听说过贝多芬。作为古典音乐史上最伟大的音乐家之一，他不仅是古典主义风格的集大成者，同时也是浪漫主义风格的开创者。贝多芬肖像画（1813年）贝多芬的一生共创作了9部交响曲、36首钢琴奏鸣曲、10部小提琴奏鸣曲、16首弦乐四重奏、1部歌剧及2部弥撒曲等等。数量虽然不及前辈海顿、莫扎特多，但他几乎改造了当时所有的音乐表达形式，赋予了它们全新的价值，对后世音乐的发展产生了极
别再讲道理啦，对方听不进去的方所
我之前写过一篇叫做《你总妄想改变他人》，然后就有朋友跟我说，有一些方法可以改变他人之类的。嗯，是这样，但是任何具体的问题，都要限定好语境，描述清楚前提条件，然后再表达观点，我的这位朋友的说法就犯了一刀切的错误，这样并不能让讨论正常展开（这篇我得先给她看看，不然可能会挨揍）。好了，hhhh，谁让她不能写文章呢，我就来再说一说吧。我前面说过，我们在学到一个道理、学会一种方法之后，总是迫不及待地想要去与
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
《路远连着天》第二章在路上 7 亚宁
大路镇的街道两旁尽是店铺，气派者是红门柱子雕花门窗，一般则多为布匹小百货店，还有几家门面朝外的车马大店，和一家颇有气势的典当铺。街上来往人还真不少，有挑担叫卖水果的，有背篓子路过的，还有衣冠楚楚，悠哉悠哉，甩着双手散步的有钱爷。耿六想着先寻姑妈家，还是先到兵营看那几个土匪呢？也只是一转念，他选择了后者，跟在几个闲人后，就来到了在镇外山头上曾看到过的那处飘着晴天白日旗的兵营门外。这里，围观的人乱哄哄
读书打卡《别想太多啦》 chenchen_68ed
第一，世间之事，不去尝试永远不知道其中的奥秘，在尝试中有失败是必然的。如果担心失败，那什么都学不会。第二，经历的失败越多，越会对失败者抱有宽容的态度，“原来如此，我也经历过类似的失败啦，那只是暂时的”。经历越多失败的长者，越能包容别人，这也就是所谓的“越年长越宽容”。成熟的人，就是在众多失败经历中不断学习，并接纳别人的失败。对于他人的小小过失不吹毛求疵，自己的心态会更加平和。在不断失败中学习，让自
2025年SDK游戏盾终极解析：重新定义手游安全的“隐形护甲” 上海云盾商务经理杨杨游戏安全
副标题：从客户端加密到AI反外挂，拆解全链路防护如何重塑游戏攻防天平引言：当传统高防在手游战场“失效”2025年全球手游市场规模突破$2000亿，黑客单次攻击成本却降至$30——某SLG游戏因协议层CC攻击单日流失37%玩家，某开放世界游戏遭低频DDoS瘫痪6小时损失千万。传统高防IP的致命短板暴露无遗：无法识别伪造客户端流量、难防协议篡改、误杀率超15%。而集成于游戏终端的SDK游戏盾，正以“源
LVS+Keepalived实现高可用和负载均衡 2401_84412895 程序员 lvs 负载均衡运维
2、开启网卡子接口配置VIP[root@a~]#cd/etc/sysconfig/network-scripts/[root@anetwork-scripts]#cp-aifcfg-ens32ifcfg-ens32:0[root@anetwork-scripts]#catifcfg-ens32:0BOOTPROTO=staticDEVICE=ens32:0ONBOOT=yesIPADDR=10.1
CodeFoeces-450B ss5smi
题目原题链接：B.JzzhuandSequences题意根据公式公式计算对应fn的值。参考了其他作者的代码和思路。找循环点。负数取余需要加取余数到>0为止才可取余。代码#includeusingnamespacestd;constintmod=1e9+7;intmain(){longlongf[10],x,y,n;cin>>x>>y>>n;x=(x+mod)%mod;y=(y+mod)%mod;f
转身十二年，我和你确再也没见过面 4b8817e9ce54
这个年轻、冲动、矫情和不那么爱你的我，我想、那个时候你确是深深的爱着的吧！谢谢你，在那个没有生活负担，没有压力和责任的时光里给了我一段年华的美好！
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
2023-07-19 桥东外甥
今天在游戏里卖了第一桶金，哈哈，不多，只有一百块。下班之余，没事在游戏里搬搬砖，一星期搞个一百块钱，少是少了点，毕竟哪怕是捡废品都比这个多，或者送外卖能更多，只不过比较简单，而且也很容易，呆在家里，玩着游戏挣两顿饭钱，总比一毛不挣的强吧？这也算是向前迈出一步吧，毕竟很少之前就有过搬砖挣钱的想法，只不过一开始没有渠道，而且也不想迈步，所以浪费了不少，一想之前浪费了几百块钱，就觉得有些心疼。哎，本来之
打造自己的梦想生态系统轻风style
今天听了第5周5.1的梦想系统和随堂练习：梦想仓库与八大关注表。参照老师给出的例子，列出了八大关注对应的自己的梦想。有些写的时候内心都在怀疑，但因为老师有说到，要没有分别心的去列出，不管是近的，远的，小的，大的，自己觉得可以实现的，或者觉得根本不可能实现的，都统统的列出来。就像音频中提到的，林语堂说过的话，梦想无论怎样模糊，总潜伏在我们心底，使我们的心境永远得不到宁静，直到这些梦想成为事实才止；像
婴童医话（五百六十）妙手柯楠
探天地清浊之源，察阴阳顺逆之机。“乳食过饱蓄胃中，乳片不化吐频频，身热面黄腹膨胀。”伤乳吐者，因乳食过饱，停蓄胃中，以致运化不及，吐多乳片，犹如物盛满而上溢也。其证身热面黄，肚腹膨胀。治宜化其宿乳，安胃和中，节其乳食，自然止也。“过食伤胃腹胀热，恶食口臭吐酸粘，眼胞虚浮身潮热。”伤食吐者，因小儿饮食无节，过食油腻、面食等物，以致壅塞中脘而成也，其证肚腹胀热，恶食口臭，频吐酸粘，眼胞虚浮，身体潮热。
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
提升在直返APP中的等级：解锁更多特权与收益的秘诀古楼
在直返APP的世界里，每个用户都渴望提升自己的等级，以解锁更多特权与收益。那么，如何提升在直返APP中的等级呢？接下来，我们将为您揭示这一秘密。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省是公认的返利最高的软件。古楼导师高省邀请
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人民日报每日金句摘抄精选8.1 飞云写作
1.岁月因青春慨然以赴而更加静好，世间因少年挺身向前而更加瑰丽。2.与其朋友圈字斟句酌，不如现实中好好生活。3.真正的优秀不是别人逼出来的，而是自己和自己死磕。4.时代的考题已经列出，我们的答卷正在写就。5.人生不就是这样，经历过一次次考验才能成长；人生不就是这样，哪怕雨雪霏霾也要去追寻阳光。6.忆往昔，百年征程砥砺“同心”；看今朝，千秋伟业催人奋进。7.真理的波涛，喷涌而出就奔流不息；理想的火焰
仿品百达翡丽男表价格(仿品百达翡丽价格一览表) 爱表之家
百达翡丽作为世界顶级的钟表品牌，其男表以精湛的工艺、卓越的品质和独特的设计赢得了众多钟表爱好者的青睐。然而，由于其高昂的价格，许多消费者转向仿品市场，以较低的价格体验类似的设计与风格【重要提醒】文章最下面有联系方式将对仿品百达翡丽男表的价格进行详细解析，帮助消费者更好地了解这一市场。一、仿品百达翡丽男表价格区间仿品百达翡丽男表的价格因其品质、材质、功能等因素而差异较大，大致可以分为以下几个价格区间
诗圣《杜甫》 Minikaren
今天在樊登听书听完冯至先生《杜甫》一书。童年幸福无忧，青年四海壮游，中年四处漂泊，老年病寒交加。生于盛唐，却不能长在繁华盛世，七年多的安史之乱以安禄山和史思明双双被儿子杀死而谢幕，然而国家历经战乱，百姓颠沛流离，民不聊生，国家焉能不衰？成也玄宗，败也玄宗！难怪道家的太极说，盛极而衰，衰极又盛，其实只不过是一种心理的外化，极度膨胀的虚荣心打败了当年意气风发的励精图治之心，宠幸奸臣李林甫，国家选拔人才
拍打是不是把不属于我们身体的能量给挤压出去，让它不再在我们的身体里？林丽萍_7d46
问：拍打是不是把不属于我们身体的能量给挤压出去，让它不再在我们的身体里？答：这样的说法可以，但并不是你想象的把它打出去。不知道你听说过没有，在战场上死亡的烈士们，他们的灵魂没有回到家里闹腾的。在战场上受了重伤上医院去的，没治好，死亡了，这样的人可能他的灵魂要这里跑那里跑到处闹腾。因为犯了法、杀了人拉出去枪毙去了，雄赳赳气昂昂地让人一枪打了的，没有回来的。那些一说拉出去枪毙他，自己就把自己都吓死了，
面对冷漠的成人世界，愿你做一个内心强大的人小西夜语
—在漫漫深夜里，遇见最真实的你—一个人的强大，无外乎是内心的强大，说到做一个内心强大的人，小西还是不得不提到丰子恺的漫画《无宠不惊过一生》。漫画中，还是小西喜欢的那一句——“不乱于心，不困于情。不畏将来，不念过往。如此，安好。”想来要成为一个内心强大的人，应该就是要做到这样吧！不乱于心，终日面对各种事务，接收各种信息，能够不被扰乱内心，依然坚定自己的想法，这就是内心强大。如今，我们都谈焦虑，因为总
积极配合，防疫有我临泽四中初一六班领读人刘玮
2021年10月19日，疫情又突然来到我们身边，西安确诊了两名上海退休教师患有新冠肺炎，重点是他们刚从我们美丽的七彩丹霞和平山湖大峡谷旅游离开。紧接着张掖甘州区发现了核酸检测阳性病例，听到了这个消息，我们每一个人都很紧张，因为从来没有近距离遇到过这样的事情。10月20日，学校停课，所以我们又要经历第二次疫情假期，不过这个假期非常特殊，要求全民多次做核酸检测。秋天才过一半，肺炎疫情的突然到来，给我们
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

【NLP算法面经】NLP算法面经 -- 腾讯 VS 美团（附面题）

腾讯PCG看点（已OC）

一面

二面

三面

四面（主管面）

五面(hr面）

美团点评事业部 搜索与NLP团队(OC)

一面（4.8）

二面（4.13）

【NLP百面百过】大模型算法高频面题（全面整理 ʘ‿ʘ）

一、大模型（LLMs）基础面

大模型（LLMs）架构篇

注意力机制（Attention）篇

Transformer 理论篇

二、大模型微调面

有监督微调（SFT）篇

高效微调篇

提示学习篇

人类对齐训练（RLHF）篇

Prompt 工程篇

三、大模型进阶面

大模型压缩篇

分布式训练篇

大模型魔改篇

四、NLP 任务实战面

文本分类篇

命名实体识别（NER）篇

关系抽取篇

检索增强生成（RAG）篇

五、NLP 基础面

分词（Tokenizer）篇

词嵌入（Word2Vec）篇

卷积神经网络（CNN）篇

循环神经网络（RNN）篇

长短期记忆网络（LSTM）篇

BERT 模型篇

BERT 变体篇

BERT 实战篇

六、深度学习面

激活函数篇

优化器篇

正则化篇

归一化篇

参数初始化篇

过拟合篇

集成学习篇

评估指标篇

你可能感兴趣的:(NLP,百面百过,AI面试,NLP面试,算法面试,人工智能)

美团点评事业部搜索与NLP团队(OC)