TAICHIFEI

大模型面试--大模型（LLMs）基础面

大模型（LLMs）基础面

1. 目前主流的开源模型体系有哪些？

目前主流的开源大模型体系有以下几种：

1. Transformer 系列

Transformer 模型是深度学习中的一类重要模型，尤其在自然语言处理（NLP）领域。以下是一些主流的 Transformer 模型：

GPT 系列

GPT-2 和 GPT-3：由 OpenAI 开发的生成式预训练变换器模型，用于生成高质量的文本。
GPT-Neo 和 GPT-J：由 EleutherAI 开发的开源替代品，提供类似于 GPT-3 的功能。

BERT 系列

BERT（Bidirectional Encoder Representations from Transformers）：由 Google 开发，用于双向编码的语言表示模型。
RoBERTa（Robustly optimized BERT approach）：由 Facebook AI 开发，改进了 BERT 的训练方法。
DistilBERT：由 Hugging Face 开发，是 BERT 的轻量级版本，具有较少的参数但性能相近。

T5 系列

T5（Text-To-Text Transfer Transformer）：由 Google 开发，可以将所有 NLP 任务转换为文本生成任务。

2. RNN 系列

虽然 Transformer 模型更为流行，但循环神经网络（RNN）和其变种（如 LSTM 和 GRU）仍在一些特定任务中使用。

3. CNN 系列

卷积神经网络（CNN）主要用于计算机视觉任务，但在一些文本分类和 NLP 任务中也有应用。

4. 其他开源大模型

OpenAI CLIP

CLIP：用于图像和文本共同嵌入的模型，能够在多模态数据上进行搜索和分类。

DALL-E

DALL-E：用于生成图像的模型，可以根据文本描述生成高质量的图像。

Stable Diffusion

Stable Diffusion：开源的文本到图像生成模型，通过扩散过程生成图像。

5. 框架和平台

Hugging Face Transformers：一个支持众多预训练模型的库，提供了简便的接口来加载和使用不同的 Transformer 模型。
TensorFlow Hub 和 PyTorch Hub：提供了许多预训练模型，方便开发者加载和使用。
DeepSpeed：由微软开发的优化库，帮助加速大规模模型的训练和推理。

总结

这些开源大模型和平台提供了强大的工具和资源，帮助研究人员和开发者在各种任务中应用最先进的机器学习模型。这些模型和框架不仅在 NLP 领域占据重要地位，也在计算机视觉、多模态数据处理等领域取得了显著的成果。

2. prefix Decoder 和 causal Decoder 和 Encoder-Decoder 区别是什么？

在深度学习，特别是在自然语言处理（NLP）领域，prefix Decoder、causal Decoder 和 Encoder-Decoder 都是不同类型的模型结构。它们的主要区别在于如何处理输入和生成输出。以下是每种结构的详细解释和比较：

Encoder-Decoder 架构

结构概述

Encoder：将输入序列编码为一个固定长度的上下文向量（或一系列向量）。
Decoder：使用该上下文向量生成输出序列。

工作方式

编码阶段：Encoder 接收输入序列并将其转换为隐藏表示。这些隐藏表示通常是上下文向量，包含输入序列的语义信息。
解码阶段：Decoder 接收这些上下文向量，并逐步生成输出序列。解码时，Decoder 可以使用之前生成的输出作为输入来生成下一个词。

适用场景

机器翻译
文本摘要
图像描述生成

优点

能处理变长的输入和输出序列。
上下文信息在整个序列生成过程中都得到利用。

Causal Decoder

结构概述

单向解码器：只能访问当前时间步及之前的时间步的输入信息。

工作方式

在训练过程中，Causal Decoder 使用当前时间步的输入及之前时间步的输入来预测当前时间步的输出。这种单向处理确保每个时间步的输出只依赖于之前的输入，不会利用未来的信息。

适用场景

语言模型（如 GPT 系列）
需要逐步生成输出的任务，如文本生成、自动补全。

优点

适合生成任务，因为每个时间步的预测仅基于之前的内容，避免信息泄露。
可以在不需要完整输入的情况下开始生成。

Prefix Decoder

结构概述

部分双向解码器：在生成阶段，只能访问生成过程中的之前的输出，但在编码阶段可以利用上下文信息。

工作方式

Prefix Decoder 通常在某些任务中被用作一种特殊的解码方式，例如在机器翻译中，前缀可以是已经翻译好的部分，后续部分根据前缀继续生成。
在编码阶段，可以利用完整上下文信息（类似于 Encoder-Decoder 模型中的 Encoder 部分）。
在解码阶段，只能利用前缀信息，类似于 Causal Decoder。

适用场景

需要根据上下文生成后续内容的任务。
机器翻译中的部分翻译任务。

优点

结合了双向上下文信息和单向生成能力。
能够在生成任务中利用已有的上下文进行更加准确的预测。

总结

Encoder-Decoder 架构主要用于需要处理变长输入和输出的任务，如机器翻译。它利用 Encoder 编码输入序列，然后 Decoder 根据编码生成输出序列。
Causal Decoder（单向解码器）适用于生成任务，如语言建模和文本生成。每个时间步的输出只依赖于之前的输入，保证了生成过程的合理性。
Prefix Decoder 结合了 Encoder-Decoder 和 Causal Decoder 的特点，在生成阶段只能利用前缀信息，适合需要根据上下文生成后续内容的任务。

不同的架构适用于不同的应用场景，选择合适的架构可以显著提高模型在特定任务中的性能和生成质量。

3. 大模型LLM的训练目标是什么？

大型语言模型（LLM）的训练目标通常是基于特定的目标函数，通过优化这些目标函数来调整模型的参数，使其能够在给定任务上表现良好。主要的训练目标包括以下几种：

1. 自回归语言模型（Autoregressive Language Modeling）

目标

最大化给定序列的概率：模型的目标是最大化训练语料库中每个句子的概率。

训练方式

通过最大化条件概率 $P(w_t | w_1, w_2, \ldots, w_{t-1})$ ，来预测序列中的下一个词 $w_t$ 。
损失函数通常是负对数似然损失（Negative Log-Likelihood Loss）。

示例

GPT 系列：训练目标是最大化每个单词在给定前序单词序列条件下的概率。

2. 自编码语言模型（Autoencoding Language Modeling）

目标

重建被掩蔽的词或部分序列：模型的目标是根据上下文重建被掩蔽（masked）的词。

训练方式

部分输入序列中的词被掩蔽（如用 [MASK] 标记），模型通过上下文信息预测这些掩蔽词。
损失函数同样是负对数似然损失，但应用在被掩蔽词上。

示例

BERT 系列：训练目标是预测被掩蔽的词语，通过掩蔽语言模型（MLM）任务进行训练。

3. 序列到序列模型（Sequence-to-Sequence Modeling）

目标

最大化输出序列的条件概率：模型的目标是根据输入序列生成相应的输出序列。

训练方式

使用编码器-解码器架构，编码器将输入序列编码为上下文向量，解码器根据上下文向量生成输出序列。
损失函数通常是负对数似然损失，应用于整个输出序列。

示例

T5（Text-To-Text Transfer Transformer）：将所有任务（如翻译、问答、摘要）转换为文本到文本任务。

4. 对比学习（Contrastive Learning）

目标

最大化相似样本的相似性，最小化不相似样本的相似性：模型的目标是通过比较正负样本来学习区分不同类别或内容。

训练方式

利用正负样本对（如句子对，图文对）进行训练，正样本对的相似性得分要高于负样本对。
损失函数通常是对比损失（Contrastive Loss）或三元组损失（Triplet Loss）。

示例

CLIP（Contrastive Language-Image Pre-Training）：利用对比学习训练模型，使得图像和文本嵌入在同一向量空间中。

5. 强化学习（Reinforcement Learning）

目标

最大化累积奖励：模型的目标是通过与环境交互，学习策略以最大化预期累积奖励。

训练方式

模型根据当前状态选择动作，通过动作对环境进行操作，从而获得奖励。训练过程中调整策略以提高获得的累计奖励。
损失函数根据具体的强化学习算法（如策略梯度、Q-learning）不同而不同。

示例

AlphaGo：利用强化学习和自我对弈提高围棋对局策略。

6. 多任务学习（Multi-task Learning）

目标

在多个相关任务上同时优化模型：通过共享表示和参数，提高模型在所有任务上的性能。

训练方式

使用统一的模型架构和损失函数，同时处理多种任务。
损失函数是多个任务损失的加权和。

示例

UnifiedQA：一个统一的问答模型，可以处理多种问答格式和任务。

总结

大型语言模型的训练目标依赖于具体任务和应用场景，常见的包括自回归语言建模、自编码语言建模、序列到序列建模、对比学习、强化学习和多任务学习等。通过选择适当的训练目标和优化策略，模型可以在各种语言任务中表现出色。

4. 大模型具有涌现能力是什么原因？

大规模语言模型（LLMs，如 GPT-3 和 BERT）的训练目标和涌现能力是当前自然语言处理（NLP）领域中的关键话题。以下是关于它们训练目标和涌现能力的详细解释。

涌现能力（Emergent Abilities）

涌现能力指的是大规模语言模型在训练过程中，随着模型规模的增加（更多的参数和数据），表现出一些在较小模型中未显现的复杂行为或能力。这种现象在大规模预训练模型中尤为显著，常见的涌现能力包括：

复杂推理能力：
- 大模型能够在给定复杂上下文的情况下进行逻辑推理和推导，这些能力在小模型中通常不明显或不存在。
上下文理解与生成：
- 大模型能够生成更加连贯和上下文一致的长文本。这是由于大规模数据和参数使模型能更好地捕捉语言的结构和语义关系。
多任务学习：
- 大模型可以在不同任务之间泛化，并在没有专门训练的数据上表现出良好的性能。例如，GPT-3 在零样本或少样本学习任务中表现出色。
语言翻译和知识回答：
- 大模型能进行高质量的语言翻译和回答开放式问题，这说明模型在训练过程中学习到了广泛的语言知识和事实信息。

涌现能力的原因

涌现能力的原因主要包括以下几个方面：

模型规模：
- 增加模型的参数数量（如更深的层、更宽的隐藏层）和训练数据量，使模型能够学习更复杂的模式和表示。这种增加不仅提高了模型的拟合能力，还增强了模型在未见过的数据上的泛化能力。
训练数据的多样性和规模：
- 大规模和多样化的训练数据让模型能够学习到语言中的丰富结构和细节。通过暴露于不同类型的文本和任务，模型可以捕捉到语言的广泛语义和上下文关系。
预训练和微调的结合：
- 预训练阶段提供了广泛的语言知识基础，而微调阶段让模型针对特定任务进行优化。这种两阶段训练方法使模型能够在特定任务中表现出色，同时保留广泛的语言能力。
复杂的训练目标：
- 复杂的训练目标（如自监督学习、对比学习等）可以促使模型学习到更具泛化性的特征，从而在不同任务中展示出涌现能力。

总结

大规模语言模型的训练目标主要围绕语言建模和特定任务的优化。它们的涌现能力来源于模型规模的增加、丰富的训练数据、多样化的训练目标和有效的预训练微调方法。这些因素共同作用，使得大模型能够表现出在小模型中难以观察到的复杂行为和能力。

5. 为何现在的大模型大部分是Decoder only结构？

现在的大规模语言模型中大部分采用了 Decoder-only 结构的主要原因有几个：

自回归生成：Decoder-only 结构适合于自回归生成任务，如文本生成和语言建模。在这种任务中，模型需要逐步生成输出序列，每次生成一个词语或符号，而且生成过程依赖于之前生成的部分。Decoder-only 结构正好满足了这种需求，使得模型可以高效地生成连贯的文本。
预训练效果好：一些著名的大规模语言模型，如 GPT 系列，采用了 Decoder-only 结构，并通过大规模的自监督预训练来学习语言表示。这些模型在预训练阶段使用了海量的文本数据，可以捕捉到语言中的各种语义和语法结构，因此在各种 NLP 任务上表现出色。
多样的应用场景：Decoder-only 结构在各种 NLP 任务中都有广泛的应用，包括文本生成、情感分析、问答系统等。这种结构的模型可以直接应用于生成型任务，也可以通过微调适应于其他任务，因此具有很强的通用性。
避免信息泄露：在自回归生成任务中，模型在生成每个词时只依赖于之前已生成的部分，因此不存在信息泄露的问题。相比之下，Encoder-Decoder 结构中的 Encoder 可能会泄露未来信息，导致不准确的生成结果。
参数效率高：相对于 Encoder-Decoder 结构，Decoder-only 结构的参数量通常更少，因为不需要额外的编码器。这使得训练和推理过程更加高效，并且更容易适应于资源受限的环境。

综上所述，现在的大规模语言模型大部分采用 Decoder-only 结构是因为它在自回归生成任务中表现优秀，具有较好的预训练效果、通用性和参数效率。

6. 简单介绍一下大模型【LLMs】？

现在的大规模语言模型中大部分采用了 Decoder-only 结构的主要原因有几个：

自回归生成：Decoder-only 结构适合于自回归生成任务，如文本生成和语言建模。在这种任务中，模型需要逐步生成输出序列，每次生成一个词语或符号，而且生成过程依赖于之前生成的部分。Decoder-only 结构正好满足了这种需求，使得模型可以高效地生成连贯的文本。
预训练效果好：一些著名的大规模语言模型，如 GPT 系列，采用了 Decoder-only 结构，并通过大规模的自监督预训练来学习语言表示。这些模型在预训练阶段使用了海量的文本数据，可以捕捉到语言中的各种语义和语法结构，因此在各种 NLP 任务上表现出色。
多样的应用场景：Decoder-only 结构在各种 NLP 任务中都有广泛的应用，包括文本生成、情感分析、问答系统等。这种结构的模型可以直接应用于生成型任务，也可以通过微调适应于其他任务，因此具有很强的通用性。
避免信息泄露：在自回归生成任务中，模型在生成每个词时只依赖于之前已生成的部分，因此不存在信息泄露的问题。相比之下，Encoder-Decoder 结构中的 Encoder 可能会泄露未来信息，导致不准确的生成结果。
参数效率高：相对于 Encoder-Decoder 结构，Decoder-only 结构的参数量通常更少，因为不需要额外的编码器。这使得训练和推理过程更加高效，并且更容易适应于资源受限的环境。

综上所述，现在的大规模语言模型大部分采用 Decoder-only 结构是因为它在自回归生成任务中表现优秀，具有较好的预训练效果、通用性和参数效率。

7. 大模型【LLMs】后面跟的175B、60B、540B等指什么？

大模型（LLMs，Large Language Models）后面跟随的数字（如175B、60B、540B等）表示该模型的参数数量，通常以十亿（Billion）为单位。这些数字反映了模型的规模大小，即模型所包含的参数数量的数量级。

例如，175B 表示该模型包含约 1750 亿个参数，60B 表示约 600 亿个参数，540B 表示约 5400 亿个参数，依此类推。

在大规模语言模型中，参数数量通常是衡量模型规模的一个重要指标。更大的模型通常可以捕捉到更多的语言结构和语义信息，并具有更强大的泛化能力，但也需要更多的计算资源和更长的训练时间来训练和推理。因此，模型规模的选择通常需要在模型性能和资源成本之间进行权衡。

8. 大模型【LLMs】具有什么优点？

大规模语言模型（LLMs，Large Language Models）具有许多优点，这些优点使它们成为当前自然语言处理（NLP）领域的研究热点和工业应用的核心。以下是大模型的一些主要优点：

语言理解能力：大模型能够学习到丰富的语言表示，能够理解语言中的各种语义和语法结构。这使得它们在各种 NLP 任务中表现出色，如文本分类、命名实体识别、语义理解等。
生成能力：大模型具有强大的生成能力，能够生成高质量的自然语言文本。这使得它们在文本生成任务中表现出色，如文章摘要、对话生成、机器翻译等。
泛化能力：大模型通过在大规模数据上进行预训练，学习到了丰富的语言知识和表示。这种泛化能力使得它们在未见过的任务和数据上也能取得很好的表现，有时甚至可以进行零样本学习。
多任务学习：大模型通常能够同时处理多种不同类型的任务，这种多任务学习能力使得它们更加灵活和通用。同一个模型可以用于多种任务，而不需要针对每个任务训练单独的模型。
迁移学习：大模型可以通过微调（Fine-tuning）在特定任务上进行训练，从而适应于特定应用场景。这种迁移学习能力使得大模型在实际应用中更加灵活和适用。
语言理解和生成的统一框架：一些大模型，如 GPT 系列，采用统一的解码器结构，在预训练和微调阶段都使用相同的模型。这种统一的框架使得模型的设计和使用更加简单和一致。
开放源代码：许多大规模语言模型是开源的，可以由研究人员和开发者进行自由使用和定制。这促进了模型的创新和进步，使得更多人可以受益于先进的自然语言处理技术。

综上所述，大规模语言模型具有语言理解和生成能力强、泛化能力强、灵活多用、迁移学习能力强等优点，成为了当前自然语言处理领域的研究热点和工业应用的核心技术。

9. 大模型【LLMs】具有什么缺点？

尽管大规模语言模型（LLMs，Large Language Models）具有许多优点，但也存在一些缺点和挑战，主要包括以下几个方面：

计算资源消耗大：大模型通常需要大量的计算资源来进行训练和推理。训练大规模语言模型需要大规模的数据集和分布式计算资源，而在实际应用中，推理阶段也需要足够的计算资源来处理大量的数据。
高能耗：训练大规模语言模型需要大量的计算资源和能源，导致高昂的能源消耗。这不仅增加了成本，还可能对环境造成不利影响，特别是当数据中心使用化石燃料时。
数据隐私和安全性：大规模语言模型在训练和推理阶段需要大量的文本数据，可能涉及用户隐私和敏感信息。模型的泛化能力可能会导致对敏感信息的过度学习，从而引发数据隐私和安全性问题。
社会影响和偏见：大规模语言模型在生成文本时可能会反映出数据集中的偏见和社会偏见，导致生成结果带有不公平或歧视性。此外，模型可能会被滥用或误用，例如用于生成虚假信息、操纵舆论等。
可解释性差：大规模语言模型的复杂性使得其内部工作机制难以理解和解释。这给模型的可信度和透明度带来挑战，也限制了模型在一些对解释性要求较高的应用场景中的应用。
对数据依赖性强：大规模语言模型的性能往往受到数据质量和数据分布的影响。如果模型训练数据不够多样化或不足够代表性，可能会导致模型的泛化能力下降或产生误导性的结果。
对环境的影响：大规模语言模型的训练和使用需要大量的计算资源，可能会导致碳排放增加和电力消耗增加，从而对环境造成负面影响。

综上所述，尽管大规模语言模型具有许多优点，但也面临着诸多挑战和问题，包括计算资源消耗大、高能耗、数据隐私和安全性、社会影响和偏见、可解释性差、对数据依赖性强和对环境的影响等。这些问题需要在模型设计、训练和应用过程中得到充分考虑和解决。

参考：
https://github.com/km1994/LLMs_interview_notes

男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
今晚吃太饱了爱伤心的蚂蚁
今晚吃太饱了，两碗干饭，两碗肉汤，一碗牛奶银耳汤，感觉肚子都顶出来了，圆滚滚的！明早要早起，出发去小蚂蚁家！看着剩下的肉汤，倒掉多可惜，干掉了！看着小蚂蚁熬的银耳汤，倒掉多可惜，于是热了一下，顺便热袋牛奶倒进去，大娃喝点，小蚂蚁喝点，还剩下一大碗，继续干掉！吃的太饱，人也懒洋洋的，躺床上不想动，感受的肚子撑撑的感觉，好久没吃这么饱了！这一晚灌的都是汤汤水水的，天冷的晚上，半夜要睡不安稳咯！哈哈！小
你对待万事万物的态度行靜
昨晚爸爸把洒水壶灌满水，对我说：你也该去浇浇你阳台上的花咯。这么大的天气，几天没浇水都快死了。我才意识到自己容易突然间忽视一些事情。尤其是身旁的一些事，可能它们呆久了，反而习以为常。想想每天的生活状态就是在不断的重复着一些事，有点固定模式。没有什么特别发生。记录我的一天：上班，挤公交，用手机或电脑，吃饭，上课。没有
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
承德十大亲子鉴定医院名单(附2024年10所正规医院) 国医基因陈主任
承德哪家医院可以做亲子鉴定？承德市中心医院、中国人民解放军第二六六医院、承德医学院附属医院等都可以做常规亲子鉴定采样采集，一般的医院并不可以为你提供常规亲子鉴定检测的服务。承德亲子鉴定中心地址：承德市西大街路北11号（承德国医基因）。一般只有少数三甲医院可以做亲子鉴定采样，或者当地亲子鉴定中心可以做亲子鉴定。如果想做亲子鉴定，最好直接到亲子鉴定中心内或亲子鉴定医院采样点内进行双方抽血鉴定，这样会更
践行8.0~第六周11.25-12.02 初队长
突破后的喜悦最可怕的不是自己不清楚，而是自己清楚了，却依然不心动，我想这就是我们每个人的惰性存在，在这一周的践行，我发现自己依然是停留在自己的模式当中，不断的恶性的轮回，虽然的话，那再晨间日记方面是纸质的填写，但是对一天的工作没有起到应有的计划和推动的作用而我自己呢，也有些时候的话会处于一个相对来讲放松的一个状态，时间的把控的话也有一些点的消极，所以在这周的间隙，重点是关注自己的三大目标为目标来进
5G基站信号加速器！AD8021ARZ-REEL7亚德诺超低噪声高速电压放大器专利失真消除技术! 深圳市尚想信息技术有限公司 5G通信高速运放 ADI黑科技 8K视频医疗超声
AD8021ARZ-REEL7ADI：重新定义高速放大器的性能极限！一、产品简介AD8021ARZ-REEL7是ADI（亚德诺半导体）推出的超低噪声高速电压反馈放大器，采用XFCB工艺和专利失真消除技术，专为4K/8K视频处理、医疗成像、5G通信等超高频应用设计。以1.8GHz带宽和0.1nV/√Hz超低噪声，成为高速信号调理的终极解决方案！二、五大颠覆性优势军工级信号保真度1.8GHz-3dB带
打造自己的梦想生态系统轻风style
今天听了第5周5.1的梦想系统和随堂练习：梦想仓库与八大关注表。参照老师给出的例子，列出了八大关注对应的自己的梦想。有些写的时候内心都在怀疑，但因为老师有说到，要没有分别心的去列出，不管是近的，远的，小的，大的，自己觉得可以实现的，或者觉得根本不可能实现的，都统统的列出来。就像音频中提到的，林语堂说过的话，梦想无论怎样模糊，总潜伏在我们心底，使我们的心境永远得不到宁静，直到这些梦想成为事实才止；像
我是孩子妈妈，我会让孩子饿着吗？松玲子
回老家过年，就是一场在关于喂养孩子问题上与老人的巅峰对决。前天我们回老家了，他爷爷奶奶就说孩子瘦了，就说我喂的不好，不按时喂，第一天夜里孩子总是睡一会就哭，睡一会就哭，夜里不知醒了多少次，弄得我真是几乎彻夜未眠。一大早，我还没起，我就听见他爷爷奶奶在外边说，今黑夜阳阳怎么老哭，是不是饿的，然后又延伸到我喂养的问题上，说不吃盐不行，不吃盐孩子没劲，吃蛋光吃个蛋黄，吃不饱，给他吃全蛋就行，哎呀我去，我
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
京东中秋节会打折吗？京东中秋节活动力度大吗？高省APP珊珊
京东中秋节会打折，并且活动力度通常是比较大的。以下是具体分析：京东中秋节打折情况降价促销：京东在中秋节期间会推出大规模的降价促销活动，涵盖食品、家居、家电等多个品类，以及众多热门品牌。消费者可以在此期间享受到实实在在的降价优惠。多种优惠形式：除了直接的降价促销，京东还会通过满减优惠、折扣促销、限时秒杀等多种形式的优惠活动来吸引消费者。这些优惠活动通常具有较高的吸引力，能够激发消费者的购买欲望。目前
Android 应用权限管理详解
文章目录1.权限类型2.权限请求机制3.权限组和分级4.权限管理的演进5.权限监控和SELinux强制访问控制6.应用权限审核和GooglePlayProtect7.开发者最佳实践8.用户权限管理9.Android应用沙箱模型10.ScopedStorage（分区存储）11.背景位置权限（BackgroundLocationAccess）12.权限回收和自动清理13.权限请求的用户体验设计14.G
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
农场种蔬菜赚钱小游戏有哪些五大可以赚钱的小游戏APP 氧惠帮朋友一起省
喜欢种菜吗？我特意带来农场种蔬菜赚钱小游戏排行榜2022，线上汇集了超多模拟种菜玩法，玩家可以免费种植赚钱哦！每天都有大量的种植任务，线上完成就能赚钱哦！快来下载吧！1.氧惠APP购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面，送1:1超级补贴(邀请好友自购多少，你就推广得多少，非常厉害)，欢迎各位
严重的DDoS 攻击澳大利亚主要宽带提供商 Fancy1816575412
本周早些时候，澳大利亚最大的固定无线宽带运营商CirrusCommunications遭受了一次重大的DDoS攻击，导致其一半以上的网络瘫痪。该公司在其网站上声称：“强大的架构、数百个传输站点以及光纤和微波回程的使用使其能够以非常高的正常运行时间提供高速”。CirrusCommunications表示，它覆盖了澳大利亚十大人口中心以及几个主要的区域中心，主要为企业和政府客户提供服务。然而，据The
3次创业身价百亿，2年前却被大众判“死刑”，李想如今怎样了？职心眼儿
他，19岁放弃高考去创业；25岁，成为亿万富豪，被央视评为“80后创业”领军人物；39岁，身价再次暴涨，一夜间闯过200亿大关。他，在3个领域连续创业20年，一家公司市值700亿，一家公司市值2000亿。而他的最高学历，却只有高中。这个人，就是理想汽车的创始人——李想。纵观李想的创业史，可谓是颇为传奇：一个既没背景，又没资金高中毕业生，怎么就让3位互联网巨头（张一鸣、王兴、程维）同时为自己站台？更
【备孕故事】她一直想做个大差不离的人，没想到在这件事上拔了尖儿宜嘉阿姨
图片发自App杨婷说从小到大自己就是个中规中矩的人，不出格，不落单，一直随着大流。学业上从未出类拔萃，却也跟着大部队一起考上了一本；做事从不冒尖，搞个大差不离就行，因此，这么多年以来，差不多就行成了她对自己人生的要求。22岁大学毕业进了一家国企，外型不出挑但文静可人的她也遇上了两位追求者，简单的观察和交往后，她从中选了李广作为自己的婚恋对象。25岁那年，在父母亲朋的祝福声中杨婷和李广步入了婚姻。婚
黛玉葬花是一种什么心情爱的生命力
图片发自App小区里的花终于开了，带着孩子在小区散步的时候，无意间我注意到了玉兰，第一次我发现原来它是先开花后长叶子的，洁白如玉的花高耸入云，那种洁白，让人敬畏。因为有风，所以带孩子在楼遮挡的草坪上玩，发现紫叶李的花也开了，并且随着风的吹动，落了满地，孩子捡起一朵花，拿到我面前，细声细气的说“花”，我的大脑细胞瞬间激活，为什么不和孩子一起捡花呢！这可是一项好玩的游戏，于是我给孩子拿了一个大的挖土用
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

大模型面试--大模型（LLMs）基础面

大模型（LLMs）基础面

1. 目前主流的开源模型体系有哪些？

1. Transformer 系列

GPT 系列

BERT 系列

T5 系列

2. RNN 系列

3. CNN 系列

4. 其他开源大模型

OpenAI CLIP

DALL-E

Stable Diffusion

5. 框架和平台

总结

2. prefix Decoder 和 causal Decoder 和 Encoder-Decoder 区别是什么？

Encoder-Decoder 架构

结构概述

工作方式

适用场景

优点

Causal Decoder

结构概述

工作方式

适用场景

优点

Prefix Decoder

结构概述

工作方式

适用场景

优点

总结

3. 大模型LLM的训练目标是什么？

1. 自回归语言模型（Autoregressive Language Modeling）

目标

训练方式

示例

2. 自编码语言模型（Autoencoding Language Modeling）

目标

训练方式

示例

3. 序列到序列模型（Sequence-to-Sequence Modeling）

目标

训练方式

示例

4. 对比学习（Contrastive Learning）

目标

训练方式

示例

5. 强化学习（Reinforcement Learning）

目标

训练方式

示例

6. 多任务学习（Multi-task Learning）

目标

训练方式

示例

总结

4. 大模型具有涌现能力是什么原因？

涌现能力（Emergent Abilities）

涌现能力的原因

总结

5. 为何现在的大模型大部分是Decoder only结构？

6. 简单 介绍一下 大模型【LLMs】？

7. 大模型【LLMs】后面跟的175B、60B、540B等 指什么？

8. 大模型【LLMs】具有什么优点？

9. 大模型【LLMs】具有什么缺点？

你可能感兴趣的:(大模型面试,语言模型,人工智能)

6. 简单介绍一下大模型【LLMs】？

7. 大模型【LLMs】后面跟的175B、60B、540B等指什么？