词编码模型有哪些

词编码模型有哪些

词编码模型在高维向量空间的关系解析与实例说明

如Word2Vec、BERT、Qwen等

一、高维向量空间的基础概念

词编码模型(如Word2Vec、BERT、Qwen等)的核心是将自然语言符号映射为稠密的高维向量,使语义相近的词汇在向量空间中位置接近。以Qwen模型为例,其15万字符的词表规模(通常基于字节对编码BPE)本质是在高维空间中为每个词分配唯一的坐标点,而向量之间的几何关系(如距离、夹角)则反映语义相关性。

二、高维向量空间的关系类型
  1. 语义相似性
    向量空间中,余弦相似度越高的向量语义越接近。例如:

    • “国王”向量 - “男人”向量 + “女人”向量 ≈ “王后”向量
      这种线性运算在高维空间中表现为向量平移,体现词与词之间的语义类比关系。
  2. 多语言空间对齐
    跨语言模型(如mBERT)通过共享向量空间,使不同语言的同义词汇在空间中位置接近。例如:

    • 中文“苹果”与英文“apple”的向量在空间中具有高相似度。

你可能感兴趣的:(教学,2024大模型以及算力,2021,AI,python,人工智能,机器学习,数据挖掘,分类,算法)