tokenize 第2页

Day08【基于预训练模型分词器实现交互型文本匹配】

基于预训练模型分词器实现交互型文本匹配目标数据准备参数配置数据处理模型构建主程序测试与评估总结目标本文基于预训练模型bert分词器BertTokenizer，将输入的文本以文本对的形式，送入到分词器中得到文本对的词嵌入向量

Mechanotrooper·2025-04-16 12:12

bert-base-chinese模型使用教程

向量编码和向量相似度展示importtorchfromtransformersimportBertTokenizer,BertModelimportnumpyasnpmodel_name="C:/Users

raoxiaoya·2025-04-15 18:16

BERT - 直接调用transformers.BertModel, BertTokenizerAPI不进行任何微调

本节代码将使用transformers库加载预训练的BERT模型和分词器（Tokenizer），并处理文本输入。

风筝超冷·2025-04-15 17:13

Python Transformer 库及使用方法

分词与工具链：提供高效的分词器（Tokenizer

学亮编程手记·2025-04-15 08:40

nlp培训重点-5

importjsonimportreimportosimporttorchimportnumpyasnpfromtorch.utils.dataimportDataset,DataLoaderfromtransformersimportBertTokenizer

heine162·2025-04-14 23:44

seq2seq编码器encoder和解码器decoder详解

是由原始文本中的词或子词通过分词器（Tokenizer）处理后得到的最小单位，这些token会被映射为词汇表中的唯一索引

TunnyLand·2025-04-11 22:52

修复AttributeError: BertTokenizerFast has no attribute pad_token

#记录工作在windows系统上部署ChatTTS-OpenVoice这个项目时，遇到：(.venv虚拟环境python3.11.11)AttributeError:BertTokenizerFasthasnoattributepad_token

love530love·2025-04-07 21:43

从代码学习深度学习 - NLP之文本预处理 PyTorch版

分词（Tokenization）1.3词频统计与词汇表构建1.4序列表示与批次生成1.5预处理的意义2.文本预处理的核心代码解析2.1读取数据集：`read_time_machine`2.2分词处理：`tokenize

飞雪白鹿€·2025-04-07 03:50

NLP任务之文本分类(情感分析)

中文与英文的）分类任务，Bert模型比较合适，用cls向下游任务传输数据，做分类任务#Bert模型要求一般传一个句子对（两句话）1加载预训练模型对应的分词器fromtransformersimportAutoTokenizer

Hiweir ··2025-04-06 19:57

手动实现一个迷你Llama：使用SentencePiece实现自己的tokenizer

自己训练一个tokenizertokenizer需要的模块SentencePiece库tokenizer类中的初始化函数tokenizer类中的encode函数tokenizer类中的decode函数完整代码训练函数数据分片临时文件

KangkangLoveNLP·2025-04-04 04:59

【深度学习基础】模型文件介绍

目录简介文件概述config.jsonmodel_state.pdparamsspecial_tokens_map.jsontokenizer_config.jsonvocab.txt文件内容解析如何查看和使用这些文件示例代码简介本文档详细介绍了深度学习训练过程中生成的关键文件

毕业茄·2025-04-03 00:27

【大模型开发】将vocab解码

【大模型开发】将vocab解码在这篇博客中【大模型】tokenizer中编码过程，说明了tokenizer分词编码过程。

SUNX-T·2025-03-30 21:14

《AI医疗系统开发实战录》第6期——智能导诊系统实战

技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod

骆驼_代码狂魔·2025-03-24 02:30

MiniMind

数据集分类：tokenizer训练集：这个数据集用于训练分词器（tokenizer），是文本处理中的一个重要步骤。它可以帮助模型更好地理解文本数据的结构。

亚伯拉罕·黄肯·2025-03-22 14:46

TikTokenizer 项目常见问题解决方案

TikTokenizer项目常见问题解决方案tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors

齐飞锴Timothea·2025-03-21 01:11

TikTokenizer 开源项目教程

TikTokenizer开源项目教程tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors

邱纳巧Gillian·2025-03-20 03:45

使用Tiktoken进行文本分割：优化大语言模型的输入

为了确保生成的文本块不会超过模型的token限制，我们需要使用与模型相同的tokenizer来计数和分割文本。在本文中，我们将探讨如何使用Tiktoken和其他工具来实现有效的文本分割。

bhawfgrcbtwny·2025-03-20 03:15

Dify知识库构建流程及示例

分词/标记化：拆分文本为单词或子词单元（如使用Tokenizer）。元数据关联：附加来源、时间戳等信息，支持多维度检索。2.文本分块固定长度分块：按字符或Token数切分，简单高效。

cqbelt·2025-03-19 14:54

本地运行chatglm3-6b 和 ChatPromptTemplate的结合使用

importgradiofromtransformersimportAutoTokenizer,AutoModelfromlangchain_core.promptsimportChatPromptTemplatefromlangchain_core.output_parsersimportStrOutputParserfromlangchain_community.llmsimportHuggi

hehui0921·2025-03-19 02:40

ES的预置分词器

分词器通常由字符过滤器（CharacterFilters）、分词器（Tokenizer）和词元过滤器（TokenFilters）组成。

阿湯哥·2025-03-17 11:05

LLM之Colossal-LLaMA-2：源码解读(init_tokenizer.py文件)实现基于源词表的扩展、(init_model.py文件)实现过计算均值扩展模型、(prepare_pretr

LLM之Colossal-LLaMA-2：源码解读(init_tokenizer.py文件)实现基于jsonl文件中读取新词列表(新中文词汇)→for循环去重实现词表的扩展(中文标记的新词汇)→保存新的分词模型

一个处女座的程序猿·2025-03-15 18:38

LLM 为什么需要 tokenizer？

文章目录1.LLM预训练目的1.1什么是语言模型2.Tokenizer一般处理流程（了解）3.进行Tokenizer的原因3.1one-hot的问题3.2词嵌入4.结语1.LLM预训练目的我们必须知道一个预训练目的

SmallerFL·2025-03-14 03:45

LLM填坑：训练自己的分词器-Tokenizer

paper:https://zhuanlan.zhihu.com/p/625715830code:Chatterbox/example/TrainTokenizersExample/train_tokenizers.pyatmain

微风❤水墨·2025-03-13 08:53

LLM填坑：训练自己的分词器-Tokenizer 2

merges.txtmerges文件存放的是训练tokenizer阶段所得到的合并词表结果，就是tokenizer.json中，model.merges下的内容。

微风❤水墨·2025-03-13 08:53

2024-05-21 问AI: 介绍一下大语言模型的推理过程。

以下是该过程的主要步骤：输入文本的解析：当用户输入一段文本时，大语言模型首先会通过一个称为分词器的工具（tokenizer）对输入文本进行解析。

BigSharkTech 必杀技·2025-03-12 22:14

基于hf的trl框架的deepseek-r1-zero实现与训练

格式"""Reference:"""importreimporttorchfromdatasetsimportload_dataset,DatasetfromtransformersimportAutoTokenizer

喂喂喂喂位·2025-03-12 20:00

【LLM】预训练的具体流程

分词器（Tokenizer）：它的作用是把一句话拆分成一个个小单元（比如词语或字）。比如，“我喜欢学习”会被拆成“我/喜欢/学习”。这些拆分后的单元会被转换成数字，方便模型

FOUR_A·2025-03-11 17:05

BERT（Bidirectional Encoder Representations from Transformers）的序列分类模型，简单学习记录

一、代码#本地离线模型使用fromtransformersimportAutoModelForCausalLM,AutoTokenizer,pipeline,BertForSequenceClassification

努力努力再努力呐·2025-03-11 11:16

Llama 3.2入门基础教程（非常详细），Llama 3.2微调、部署以及多模态训练入门到精通，收藏这一篇就够了！

Tokenizer变成了128K的词表，使用了GQA，不在是原来的只在Llama2-70B里使用了。所以说，最大的改变就是词表与GQA。然后在训练上变化比较大，参数变大了，400B的还没放出来

中年猿人·2025-03-03 17:49

实体识别处理--在给定的文本中识别特定类型的实体

代码结构和模块分析1.导入必要的库importtorchfromtorchimportnnfromtransformersimportBertTokenizer,BertModelfro

风清扬【coder】·2025-03-01 21:04

Exception:data did not match any variant of untagged enum PyPreTokenizerTypeWrapper at line 69 解决方案

大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Exception:datadidn

爱编程的喵喵·2025-02-28 08:34

深度学习-133-LangGraph之应用实例(二)使用面向过程和面向对象的两种编程方式构建带记忆的聊天机器人

面向过程编程2.1不裁剪历史信息2.1.1创建图2.1.2调用图2.2裁剪历史信息2.2.1创建图2.2.2调用图3面向对象编程3.1定义类MyState3.2定义类AIChat3.3应用4附录4.1问题及解决tokenizer4.2

皮皮冰燃·2025-02-26 10:02

告别复杂分词：Transformers轻松搞定文本处理

今天这篇文章将带你一起走进一个深受AI界热爱的工具——Transformers库，特别是AutoTokenizer的神奇功能。这个工具可以让你轻松处理文本，节省时间，还能保证高效准确。

星际编程喵·2025-02-25 09:08

20250221 NLP

1.向量和嵌入https://zhuanlan.zhihu.com/p/634237861encoder的输入就是向量，提前嵌入为向量二.多模态文本嵌入向量过程1.文本预处理文本tokenizer之前需要预处理吗

AI-lala·2025-02-25 07:50

大语言模型训练数据集格式

每个样本可以是一个字符串或者是一个tokenized的文本序列。标签数据：标签数据是与输入数据对应的标签或类别。标签可以是单个类别，也可以是多个类别的集合。对于多分类任务，通常使用one-hot编

香菜烤面包·2025-02-23 16:13

大模型训练 && 微调数据格式

每个样本可以是一个字符串或者是一个tokenized的文本序列。标签数据：标签数据是与输入数据对应的标签或类别。标签可以是单个类别，也可以是多个类别的集合。对于多分类任务，通常使用one-hot

comli_cn·2025-02-23 16:43

java菜鸟教程学习（完整版）

查找字符串最后一次出现的位置3.Java实例-删除字符串中的一个字符4.Java实例-字符串替换5.Java实例-字符串反转6.Java实例-字符串查找7.Java实例-字符串分割8.Java实例-字符串分割(StringTokenizer

·2025-02-22 20:45

java 输入输出模板

*;importjava.util.StringTokenizer;publicclassMain{publicstaticvoidmain(String[]args){InputStreaminputStream

wangzhuo0978·2025-02-18 15:16

deepseek+python,离线api，持续对话

功能：通过start开启新对话，stop结束对话，exit退出程序，并且可持续对话代码fromtransformersimportAutoModelForCausalLM,AutoTokenizer,BitsAndBytesConfigimporttorch

守着黎明看日出·2025-02-16 05:43

Dockerfile RUN pip install psycopg2 Error: pg_config executable not found.

模块时出错错误信息ERROR:Commanderroredoutwithexitstatus1:command:/usr/local/bin/python-c'importsys,setuptools,tokenize

罗锦天·2025-02-11 21:57

【大模型LLM面试合集】训练数据_数据格式

每个样本可以是一个字符串或者是一个tokenized的文本序列。标签数据：标签数据是与输入数据对应的标签或类别。标签可以是单个类别，也可以是多个类别的集合。对于多分类任务，通常使用one

X.AI666·2025-02-06 18:28

前端大模型入门：编码(Tokenizer)和嵌入(Embedding)解析

本文介绍了大规模语言模型（LLM）中的两个核心概念：Tokenizer和Embedding。

大模型玩家·2025-02-06 03:38

不同模型对 Emoji 和普通文本的处理表现，Emoji的向量嵌入（含测试代码）

验证代码fromtransformersimportAutoTokenizer#测试的模型列表models=["bert-base-uncased",#BERT"vinai/bertweet-base"

2301_79306982·2025-02-02 13:41

pytorch基于 Transformer 预训练模型的方法实现词嵌入（tiansz/bert-base-chinese）

frommodelscope.hub.snapshot_downloadimportsnapshot_downloadfromtransformersimportBertTokenizer,Be

纠结哥_Shrek·2025-02-01 15:05

修改训练配置记录

在train.py代码的设置训练配置中：trainer=SFTTrainer(model=model,tokenizer=tokenizer,train_dataset=dataset,dataset_text_field

positive546·2025-01-31 18:42

词表设计：特殊Token区域与共享去区域的深入探讨

在自然语言处理（NLP）中，Tokenizer的设计对于模型性能有着至关重要的影响。

东方佑·2025-01-30 14:44

Transformers库的模板困境：apply_chat_template的版本变迁与解决方案

目录问题现状低版本（4.43及以下）的简便方式高版本的报错问题原因分析旧版本的实现逻辑新版本的变化解决办法问题现状在使用Transformers库中的tokenizer处理模型输入时，我们经常需要将输入文本格式化为模型可以理解的格式

Gaffey大杂烩·2025-01-28 22:02

[论文笔记] llama-factory 微调qwen2.5、llama3踩坑

一、bug1、pre-tokenize的时候,会OOM解决：在yaml文件中添加streaming参数#tokenizestreaming:Truemax_steps:10000https://github.com

心心喵·2025-01-28 20:14

gradio可视化对话框（）

fromtransformersimportAutoModel,AutoTokenizerimportgradioasgrimportmdtex2html#-*-coding:utf-8-*-importosimporttorchimportinterfaceAllfromdatetimeimportdatetimeimporttimeimportinference_LLaVaimportshut

@小张不嚣张·2025-01-24 20:58

使用 Tokenizers 分割文本：深入了解与实践

本文将介绍如何使用不同的tokenizer来分割文本，并提供实用代码示例。技术背景介绍自然语言处理中的tokenization是指将文本拆分为更小的、可管理的单元，称为tokens。使用tok

AWsggdrg·2025-01-24 03:42

推荐频道

tokenize