时光诺言

BERT开源代码分析（一）——dataset数据加载模块

dataset模块

pytorch版本的BERT的源码链接
我将会为大家梳理代码，解读代码。并提出自己的一些见解
基本注释已经穿插在代码块中，另外一些看法单独拿出来说

1.vocab.py

#导包
import pickle
import tqdm
from collections import Counter

class TorchVocab(object):
    def __init__(self,counter,max_sizeNone,min_freq=1,specials=['',''],
                 vectors=None,unk_init=None,vectors_cache=None):
        
        """
        counter:

        类型：collections.Counter对象
        描述：用于存储数据中每个单词出现的频率。这个计数器对象通常是通过在数据集上进行词频统计得到的。
        max_size:

        类型：int或None
        默认值：None
        描述：词汇表的最大大小。如果设置为None，则不限制词汇表的大小。如果设置为一个具体的数字，词汇表的大小将限制为最多包含这么多单词。
        min_freq:

        类型：int
        默认值：1
        描述：包含在词汇表中的最小频率阈值。频率低于这个阈值的单词将不会被包括在词汇表中。小于1的值将被设置为1。
        specials:

        类型：字符串列表
        默认值：['', '']
        描述：一组特殊标记，它们将被添加到词汇表中。这些特殊标记通常包括用于填充（）、表示未知单词（或）等特殊用途的标记。
        vectors:

        类型：预训练向量，可以是字符串列表
        默认值：None
        描述：用于指定预训练的词向量。这可以是预训练向量的名称，或者是用户自定义的预训练向量。
        unk_init:

        类型：回调函数
        默认值：torch.Tensor.zero_
        描述：用于初始化未知单词（OOV，out-of-vocabulary）向量的函数。默认情况下，未知单词的向量被初始化为零向量。
        vectors_cache:

        类型：字符串
        默认值：'.vector_cache'
        描述：用于缓存预训练向量的目录路径。如果提供了向量路径，则预训练向量将被下载或加载到这个目录中。
        """
        
        
        
        self.freqs=counter
        counter=counter.copy()
        min_freq=max(min_freq,1)
        
        self.itos=list(specials)
        
        for tok in specials:
            del counter[tok]
        
        max_size=None if max_size is None else max_size+len(self.itos)
        
        #按频率排序，然后按字母顺序排序
        words_and_frequencies = sorted(counter.items(),key=lambda tup:tup[0])#按字母顺序排序
        words_and_frequencies.sort(key=lambda tup:tup[1],reverse=True)#再按照频率从大到小排序
        
        for word,freq in words_and_frequencies:
            if freq<min_freq or len(self.itos)==max_size:
                break
            self.itos.append(word)
        
        #stoi就是itos的翻转字典
        self.stoi={tok:i for i,tok in enumerate(self.itos)}
        
        self.vectors=None
        if vectors is not None:
            self.load_vectors(vectors,unk_init=unk_init,cache=vectors_cache)
        else:
            assert unk_init is None and vectors_cache is None
    
    def __eq__(self,other):#判断两个字典是否相等
        if self.freqs!=other.freqs:
            return False
        if self.stoi!=other.stoi:
            return False
        if self.itos!=other.itos:
            return False
        if self.vectors!=other.vectors:
            return False
        return True
    
    def __len__(self):
        return len(self.itos)
    
    def vocab_rerank(self):#再次翻转为stoi
        self.stoi={word: i for i,word in enumerate(self.itos)}
    
    def extend(self,v,sort=False):#将另一个字典加入到当前字典中
        words=sorted(v.itos) if sort else v.itos
        for w in words:
            if w not in self.stoi:
                self.itos.append(w)
                self.stoi[w]=len(self.itos)-1
        
class Vocab(TorchVocab): 
    def __init__(self,counter,max_size=None,min_freq=1):
        self.pad_index=0
        self.unk_index=1
        self.eos_index=2
        self.sos_index=3
        self.mask_index=4
        super().__init__(counter,specials=["","","","",""],max_size=max_size,min_freq=min_freq)
    
    def to_seq(self,sentence,seq_len,with_eos=False,with_sos=False)->list:#字符序列转换为数字序列
        pass
    def from_seq(self,seq,join=False,with_pad=False):#数字序列转换为字符序列
        pass
    
    @staticmethod
    def load_vocab(vocab_path:str)->'Vocab':#静态方法，利用pickle将字符加载出来
        with open(vocab_path,'rb') as f:
            return pickle.load(f)
    def save_vocab(self,vocab_path):#利用pickle保存数据
        with open(vocab_path,'wb' ) as f:
            pickle.dump(self,f)

class WordVocab(Vocab):
    def __init__(self,texts,max_size=None,min_freq=1):
        print("Building Vocab")
        counter=Counter()
        for line in tqdm.tqdm(texts):
            if isinstance(line,list):
                words=line
            else:
                words=line.replace("\n","").replace("\t","").split()
                
            for word in words:
                counter[word]+=1
        super().__init__(counter,max_size=max_size,min_freq=min_freq)
    def to_seq(self,sentence,seq_len=None,with_eos=False,with_sos=False,with_len=False):
        if isinstance(sentence,str):
            sentence=sentence.split()
        if with_eos:#如果with_eos为真，意味着需要在序列末尾添加结束标记
            seq+=[self.eos_index]
        if with_sos:#如果with_sos为真，意味着需要在序列开头添加开始标记。
            seq=[seq.sos_index]+seq
        
        origin_seq_len=len(seq)#记录转换后序列的长度
        
        if seq_len is None:
            pass
        elif len(seq)<=seq_len:
            seq+=[self.pad_index]*(seq_len-len(seq))
        else:
            seq=seq[:seq_len]
        
        return (seq,origin_seq_len) if with_len else seq #如果 with_len 为 True，函数将返回一个元组,其中origin_seq_len为不加其他标识符之前的句子
    
    def from_seq(self,seq,join=False,with_pad=False):
        """
        Args:
        
        seq：一个整数列表，通常表示单词的索引序列。
        join：一个布尔值，指示是否应该将转换后的单词列表拼接为一个字符串。
        with_pad：一个布尔值，指示是否应该在输出中包含填充（PAD）标记。
        """
        
        
        words=[self.itos[idx] 
               if idx<len(self.itos) 
               else "<%d>"% idx
               for idx in seq if not with_pad or idx!=self.pad_index]#当with_pad为True时，所有的索引对应的单词都将加载到words中
        return "".join(words) if join else words
    
    @staticmethod
    def load_vocab(vocab_path:str)->'WordVocab':#，用于从指定路径加载一个之前保存的WordVocab对象。
        with open(vocab_path,"r") as f:
            return pickle.load(f)

def build():
    import argparse

    parser = argparse.ArgumentParser()
    
    """
    -c 或 --corpus_path：指定语料库文件的路径。
    -o 或 --output_path：指定输出词汇表文件的路径。
    -s 或 --vocab_size：指定词汇表的最大大小。
    -e 或 --encoding：指定文件的编码格式，默认为utf-8。
    -m 或 --min_freq：指定单词在语料库中出现的最小频率。
    """
    
    parser.add_argument("-c", "--corpus_path", required=True, type=str)
    parser.add_argument("-o", "--output_path", required=True, type=str)
    parser.add_argument("-s", "--vocab_size", type=int, default=None)
    parser.add_argument("-e", "--encoding", type=str, default="utf-8")
    parser.add_argument("-m", "--min_freq", type=int, default=1)
    args = parser.parse_args()

    with open(args.corpus_path, "r", encoding=args.encoding) as f:
        vocab = WordVocab(f, max_size=args.vocab_size, min_freq=args.min_freq) #读取语料库并构建词汇表

    print("VOCAB SIZE:", len(vocab)) #打印词汇表的大小（即其中包含的单词数量）
    vocab.save_vocab(args.output_path) #调用vocab.save_vocab 方法将词汇表保存到指定的输出文件路径

可以看到vocab.py包含三个类，这三个类从上往下依次继承

TorchVocab：
这个类是基础类，定义了词汇表的核心功能，如建立词汇表、索引到字符串（itos）和字符串到索引（stoi）的映射，处理预训练向量等。
它包含了初始化方法（init），用于从词频计数器创建词汇表，以及一些基本方法，如比较两个词汇表是否相等（eq）、获取词汇表长度（len）、重新排列词汇表（vocab_rerank）和扩展当前词汇表（extend）。
Vocab：
Vocab类继承自TorchVocab。它在TorchVocab的基础上增加了特定的特殊标记，如填充pad、未知单词unk、句末eos、句首sos和掩码mask。
Vocab类提供了额外的方法，如to_seq和from_seq（这两个方法在提供的代码中没有具体实现，而是放在之后的WordVocab中实现了），以及用于保存和加载词汇表的方法。
WordVocab：
WordVocab类继承自Vocab。它专门用于从文本数据构建词汇表。这个类的构造函数接受文本数据，计算单词频率，并使用这些信息来构建词汇表。
它重写了to_seq和from_seq方法，这些方法用于将句子转换为索引序列，以及将索引序列转换回文本。

这三个类构成了一个层次结构，其中每个子类在其父类的基础上增加了更具体的功能。TorchVocab提供了基本的词汇表功能，Vocab在此基础上增加了对特殊标记的处理，而WordVocab则是专门针对从文本数据构建和使用词汇表的场景。这种设计使得代码更加模块化和可重用，同时也提供了灵活性，以便于根据特定需求进行扩展或修改。

2.dataset.py

from torch import Dataset
import tqdm
import torch
import random
class BERTDataset(Dataset):
    def __init__(self,corpus_path,vocab,seq_len,encoding="utf-8",corpus_lines=None,on_memory=True):
        self.vocab=vocab
        self.seq_len=seq_len
        
        self.on_memory=on_memory
        self.corpus_lines=corpus_lines
        self.corpus_path=corpus_path
        self.encoding=encoding
        
        with open(corpus_path,"r",encoding=encoding) as f:
            if self.corpus_lines is None and not on_memory:
                for _ in tqdm.tqdm(f,desc="Loading Dataset",total=corpus_lines):
                    self.corpus_lines+=1
                
                if on_memory:
                    self.lines=[line[:-1].split("\t") for line in tqdm.tqdm(f,desc="Loading Dataset",total=self.corpus_lines)]
                    self.corpus_lines=len(self.lines)
        if not on_memory:
            self.file=open(corpus_path,"r",encoding=encoding)
            self.random_file=open(corpus_path,"r",encoding=encoding)
            
            for _ in range(random.randint(self.corpus_lines if self.corpus_lines<1000 else 1000)):
                self.random_file.__next__()

    #返回语料的长度
    def __len__(self):
        return self.corpus_lines
    
    
    def __getitem__(self,item):
        t1,t2,is_next_label=self.random_sent(item)
        t1_random,t1_label=self.random_word(t1)
        t2_random,t2_label=self.random_word(t2)
        
        t1=[self.vocab.sos_index]+t1_random+[self.vocab.eos_index]#sos是文本开始标签 eos是文本结束也是分割标签
        t2=t2_random+[self.vocab.eos_index]
        
        #构建掩码标签
        t1_label=[self.vocab.pad_index]+t1_label+[self.vocab.pad_index]
        t2_label=t2_label+[self.vocab.pad_index]
        
        #生成段落标签
        segment_label=([1 for _ in range(len(t1))]+[2 for _ in range (len(t2))])[:self.seq_len]
        bert_input=(t1+t2)[:self.seq_len]
        bert_label=(t1_label+t2_label)[:self.seq_len]
        
        padding=[self.vocab.pad_index for _ in range(self.seq_len-len(bert_input))]
        bert_input.extend(padding),bert_label.extend(padding),segment_label.extend(padding)
        
        output={"bert_input":bert_input,"bert_label":bert_label,"segment_label":segment_label}
        
        return {key:torch.tensor(value) for key ,value in output.items()}
    
        
    
    def random_word(self,sentence):
        tokens=sentence.split()#将每个单词分词
        output_label=[]
        
        for i,token in enumerate(tokens):
            prob=random.random()
            if prob<0.15:
                prob/=0.15 #相对概率
                
                
                #80% randomly change token to mask token
                if prob<0.8:
                    tokens[i]=self.vocab.mask_index
                
                # 10% randomly change token to mask token
                elif prob<0.9:
                    tokens[i]=random.randrange(len(self.vocab))#返回一个随机的单词在词典中的索引
                
                # 10% randomly change token to current token
                else:
                    tokens[i]=self.vocab.stoi.get(token,self.vocab.unk_index)#返回本单词在词典中的索引
                
                output_label.append(self.vocab.stoi.get())#单词被替换，那么output_label需要记录ground_truth，即记录被替换的单词在词典中的索引
            else:
                tokens[i]=self.vocab.stoi.get(token,self.vocab.unk_index)
                output_label.append(0)
        
        return tokens,output_label
            
           
        
    """
    内存中读取 (self.on_memory 为 True)：

    当 self.on_memory 为 True 时，函数直接从 self.lines 列表中返回索引为 item 的行，其中 self.lines[item][0] 和 self.lines[item][1] 分别代表该行的两个文本片段。
    文件中读取 (self.on_memory 为 False)：

    如果 self.on_memory 为 False，函数尝试从打开的文件对象 self.file 中读取下一行。
    如果读取的行是 None（意味着到达了文件的末尾），它会关闭文件，重新打开文件，然后再次读取下一行。
    读取的行假定为一个用制表符（\t）分隔的两部分文本，这两部分文本通过 split("\t") 方法分割，并赋值给 t1 和 t2。
    """
    #"I like to eat pizza."\t"It is delicious."
    #         t1                        t2

        
    def get_corpus_line(self,item):
        if self.on_memory:
            return self.lines[item][0],self.lines[item][1]
        else:
            line=self.file.__next__()
            if line is None:
                self.file.close()
                self.file=open(self.corpus_path,"r",encoding=self.encoding)
                line=self.file.__next__()
                
            t1,t2=line[:-1].split("\t")
            return t1,t2
    
    #它的作用是从文本数据中随机选择并返回一行。它处理两种情况：数据全部加载到内存中，或者从文件中逐行读取
    def get_random_line(self):
        if self.on_memory:
            return self.line[random.randrange(len(self.lines))][1]
        line=self.file.__next__()
        if line is None:
            self.file.closee()
            self.file=open(self.corpus_path,"r",encoding=self.encoding)
            for _ in range(random.randint(self.corpus_lines if self.corpus_lines <1000 else 1000)):
                self.random_file.__next__()
            line=self.random_file.__next__()
        return line[:-1].split("\t")[1]
    
    
    #创建一个训练样本，其中包括从数据集中选定的文本行（可能是一个句子或者段落），以及一个标签，标识这个文本行是否是与另一个文本行“下一个”相关联（即是否是连续的文本行）
    def random_sent(self,index):
        t1,t2=self.get_corpus_line(index)
        
        if(random.random()>0.5):
            return t1,t2,1
        else:
            return t1,self.get_random_line(),0

BERTDataset 类的核心功能是为训练 BERT 模型准备和处理数据。它处理文本数据，生成适合 BERT 训练的输入，包括掩码语言模型的输入和下一个句子预测任务的输入。通过随机替换、生成掩码和标签，这个类为 BERT 模型的预训练过程提供了必要的数据处理功能。

3. init.py

from .dataset import BERTDataset
from .vocab import WordVocab

这段代码就是象征性地引入两个上面提到的关键模块。

写在最后

了解一个模型，不能只了解他的核心架构，如果你有代码实现的需求，就必须把这些数据处理的部分掌握好，这些是模型运行的基础，更是成功的根基。

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
周日随笔梅子Mey
今天心情有点烦燥，但是在看到每天读点故事弹出信息之后，心情瞬间阳光起来。坚持的路上，就是这样，没有容易。你随时可以说暂停，或者放弃。但是，就意味着你看不到未来的果实。但是，坚持的话，真的很难。这次，我想坚持下来。我希望我能在一件事上坚持半年到一年。这次是写作，我希望我能持续地输入和输出。因为这是我的热爱，因为这是我想做一辈子的事，因为，这同样也是有市场的领域。只是，我不够坚持，就看不到成果。我的文
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
何为社群？ ohh_1636
一般社会学家与地理学家所指的社群(community)，广义而言是指在某些边界线、地区或领域内发生作用的一切社会关系。它可以指实际的地理区域或是在某区域内发生的社会关系，或指存在于较抽象的、思想上的关系，除此之外。Worsley(1987)曾提出社群的广泛涵义：可被解释为地区性的社区；用来表示一个有相互关系的网络；社群可以是一种特殊的社会关系，包含社群精神(communityspirit)或社群情
元宇宙中的视觉技术：虚拟化身与场景生成 xcLeigh 计算机视觉CV 元宇宙虚拟化身场景生成 AIGC 数字孪生
元宇宙中的视觉技术：虚拟化身与场景生成前言一、元宇宙与视觉技术的深度关联1.1元宇宙概念深度剖析1.2视觉技术：元宇宙的“灵魂之窗”二、虚拟化身：数字世界的“第二自我”2.1虚拟化身技术的深度解析2.1.1核心技术构成2.1.2技术实现原理与流程2.2虚拟化身的应用领域及案例展示2.2.1游戏娱乐领域2.2.2教育培训领域三、场景生成：构建元宇宙的虚拟天地3.1场景生成技术全景透视3.1.1关键技
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
3次创业身价百亿，2年前却被大众判“死刑”，李想如今怎样了？职心眼儿
他，19岁放弃高考去创业；25岁，成为亿万富豪，被央视评为“80后创业”领军人物；39岁，身价再次暴涨，一夜间闯过200亿大关。他，在3个领域连续创业20年，一家公司市值700亿，一家公司市值2000亿。而他的最高学历，却只有高中。这个人，就是理想汽车的创始人——李想。纵观李想的创业史，可谓是颇为传奇：一个既没背景，又没资金高中毕业生，怎么就让3位互联网巨头（张一鸣、王兴、程维）同时为自己站台？更
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
程序员必备：10 个提升代码质量的工具大力出奇迹985 宠物
在软件开发过程中，代码质量对项目的成功起着决定性作用。高质量的代码不仅易于维护和扩展，还能有效降低成本并提升可靠性。本文精心挑选了10个程序员必备工具，助力提升代码质量。这些工具涵盖代码格式化、静态分析、代码审查、测试、性能优化、安全扫描、版本控制、依赖管理、代码生成以及文档生成等多个关键领域。通过使用它们，开发者能够高效地发现并解决代码中的潜在问题，遵循最佳实践，提升代码的可读性、可维护性与安全
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
文科生转行编程：从月薪 3 千到 2 万的真实经历
在当下就业市场中，文科生往往面临诸多挑战，薪资水平也不尽如人意。然而，有不少勇敢的文科生成功实现了向编程领域的转行，薪资更是实现了从月薪3千到2万的飞跃。本文将深入剖析文科生转行编程的真实经历，从最初对现状的不满萌生出转行念头，到如何艰难地开启学习之旅，克服基础薄弱、思维转换难等重重困难，再到求职时凭借策略与努力获得宝贵机会，以及入职后持续学习保持竞争力。希望通过这些真实历程，为有志于转行编程的文
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc