cofisher

Tensorflow2.0之用遗传算法优化LSTM网络结构 Version1

整体思路

首先，写一个deep_learning.py文件进行神经网络的训练及测试过程。
将deep_learning.py中需要优化的参数（在这里我们优化LSTM层数和全连接层数及每层的神经元个数）统一写到一个列表num中。
然后，进行遗传算法的编写GA.py，用需要传入deep_learning.py文件的列表num当染色体，需要优化的参数当染色体上的基因。

deep_learning.py文件

由于要将所有需要优化的参数写到一个列表中，所以再此文件中需要定义两个函数，分别是创建LSTM层函数 create_lstm(inputs, units, return_sequences) 和创建全连接层（包括BN层和dropout层）函数 create_dense(inputs, units) 。

函数：create_lstm(inputs, units, return_sequences)

输入：

inputs：传进此LSTM层的输入，如果这一LSTM层是第一层LSTM层，则传入的是 layers.Input() 的变量名；否则，传入的应该是上一个LSTM层。
units：此LSTM层中有多少个神经元。
return_sequences：此LSTM层保留所有输出（True）还是只保留最后一步的输出（False）。

输出：

输出LSTM层。

# 定义LSTM层函数
def create_lstm(inputs, units, return_sequences):
    lstm = layers.Bidirectional(layers.LSTM(units, return_sequences=return_sequences))(inputs)
    print('Lstm', lstm.shape)
    return lstm

函数：create_dense(inputs, units)

输入：

inputs：传进此全连接层的输入，如果这一全连接层是第一层全连接层，则传入的是 layers.Flatten() 的变量名；否则，传入的应该是上一个全连接层。
units：此全连接层中有多少个神经元。

输出：

输出全连接层、BN层和dropout层。

# 定义Dense层函数
def create_dense(inputs, units):
    dense = layers.Dense(units, kernel_regularizer=keras.regularizers.l2(0.001), activation='relu')(inputs)
    print('Dense', dense.shape)
    dense_dropout = layers.Dropout(0.2)(dense)
    dense_batch = layers.BatchNormalization()(dense_dropout)
    return dense, dense_dropout, dense_batch

设置参数

设置LSTM层参数的时候，只有最后一层只保留最后一步的输出，其他的都是全部保留。

# 设置LSTM层参数
lstm_num_layers = 2
lstm_units = [128, 128]
lstm_name = list(np.zeros((lstm_num_layers,)))

# 设置LSTM_Dense层参数
lstm_dense_num_layers = 2
lstm_dense_units = [128, 64]
lstm_dense_name = list(np.zeros((lstm_dense_num_layers,)))
lstm_dense_dropout_name = list(np.zeros((lstm_dense_num_layers,)))
lstm_dense_batch_name = list(np.zeros((lstm_dense_num_layers,)))

调用函数构建模型

按照介绍函数时的解释构建网络模型。

inputs_lstm = layers.Input(shape=(x_train.shape[1], x_train.shape[2]))
print(inputs_lstm.shape)
for i in range(lstm_num_layers):
    if i == 0:
        inputs = inputs_lstm
    else:
        inputs = lstm_name[i-1]
    if i == lstm_num_layers - 1:
        return_sequences=False
    else:
        return_sequences=True
    lstm_name[i] = create_lstm(inputs, lstm_units[i], return_sequences)
for i in range(lstm_dense_num_layers):
    if i == 0:
        inputs = lstm_name[lstm_num_layers-1]
    else:
        inputs = lstm_dense_batch_name[i-1]
    lstm_dense_name[i], lstm_dense_dropout_name[i], lstm_dense_batch_name[i] = create_dense(inputs, lstm_dense_units[i])
outputs_lstm = layers.Dense(10, activation='softmax')(lstm_dense_batch_name[lstm_dense_num_layers-1])
print('Outputs：', outputs_lstm.shape)

完整代码

以上没有用到列表num，而是直接将层数设为2，神经元数量也直接给出，目的是为了方便讲解，下面给出完整代码：

import tensorflow as tf
import tensorflow.keras as keras
from tensorflow.keras import models, layers, optimizers
import matplotlib.pyplot as plt
import numpy as np


# 定义LSTM层函数
def create_lstm(inputs, units, return_sequences):
    lstm = layers.Bidirectional(layers.LSTM(units, return_sequences=return_sequences))(inputs)
    return lstm


# 定义Dense层函数
def create_dense(inputs, units):
    dense = layers.Dense(units, kernel_regularizer=keras.regularizers.l2(0.001), activation='relu')(inputs)
    dense_dropout = layers.Dropout(0.2)(dense)
    dense_batch = layers.BatchNormalization()(dense_dropout)
    return dense, dense_dropout, dense_batch


def load():
    # Mnist数据集加载
    (x_train, y_train), (x_test, y_test) = keras.datasets.mnist.load_data()

    # Mnist数据集简单归一化
    x_train, x_test = x_train / 255.0, x_test / 255.0
    print('Load finished!')
    return x_train, y_train, x_test, y_test


def classify(x_train, y_train, x_test, y_test, num):
    # 设置LSTM层参数
    lstm_num_layers = num[0]
    lstm_units = num[2: 2 + lstm_num_layers]
    lstm_name = list(np.zeros((lstm_num_layers,)))

    # 设置LSTM_Dense层参数
    lstm_dense_num_layers = num[1]
    lstm_dense_units = num[2 + lstm_num_layers: 2 + lstm_num_layers + lstm_dense_num_layers]
    lstm_dense_name = list(np.zeros((lstm_dense_num_layers,)))
    lstm_dense_dropout_name = list(np.zeros((lstm_dense_num_layers,)))
    lstm_dense_batch_name = list(np.zeros((lstm_dense_num_layers,)))

    inputs_lstm = layers.Input(shape=(x_train.shape[1], x_train.shape[2]))
    for i in range(lstm_num_layers):
        if i == 0:
            inputs = inputs_lstm
        else:
            inputs = lstm_name[i - 1]
        if i == lstm_num_layers - 1:
            return_sequences = False
        else:
            return_sequences = True
        lstm_name[i] = create_lstm(inputs, lstm_units[i], return_sequences)
    for i in range(lstm_dense_num_layers):
        if i == 0:
            inputs = lstm_name[lstm_num_layers - 1]
        else:
            inputs = lstm_dense_batch_name[i - 1]
        lstm_dense_name[i], lstm_dense_dropout_name[i], lstm_dense_batch_name[i] = create_dense(inputs,
                                                                                                lstm_dense_units[i])
    outputs_lstm = layers.Dense(10, activation='softmax')(lstm_dense_batch_name[lstm_dense_num_layers - 1])

    LSTM_model = keras.Model(inputs_lstm, outputs_lstm)
    LSTM_model.compile(optimizer=keras.optimizers.Adam(),
                       loss='sparse_categorical_crossentropy',
                       metrics=['accuracy'])

    history = LSTM_model.fit(x_train, y_train, batch_size=32, epochs=1, validation_split=0.1, verbose=0)
    print('LSTM finished!')

    # 验证模型：
    results = LSTM_model.evaluate(x_test, y_test, verbose=0)
    return results[1]

列表num中的前两个元素分别表示LSTM层的层数和全连接层的层数，后面的元素表示每层的神经元个数。
返回的值为测试集的准确率。

GA.py

常规的遗传算法介绍可以参考我的另一篇文章遗传算法求解最大值问题详解（附python代码）。

问题

在优化卷积神经网络这个问题上，用常规的遗传算法不易实现，原因如下：

1、传统的遗传算法中的每条染色体的长度相同，但是优化LSTM网络时，染色体的长度会因为层数的不同而不同。比如a染色体有一层LSTM层和一层全连接层，则在这条染色体上共有四个基因（两个代表层数，两个代表每层的神经元个数）；b染色体有两层LSTM层和两层全连接层，则在这条染色体上共有六个基因（两个代表层数，四个代表每层的神经元个数）。
2、在传统的遗传算法中，染色体上的基因的取值范围都是相同的，但优化LSTM网络时，需要让表示层数的基因在一个范围内，表示神经元个数的基因在另一个范围内。比如，LSTM层层数在一层到三层之间，全连接层个数在一层到三层之间，神经元个数在32个到256个之间。
3、由于第一个问题（即染色体长度不同）的存在，交叉函数、变异函数均需要做出修改。

解决方法

1、将每条染色体设置为相同的长度（因为LSTM层层数最多三层，全连接层个数最多三层，加上最前面两个表示层数的基因，故设置每条染色体上有3+3+2=8个基因），达不到长度要求的后面补零。
2、先设置前面两个基因，令其范围分别在一到三之间和一到三之间，然后根据这连个基因确定后面关于每层神经元个数的基因的个数。
3、对于交叉函数的修改，首先确定取出的两条染色体（设为a染色体和b染色体）上需要交换的位置，然后遍历两条染色体在这些位置上的基因，如果任一染色体上此位置上的基因为0或要交换的基因是关于层数的，则取消此位置的交换。
4、对于变异函数的修改，只有关于神经元个数的基因变异，关于层数的基因不变异。

完整代码

import numpy as np
import deep_learning as project
import os
os.environ["TF_CPP_MIN_LOG_LEVEL"]='2'

DNA_SIZE = 2
DNA_SIZE_MAX = 8
POP_SIZE = 20
CROSS_RATE = 0.5
MUTATION_RATE = 0.01
N_GENERATIONS = 40

train_x, train_y, test_x, test_y = project.load()

def get_fitness(x):
    return project.classify(train_x, train_y, test_x, test_y, num=x)

def select(pop, fitness):
    idx = np.random.choice(np.arange(POP_SIZE), size=POP_SIZE, replace=True, p=fitness / fitness.sum())
    return pop[idx]

def crossover(parent, pop):
    if np.random.rand() < CROSS_RATE:
        i_ = np.random.randint(0, POP_SIZE, size=1)
        cross_points = np.random.randint(0, 2, size=DNA_SIZE_MAX).astype(np.bool)
        for i, point in enumerate(cross_points):
            if point == True and pop[i_, i]*parent[i] == 0:
                cross_points[i] = False
            if point == True and i < 2:
                cross_points[i] = False
        parent[cross_points] = pop[i_, cross_points]
    return parent

def mutate(child):
    for point in range(DNA_SIZE_MAX):
        if np.random.rand() < MUTATION_RATE:
            if point >= 3:
                if child[point] != 0:
                    child[point] = np.random.randint(32, 257)
    return child

pop_layers = np.zeros((POP_SIZE, DNA_SIZE), np.int32)
pop_layers[:, 0] = np.random.randint(1, 4, size=(POP_SIZE,))
pop_layers[:, 1] = np.random.randint(1, 4, size=(POP_SIZE,))
pop = np.zeros((POP_SIZE, DNA_SIZE_MAX))
for i in range(POP_SIZE):
    pop_neurons = np.random.randint(32, 257, size=(pop_layers[i].sum(),))
    pop_stack = np.hstack((pop_layers[i], pop_neurons))
    for j, gene in enumerate(pop_stack):
        pop[i][j] = gene

for each_generation in range(N_GENERATIONS):
    fitness = np.zeros([POP_SIZE, ])
    for i in range(POP_SIZE):
        pop_list = list(pop[i])
        for j, each in enumerate(pop_list):
            if each == 0.0:
                index = j
                pop_list = pop_list[:j]
        for k, each in enumerate(pop_list):
            each_int = int(each)
            pop_list[k] = each_int
        fitness[i] = get_fitness(pop_list)
        print('第%d代第%d个染色体的适应度为%f' % (each_generation+1, i+1, fitness[i]))
        print('此染色体为：', pop_list)
    print("Generation:", each_generation+1, "Most fitted DNA: ", pop[np.argmax(fitness), :], "适应度为：", fitness[np.argmax(fitness)])
    pop = select(pop, fitness)
    pop_copy = pop.copy()
    for parent in pop:
        child = crossover(parent, pop_copy)
        child = mutate(child)
        parent = child

其中，如下代码的作用是将数组中的0元素删除掉，具体实现过程可以参考我的另一篇文章删掉nd array数组中的所有零元素。

for each_generation in range(N_GENERATIONS):
    fitness = np.zeros([POP_SIZE, ])
    for i in range(POP_SIZE):
        pop_list = list(pop[i])
        for j, each in enumerate(pop_list):
            if each == 0.0:
                index = j
                pop_list = pop_list[:j]
        for k, each in enumerate(pop_list):
            each_int = int(each)
            pop_list[k] = each_int

你可能感兴趣的:(tensorflow,优化算法)

机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
论文阅读：《针对多目标优化和应用的 NSGA-II 综述》一些关于优化算法的简介行然梦实优化算法论文阅读算法数学建模
前言提醒：文章内容为方便作者自己后日复习与查阅而进行的书写与发布，其中引用内容都会使用链接表明出处（如有侵权问题，请及时联系）。其中内容多为一次书写，缺少检查与订正，如有问题或其他拓展及意见建议，欢迎评论区讨论交流。内容由AI辅助生成，仅经笔者审核整理，请甄别食用。文章目录前言一些关于优化算法的缩写优化算法Ma,Haiping&Zhang,Yajing&Sun,Shengyi&Liu,Ting&S
Tensorflow-gpu运行时报错Non-OK-status: GpuLaunchKernel GEM的左耳返 python tensorflow 深度学习 python
Tensorflow-gpu运行时报错Non-OK-status:GpuLaunchKernel(FillPhiloxRandomKernelLaunch,num_blocks,block_size,0,d.stream(),gen,data,size,dist)status:Internal:invaliddevicefunctionFatalPythonerror:Aborted说明你安装的C
PyTorch武侠演义第一卷：初入江湖第7章：矿洞中的计算禁制空中湖 pytorch武侠演绎 pytorch 人工智能 python
第一卷：初入江湖第7章：矿洞中的计算禁制矿洞深处罗盘残件在接近矿洞时突然发热，指针疯狂旋转。"就是这里，"欧阳长老抚摸着洞壁上的计算图刻痕，“TensorFlow帮用静态图封印了矿脉。”林小码看到：幽蓝矿脉构成巨大的计算图结构水晶矿簇随呼吸节奏明灭（CUDA核心）矿道中流淌着数据光流（内存带宽）"小心！"大师突然拉回林小码。他刚才踩中的矿砖下陷，触发岩壁上的机关——数十道计算图锁链从四面八方射来！
基于粒子群优化算法的微电网调度(光伏、储能、电动车、电网交互)（Matlab代码实现）优化算法侠_科研 matlab
欢迎来到本博客❤️❤️❤️本文目录如下：⛳️⛳️⛳️目录1概述1.微电网概述2.粒子群优化算法（PSO）3.应用于微电网调度的优势4.研究内容光伏发电调度储能系统调度电动车充电调度与主电网交互5.实现挑战结论2基于粒子群算法的微电网调度结果4写在最后5Matlab代码实现1概述微电网（Micro-Grid）日前经济调度问题是指考虑电网的分时电价基础上，对常规负荷、光伏出力、电动车出力进行日前(未来
机器学习算法（六）---逻辑回归向云端UP 机器学习模型机器学习算法逻辑回归
目录一、逻辑回归1.1模型介绍1.2工作原理1.2.1对数几率模型1.2.2逻辑回归与Sigmoid函数1.3.3熵、相对熵与交叉熵1.3损失函数和优化算法1.3.1损失函数的理论基础1.3.2优化算法1.3.2.1梯度下降算法局限1.3.2.2随机梯度下降与小批量梯度下降1.4算法流程1.5逻辑回归优缺点1.6案例1.7classification_report()参数二、逻辑回归与线性回归的区
基于蛇优化算法优化的混合核极限学习机(HKELM)的回归预测
基于蛇优化算法优化的混合核极限学习机(HKELM)的回归预测文章目录基于蛇优化算法优化的混合核极限学习机(HKELM)的回归预测1.HKELM原理2.预测问题求解3.基于蛇优化算法优化的HKELM4.实验结果5.Matlab代码1.HKELM原理核极限学习机（KELM）是一种单隐含层前馈神经网络，通过引入核函数改善极限学习机（ELM）性能，其输出可表示为：f(x)=h(x)HU(ZC+HHU)−1
【无人机】基于强化学习的多无人机移动边缘计算与路径规划研究Matlab代码 Matlab科研工作室无人机边缘计算 matlab
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理
PyTorch武侠演义第一卷：初入江湖第5章：玉如意的秘密
第一卷：初入江湖第5章：玉如意的秘密百年秘辛藏经阁最深处，大师掀开尘封的《门派大事记》，指向一幅泛黄的画卷：“看，这就是百年前的优化器长老——欧阳调参。”画中人手持玉如意，面前悬浮着九个水晶球。林小码凑近细看，发现如意上刻着「lr=0.001」。“当年TensorFlow帮为何要盗损失玉佩？”大师叹息：“因为这块玉佩，正是控制玉如意能量的钥匙…”突然，书架后传来机关转动的咔嗒声。一道暗门缓缓打开，
塔防战争：动态寻径与成长系统的控制论架构闲人编程塔防游戏 pyqt6 路径 JPS 动态智能
目录塔防战争：动态寻径与成长系统的控制论架构引言第一章炮塔成长系统1.1属性升级模型1.2分支进化树第二章动态路径规划2.1JPS优化算法2.2实时障碍更新第三章敌人行为系统3.1多波次生成3.2智能绕障策略第四章经济平衡系统4.1资源流动方程4.2动态定价模型第五章特殊能力系统5.1连锁反应模型5.2减速力场公式第六章可视化优化6.1路径热力图6.2攻击范围环第七章性能调优7.1空间划分加速7.
【创新无忧】蚁狮算法ALO优化广义神经网络GRNN数据回归预测【含Matlab源码 10433期】 Matlab武动乾坤 matlab
Matlab武动乾坤博客之家博主简介：985研究生，Matlab领域科研开发者；座右铭：行百里者，半于九十。代码获取方式：CSDNMatlab武动乾坤—代码获取方式更多Matlab智能算法优化神经网络分类预测仿真内容点击①付费专栏智能算法优化神经网络分类预测⛳️关注CSDNMatlab武动乾坤，更多资源等你来！！⛄一、智能优化算法优化广义神经网络GRNN数据回归预测1智能优化算法优化广义回归神经网
CIFAR-10 文件下载函数谢小帅
函数挺有意思的，可能将来写项目会用到。importtensorflowastfimportosimportsysfromsix.movesimporturllibimporttarfileFLAGS=tf.app.flags.FLAGSFLAGS.data_dir='cifar10_data/'DATA_URL='http://www.cs.toronto.edu/~kriz/cifar-10-b
智能优化算法应用：基于粒子群算法PID参数优化 - 附代码
智能优化算法应用：基于粒子群算法PID参数优化-附代码文章目录智能优化算法应用：基于粒子群算法PID参数优化-附代码1.PID简介2.粒子群算法简介3.适应度函数设计4.算法实验与结果5.参考文献：6.Matlab代码摘要：本文主要介绍如何用粒子群算法进行PID参数的优化。1.PID简介PID（Proportion-Integration-Differentiation）控制器通过比例单元P、积分
排名前十的编程语言及其详细对比 NurDroid 开发语言
根据2025年4月的最新TIOBE排行榜以及其他综合榜单，当前排名前十的编程语言及其详细对比如下：1.Python•排名：第1位•核心特点：简洁语法、动态类型、丰富的生态库（如NumPy、TensorFlow）。•应用领域：AI/机器学习、数据分析、自动化脚本、Web开发（Django/Flask框架）。•性能：解释型语言，执行速度较慢，但开发效率极高，适合快速原型设计。•趋势：持续领跑AI领域，
【对比】群体智能优化算法 vs 贝叶斯优化 TIM老师 transformer 深度学习人工智能
在机器学习、工程优化和科学计算中，优化算法的选择直接影响问题求解的效率与效果。群体智能优化算法（SwarmIntelligence,SI）和贝叶斯优化（BayesianOptimization,BO）是两种截然不同的优化范式，分别以不同的哲学和数学基础解决高维、非凸、多峰等问题。本文将从原理、特点到应用场景，深入解析两者的异同。一、基础概念1.群体智能优化算法群体智能算法受自然界生物群体行为启发（
python学习DAY12打卡星仔编程 python学习打卡学习
启发式算法超参数调整专题2三种启发式算法的示例代码：遗传算法、粒子群算法、退火算法学习优化算法的思路（避免浪费无效时间）今天以自由探索的思路为主，尝试检索资料、视频、文档，用尽可能简短但是清晰的语言看是否能说清楚这三种算法每种算法的实现逻辑，帮助更深入的理解。启发式算法（HeuristicAlgorithm）是一种“经验法则”式的求解方法，用近似、快速、可接受的策略，在合理时间内找到问题的“足够好
Python实现基于BO-CNN-LSTM-Mutilhead-Attention贝叶斯优化算法（BO）优化卷积长短期记忆神经网络融合多头注意力机制进行多特征分类预测的详细项目实例（含模型描述及示例代 nantangyuxi Python 含模型描述及示例代码算法神经网络 python 人工智能大数据深度学习机器学习
目录Python实现基于BO-CNN-LSTM-Mutilhead-Attention贝叶斯优化算法（BO）优化卷积长短期记忆神经网络融合多头注意力机制进行多特征分类预测的详细项目实例...2项目背景介绍...2项目目标与意义...3高效的模型优化...3深度特征提取...3序列数据的时序建模...3
Tensorflow的基础知识(二) climb66的夏天
1.张量的索引与切片操作通过索引与切片操作可以提取张量的部分数据，它们的使用频率非常高。1.1索引操作在Tensorflow中，支持基本的[i][j]···标准索引方式，也支持通过逗号分隔索引号的索引方式。例如:x=tf.random.normal([4,32,32,3])x[0]#取第一张图片的数据x[0][1]#取第一张图片的第二行x[0][1][2]#取第一张图片，第二行，第三列的数据x[2
OpenCV结合深度学习进行图像分类香蕉可乐荷包蛋 #OpenCV opencv 深度学习分类
文章目录1.支持的深度学习框架和模型格式2.模型加载方式加载预训练模型示例：3.图像预处理流程4.前向传播与推理5.结果解析与后处理6.性能优化技巧启用GPU加速：批量处理：代码示例在资源中有上传1.支持的深度学习框架和模型格式OpenCV的DNN模块支持多种主流深度学习框架训练的模型：TensorFlow:支持冻结图(.pb)和SavedModel格式Caffe:支持.prototxt和.caf
MNIST 手写数字识别模型分析橘子编程 Python学习指南 python matplotlib
功能概述这段代码实现了一个基于TensorFlow和Keras的MNIST手写数字识别模型。主要功能包括：加载并预处理MNIST数据集构建一个简单的全连接神经网络模型训练模型并评估其性能使用训练好的模型进行预测保存和加载模型代码解析1.导入必要的库importmatplotlibimporttensorflow.kerasaskerasimporttensorflowastfimportnumpy
20250704-基于强化学习在云计算环境中的虚拟机资源调度研究
基于强化学习在云计算环境中的虚拟机资源调度研究随着云计算规模的持续扩大，数据中心虚拟机资源调度面临动态负载、异构资源适配及多目标优化等挑战。传统启发式算法在复杂场景下易陷入局部最优，而深度强化学习（DRL）凭借序贯决策能力为该问题提供了新路径。本研究以动态多目标组合优化理论为基础，结合CloudSimPy仿真框架与TensorFlow，构建“仿真-训练-验证”闭环调度系统，重点设计动态加权多目标奖
【大模型】Hugging Face常见模型格式详解 EulerBlind 大模型 LLM 人工智能语言模型
HuggingFace作为全球最大的机器学习模型社区，支持多种不同的模型格式。这些格式各有特点，适用于不同的使用场景。本文将详细介绍HuggingFace上常见的模型格式，帮助开发者选择合适的模型格式。模型格式分类概览HuggingFace上的模型格式主要可以分为以下几类：1.原始框架格式PyTorch格式(.bin,.pt,.pth)TensorFlow格式(.h5,.pb,SavedModel
【2025版】最新大模型就业方向，零基础入门到精通，收藏这篇就够了程序员_大白大模型程序员职业与发展大模型人工智能
大模型就业方向主要集中在以下几个核心领域：数据治理方向：涉及爬虫、数据清洗、ETL、DataEngine、Pipeline等工作，确保数据质量和可用性，支持模型训练和运行。平台搭建方向：负责分布式训练、大模型集群以及工程基建，构建高效的模型运行平台，支持高性能计算。模型算法方向：专注于开发新的预训练模型和优化算法，提升模型的准确性和效率，适用于NLP、语音助手、对话机器人等领域。部署落地方向：包括
Python依赖冲突若宮いヴ Python Python 依赖冲突包管理
笔者在安装scikit-image包时发现tensorflowimport时直接崩溃，后发现scikit-image(后简称skimage)和tensorflow-gpu(后简称tensorflow)都依赖于numpy包，不幸的是，最新版本的scikit-image和tensorflow依赖的numpy包版本不相同并且互相不兼容(o=^•ェ•)o┏━┓，笔者也曾经在各搜索引擎寻找解决方案……无非是
21. 反向传播、优化器、模型的训练啥都想学的大学生小土堆 --Pytorch学习 pytorch
反向传播、优化器、模型的训练1.什么是反向传播在我们从输入层对数据进行一系列的操作，包括特征提取、函数激活、维度变换等，从输入层到输出层的各种变换可以称为前向传播。前向传播的用处是为了对输入数据转换为我们需要的回归值或者标签类别值，但是这种输出结果往往是有偏差的，这种偏差是通过误差函数进行计算的。当我们构建了一个完整的前向传播结构后，就需要考虑如何使用误差来优化我们的网络结构。常见的优化算法包括梯
PyTorch深度学习工具箱整理总结前网易架构师-高司机深度学习+AI pytorch
一、pytorch简介Pytorch是torch的python版本，是由Facebook开源的神经网络框架，专门针对GPU加速的深度神经网络（DNN）编程。Torch是一个经典的对多维矩阵数据进行操作的张量（tensor）库，在机器学习和其他数学密集型应用有广泛应用。与Tensorflow的静态计算图不同，pytorch的计算图是动态的，可以根据计算需要实时改变计算图。但由于Torch语言采用Lu
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
分类模型（BERT）训练全流程巴伦是只猫人工智能分类 bert 数据挖掘
使用BERT实现分类模型的完整训练流程BERT(BidirectionalEncoderRepresentationsfromTransformers)是一种强大的预训练语言模型，在各种NLP任务中表现出色。下面我将详细梳理使用BERT实现文本分类模型的完整训练过程。1.准备工作1.1环境配置pipinstalltransformerstorchtensorflowpandassklearn1.2
边缘计算与量子模型优化驱动医疗诊断新突破
内容概要在医疗人工智能领域，边缘计算与量子模型优化的协同演进正重构诊断系统的技术范式。通过将计算节点前置至医疗设备端，边缘架构有效解决了传统云端模型面临的实时性瓶颈，配合量子优化算法对复杂特征空间的快速寻优能力，使得CT、MRI等高维影像数据的解析效率提升显著。值得关注的是，框架选型直接影响着模型部署的可行性——TensorFlow在移动端推理优化方面的工具链完备性，与PyTorch动态图机制对迭
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他