FastSpeech2——TTS论文阅读

笔记地址：https://flowus.cn/share/1683b50b-1469-4d57-bef0-7631d39ac8f0
【FlowUs 息流】FastSpeech2

论文地址：lFastSpeech 2: Fast and High-Quality End-to-End Text to Speechhttps://arxiv.org/abs/2006.04558

Abstract：

tacotron→fastspeech，引入knowledge distillation，缓解TTS中one-to-many problem。问题：teacher-student distillation pipeline 1）复杂速度慢 2）不够准确 3）学生模型是从教师模型输出的结果来学习，而不是直接学习mel图谱，导致信息缺失

fastspeech2的解决方案：1）直接从gt进行训练 2）引入更多条件输入：pitch, enerngy, accurate, duration。具体为：extract duration, pitch and energy from speech waveform and directly take them as conditional inputs in training and use predicted values in inference

1.Introduction：

fastspeech2改进之处：

1.直接使用gt来训练fastspeech2模型

2.为了缓解one-to-many problem，引入更多的声音condition；训练时，先从目标语音波形中提取pitch, energy, extrate duration，然后作为condition输入

3.音高energy难以预测且重要，采用方法we convert the pitch contour into pitch spectrogram using continuous wavelet transform and predict the pitch in the frequency domain, which can improve the accuracy of predicted pitch.

4.Fastspeech2s，不采用mel图谱，而是直接从text中生成语音波形

贡献：

FastSpeech 2 achieves a 3x training speed-up over FastSpeech by simplifying the training pipeline.
FastSpeech 2 alleviates the one-to-many mapping problem in TTS and achieves better voice quality.
FastSpeech 2s further simplifies the inference pipeline for speech synthesis while maintaining high voice quality, by directly generating speech waveform from text.

2.FastSpeech2 and 2s

2.1Motivation

解决自回归模型中one-to-many problem，fastspeech中teacher-student复杂，损失，不准确问题

2.2Model Overview

结构：

编码器（Encoder）：编码器的作用是将输入的音素嵌入序列转换为隐藏的音素序列。音素嵌入是将文本中的每个音素转换为一个高维向量，这些向量包含了音素的丰富信息。

变异调节器（Variance Adaptor）：变异调节器的功能是在隐藏序列中添加不同的变化信息，包括音长（duration）、音高（pitch）和能量（energy）。这些信息对于模拟自然语音的细微变化非常重要，有助于缓解文本到语音转换中的一对多映射问题。

Mel频谱解码器（Mel-spectrogram Decoder）：这个部分将经过变异调节器调整后的隐藏序列并行转换成Mel频谱序列。Mel频谱是一种表示音频信号的方式，常用于语音处理领域。

训练：

去除了教师-学生蒸馏流程：FastSpeech 2不再依赖从教师模型蒸馏得到的Mel频谱，而是直接使用真实的Mel频谱作为模型训练的目标，这样做可以避免在蒸馏过程中产生的信息损失，并提高语音质量的上限。
变异调节器的改进：变异调节器不仅包括音长预测器，还新增了音高和能量预测器。音长预测器使用通过强制对齐得到的音素时长作为训练目标，这比从自回归教师模型的注意力图中提取的音素时长更为准确。新增的音高和能量预测器提供了更多的变化信息，这对于解决文本到语音转换的一对多映射问题非常重要。
进一步简化训练流程：为了推进模型向完全端到端系统的发展，FastSpeech 2提出了一个变种FastSpeech 2s，它可以直接从文本生成波形，无需Mel频谱生成（声学模型）和波形生成（声码器）的级联过程。

2.3VARIANCE ADAPTOR

目标：The variance adaptor aims to add variance information to the phoneme hidden sequence, which can provide enough information to predict variant speech for the one-to-many mapping problem in TTS. 添加信息预测，以解决one-to-many problem

添加的信息：

音素时长（Phoneme Duration）：它表示语音声音持续的时间长短。音素时长能够指示每个音素对应多少个Mel帧，并且为了便于预测，这个时长会被转换为对数域。

音高（Pitch）：音高是传达情感的关键特征，它极大地影响语音的韵律（prosody）。在FastSpeech 2中，为了更好地预测音高轮廓中的变化，使用连续小波变换（CWT）将连续的音高序列分解成音高频谱，然后将这个频谱作为音高预测器的训练目标。

能量（Energy）：能量指示了Mel频谱的帧级幅度，直接影响语音的音量和韵律。能量通过计算每个短时傅立叶变换（STFT）帧的振幅的L2范数得到。然后，与音高类似，能量被量化为256个可能的值，并编码成能量嵌入向量，添加到扩展的隐藏序列中。

对于每个信息，设置了相应的predictor：

时长预测器：采用两层一维卷积网络，通过ReLU激活函数，后面跟着层正则化和dropout层，以及一个额外的线性层将隐藏状态投影到输出序列。它优化的是均方误差（MSE）损失，以录音中提取的真实时长作为训练目标。
音高预测器：预测音高频谱，并在推理时使用逆连续小波变换（iCWT）将其转换回音高轮廓。音高预测器的架构和优化细节在附录D中有详细描述。
能量预测器：预测能量的原始值而不是量化值，并且也使用MSE损失进行优化。

使用：

在训练过程中，这些真实的变异信息（时长、音高和能量）被直接输入到隐藏序列中，用于预测目标语音。在推理时，利用预测器预测出的目标值来合成目标语音。通过这样的设计，FastSpeech 2可以更准确地处理音素的持续时间，音高和能量的变化，生成更自然的语音输出。

2.4FastSpeech2s

跳过mel频谱阶段，实现实现了从文本直接生成波形的完全端到端的文本到语音合成的过程

Challenges：

信息差异：波形相比Mel频谱包含了更多的变化信息（例如，相位），这导致输入和输出之间的信息差距比文本到频谱生成时要大。

训练难度：由于波形样本极长，加上GPU内存的限制，很难对整个文本序列对应的音频剪辑进行训练。因此，只能在对应部分文本序列的短音频剪辑上进行训练，这使得模型难以捕捉不同部分文本序列中音素之间的关系，从而影响文本特征的提取。

Method：

对抗训练：由于使用变异预测器难以预测相位信息，FastSpeech 2s引入了对抗训练使波形解码器能够隐式地自行恢复相位信息。

借助Mel频谱解码器：利用FastSpeech 2中训练有素的Mel频谱解码器帮助文本特征提取，尽管在推理阶段不使用Mel频谱解码器。

2.5Discussion

discuss how FastSpeech 2 and 2s differentiate from previous and concurrent works.

非自回归并行生成：与自回归方法如Deep Voice系列和其他一些方法相比，FastSpeech 2和2s使用基于自注意力机制的前馈网络，能够并行生成Mel频谱或波形，提高了合成速度。

更多变化信息输入：FastSpeech 2和2s不仅预测时长，还提供额外的音高和能量信息作为输入，有助于减少输入文本和输出语音之间的信息差距，这在其他一些非自回归声学模型中不常见。

细粒度音高预测：相对于同期的一些工作在音素级别预测音高，FastSpeech 2和2s在帧级别上进行更细粒度的音高预测，使得语音的韵律更加自然。

连续小波变换：为了改善合成语音的韵律，FastSpeech 2和2s引入连续小波变换来建模音高的变化，这是以前的系统没有的功能。

完全非自回归架构：FastSpeech 2s采用完全非自回归的架构，这使得在推理时更加快速，而ClariNet等其他文本到波形模型则是联合训练自回归声学模型和非自回归声码器。

直接文本到波形的转换：与EATS等同时期工作相比，FastSpeech 2s不仅预测时长，还额外提供其他变化信息，以缓解TTS中的一对多映射问题。

与传统声码器的区别：之前的非自回归声码器需要将文本转换为语言或声学特征，FastSpeech 2s则直接从音素序列生成波形，省去了这一转换步骤，这使得FastSpeech 2s成为第一个完全并行的从文本到波形的系统。

3.Experiments and Results

3.1 Experimental Setup

数据集：数使用LJSpeech数据集，包含了约24小时、13,100个英语音频剪辑及其对应的文本转录据集被分为三个部分，12,228个样本用于训练，349个样本（文档标题为LJ003）用于验证，以及523个样本（文档标题为LJ001和LJ002）用于测试。据集被分为三个部分，12,228个样本用于训练，349个样本（文档标题为LJ003）用于验证，以及523个样本（文档标题为LJ001和LJ002）用于测试。

主观评价样本选择：在测试集中随机选择100个样本进行主观评价。

文本到音素转换：为了缓解错发音问题，使用开源的字母转音素工具将文本序列转换为音素序列。

Mel频谱转换：按照Shen等人（2018年）的方法，将原始波形转换为Mel频谱，并设置帧大小和跳跃大小分别为1024和256，这是针对22050的采样率设置的。

模型配置：FastSpeech 2的编码器和Mel频谱解码器都包含4个前馈Transformer（FFT）块。解码器中的输出线性层将隐藏状态转换为80维的Mel频谱，模型使用平均绝对误差（MAE）进行优化。

3.2Results

3.2.1Model Performance

音频质量分析

评估方法：采用平均意见分数（MOS）进行感知质量评估。

评价人群：20名母语为英语的测试者参与，确保评价结果的准确性。

测试条件控制：保持不同系统间文本内容一致，确保评价专注于音频质量。

比较基准：与包括原始录音（GT）、GT Mel + PWG、Tacotron 2、Transformer TTS和FastSpeech等系统进行比较。

结果展示：FastSpeech 2在音质上超过了自回归模型，FastSpeech 2s音质相当于自回归模型。

FastSpeech 2的优势：提供更多变化信息（如音高、能量等），直接使用真实语音作为训练目标，避免教师-学生蒸馏带来的信息损失。

训练和推理速度提升分析

训练时间降低：FastSpeech 2移除了教师-学生蒸馏过程，训练时间相比FastSpeech减少了3.12倍。

训练时间计算标准：仅包括声学模型的训练时间，未包括声码器训练时间。

推理速度提升：FastSpeech 2和2s在波形合成上的推理速度比Transformer TTS模型分别快了47.8倍和51.8倍。

FastSpeech 2s的速度优势：实现了完全端到端的生成，因此比FastSpeech 2有更快的推理速度。

总体来说，FastSpeech 2和FastSpeech 2s在音质和推理速度方面均显示出优异的性能，FastSpeech 2在音质上有明显提升，而FastSpeech 2s则在速度上有显著优势。

3.2.2Analyses on Variance Information

分析Fastspeech2和2s在处理variance information上的表现

Pitch：

统计量计算：计算了音高的标准差（σ）、偏度（γ）和峰度（K），以及与原始语音音高的动态时间规整（DTW）平均距离。

比较结果：FastSpeech 2和FastSpeech 2s生成的音频在统计量（σ、γ和K）方面更接近原始语音，DTW距离也小于其他方法，说明它们在音高轮廓的自然度方面优于FastSpeech。

Energy：

误差计算：计算了合成语音与真实语音之间逐帧能量的平均绝对误差（MAE）。

比较结果：FastSpeech 2和FastSpeech 2s在能量方面的MAE小于FastSpeech，说明它们生成的语音在能量上更接近真实语音。

More Accurate Duration for Model Training：

准确性比较：通过手动对齐教师模型生成的音频与对应文本，获取真实的音素级时长，并计算使用FastSpeech教师模型和MFA（Montreal Forced Alignment）提取的时长之间的绝对边界差异的平均值。

比较结果：MFA提取的时长比FastSpeech教师模型的更准确。

语音质量测试：将FastSpeech中使用的时长（来自教师模型）替换为MFA提取的时长，并进行CMOS（比较平均意见分数）测试，比较两种时长设置下训练的FastSpeech模型的语音质量。

测试结果：使用MFA提取的更准确的时长信息，提高了FastSpeech的语音质量，验证了更准确时长信息的有效性。

3.2.3Ablity Study

消融研究，旨在研究pitch和energy等variance information对模型性能的影响

音高和能量输入的重要性

能量的影响：

移除能量导致FastSpeech 2和FastSpeech 2s的语音质量下降（分别为-0.040和-0.160 CMOS），这表明能量是一个有效的信息维度，尤其对FastSpeech 2s更为重要。

音高的影响：

移除音高导致FastSpeech 2和FastSpeech 2s的语音质量显著下降（分别为-0.245和-1.130 CMOS），这表明音高信息对于提升语音质量至关重要。

同时移除音高和能量：

当同时移除音高和能量时，语音质量进一步下降（FastSpeech 2为-0.370，FastSpeech 2s为-1.355 CMOS），证明音高和能量的结合对于提升FastSpeech 2和FastSpeech 2s的性能是非常有效的。

在频域预测音高的有效性

连续小波变换（CWT）：

研究使用CWT在频域预测音高的有效性，通过对FastSpeech 2和FastSpeech 2s直接拟合音高轮廓进行了CMOS评估，发现CMOS分别下降了0.185和0.201。
通过计算音高的统计量和与真实音高的平均DTW距离，发现使用CWT可以更好地建模音高，改善合成语音的韵律，从而获得更好的CMOS评分。

Mel频谱解码器在FastSpeech 2s中的有效性

文本特征提取：

为了验证Mel频谱解码器在FastSpeech 2s中对文本特征提取的有效性，移除了Mel频谱解码器进行了CMOS评估。
结果表明移除Mel频谱解码器导致了0.285的CMOS下降，这表明Mel频谱解码器对于高质量波形生成是必不可少的。

4.Conclusion

FastSpeech 2的创新和贡献

简化训练流程：FastSpeech 2直接使用真实的Mel频谱进行模型训练，简化了训练流程，并且与FastSpeech相比避免了信息损失。

提高时长准确性：改进了音素时长的预测准确性，帮助模型更好地处理一对多映射问题。

引入更多变化信息：增加了包括音高和能量在内的变化信息，使得模型能够生成更自然、更富有表现力的语音。

改进音高预测：通过引入连续小波变换（CWT），提高了音高预测的准确性。

FastSpeech 2s的创新和贡献

非自回归文本到波形模型：FastSpeech 2s基于FastSpeech 2进一步发展，实现了非自回归的文本到波形直接生成，享有完全端到端推理的好处，达到了更快的推理速度。

实验结果

模型性能：实验结果表明，FastSpeech 2和FastSpeech 2s在语音质量方面优于FastSpeech，FastSpeech 2甚至能在声音质量上超过自回归模型，同时保持了FastSpeech的快速、稳健和可控的语音合成优势。

未来展望

完全端到端的TTS：虽然FastSpeech 2的质量得益于外部的高性能对齐工具和音高提取工具，未来的工作将寻求更简单的解决方案来实现完全端到端的TTS，不依赖于外部对齐模型和工具。

考虑更多变化信息：未来将考虑引入更多的变化信息，以进一步提升声音质量。

更轻量级的模型：探索更轻量级的模型以加速推理，满足快速、高质量、端到端训练的最终目标。

ES-LTR粗排模块 poins jenkins 运维
ES-LTR粗排模块官方资源：https://github.com/HeiBoWang/elasticsearch-learning-to-rankElasticsearch学习排名插件使用机器学习提高搜索相关性排名。它为维基媒体基金会和Snagajob等地方的搜索提供了动力！这个插件有什么功能此插件：允许您在Elasticsearch中存储特征（Elasticsearch查询模板）记录特征得分（
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS liferecords LLM 语言模型人工智能自然语言处理
UNDERSTANDINGHTMLWITHLARGELANGUAGEMODELS相关链接：arXiv关键字：大型语言模型、HTML理解、Web自动化、自然语言处理、机器学习摘要大型语言模型（LLMs）在各种自然语言任务上表现出色。然而，它们在HTML理解方面的能力——即解析网页的原始HTML，对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型（经过微调
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
遇见美好｜期待越来越好的自己｜复盘日记Day137 沫ma的1001页
遇见美好｜期待越来越好的自己｜复盘日记Day1372021年7月21日星期三晴喜马拉雅(沫沫成长记）亲子共读：Day42阅读学习践行Day.17/21晨间日记Day.17/21昨日晚安：23:02今日早安：05:00早起：Day806❥今日运动｜跑步0Km（未完成）❥今日自我成长｜学习新知识1.听书＋书写笔记,小花生阅读打卡2..阅读学习，听音频＋写作业3.时间管理2.0线上践行，听课+写作业4.
【循环神经网络rnn】一篇文章讲透 CX330的烟花 rnn 人工智能深度学习算法 python 机器学习数据结构
目录引言二、RNN的基本原理代码事例三、RNN的优化方法1长短期记忆网络（LSTM）2门控循环单元（GRU）四、更多优化方法1选择合适的RNN结构2使用并行化技术3优化超参数4使用梯度裁剪5使用混合精度训练6利用分布式训练7使用预训练模型五、RNN的应用场景1自然语言处理2语音识别3时间序列预测六、RNN的未来发展七、结论引言众所周知，CNN与循环神经网络（RNN）或生成对抗网络（GAN）等算法结
零基础机器学习(5)之线性回归模型的性能评估一只特立独行猪机器学习机器学习线性回归人工智能
文章目录线性回归模型的性能评估1.举例1-单一特征2.举例2-多特征线性回归模型的性能评估评估线性回归模型时，首先要建立评估的测试数据集（测试集不能与训练集相同），然后选择合适的评估方法，实现对线性回归模型的评估。回归任务中最常用的评估方法有均方误差、均方根误差和预测准确率（确定系数）。1.举例1-单一特征分别对两个模型进行评估，输入的测试集如表所示。面积/（m2）售价/（万元）面积/（m2）售价
《论文阅读》EmpDG：多分辨率交互式移情对话生成 COLING 2020 365JHWZGo 情感对话论文阅读共情回复回复生成对话系统多分辨率对抗学习
《论文阅读》EmpDG：多分辨率交互式移情对话生成COLING2020前言简介模型架构共情生成器交互鉴别器损失函数前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《EmpDG:Multi-resolutionInteractiveEmpatheticDialogueGeneration》出版：COLING时间：2020类型：共情回复关
第二单元复盘地科7宋世浩
Part11，从本单元中我学到的最重要的理念（精读和视听说分别总结）精读：美国的安全问题有很大影响，每个家庭都用安全设备来保护自己家财产视听说：每个人每天的情绪和状态都很不一样，做好一件事就很好了2，我在本片文章／音频／视频中学到的怦然心动的单词（精读和视听说分别总结）精读：latch.rural.vulnerable易受攻击的；无防御的.urban.statistics.allegedly.tr
3月23日，每日信息差信息差Pro 信息差Pro 大数据 oracle 数据库 mysql sql
素材来源官方媒体/网络新闻首个国产单池万卡液冷算力集群投入运营，满足万亿级大模型训练需求快手电商正式启动兴农计划360AI浏览器APP即将上线，支持500万字长文本处理安卓15将支持音频共享，可同时连接多个耳机播放音乐✨音视频领域首个，阿里云推出华为鸿蒙HarmonyOSNEXT版音视频SDK全球首个万兆宽带落户上海一小区：下载90GB文件72秒第一、中国电信宣布，天翼云上海临港国产万卡算力池正式
2022-05-14 败者食尘_40a0
本文结构速览：一、SQL题二、机器学习&概率论三、开放性问题01SQL题面试真题：现有一张用户签到表（user_sign_d）,标记用户每日是否签到，表结构如下sign_date:日期user_id:用户IDif_sign:当日是否签到,1表示签到，0表示未签到问题①：请计算截止到当前每个用户已经连续签到的天数（输出表仅包含当天签到的所有用户，计算其连续签到的天数）输出表结构如下：user_id:
Android 实现照片抠出人像。 No Promises﹉ android
谢谢阅览、关注！！一、各平台的实现方式：1.Android实现方式：使用图像处理库（如OpenCV）：集成OpenCV库，利用其图像处理功能进行边缘检测和图像分割；使用机器学习模型（如TensorFlowLite）：集成TensorFlowLite和预训练的人像分割模型；使用第三方API服务：利用如百度AI、腾讯AI等提供的在线API进行图像处理。步骤：集成必要的库或API、加载和处理图像、应用抠
Python机器学习笔记：CART算法实战战争热诚
完整代码及其数据，请移步小编的GitHub传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote前言在python机器学习笔记：深入学习决策树算法原理一文中我们提到了决策树里的ID3算法，C4.5算法，并且大概的了
2022-05-22 李果宝宝
今天早上醒来，头疼，但还是要起来，要给孩子做早饭，带他上课。我喝了一支藿香正气水，喝了一碗鸡蛋蜂蜜。没胃口。没精神。但还能正常生活。比如现在带孩子来练字。他在教室，我在另一间等他。这几天不想听老师上课音频了，那就休息一下吧。这一段时间不是腰疼，就是头疼，昨天开了中药调理一下。身体的不舒服是在提醒我，其实感觉自己还是挺爱自己的。但一定做的不够。与不舒服同在吧。接纳它。昨天嗓子哑了，今天好了一点。
机器学习是什么三花学编程机器学习
机器学习是什么？机器学习，这一词汇在当今的科技领域中可谓炙手可热，其影响深远，不仅改变了科学研究的方式，也推动了社会的快速发展。那么，机器学习到底是什么呢？机器学习，顾名思义，是机器（通常指计算机）进行学习的过程。这个过程模仿了人类的学习方式，通过经验积累，不断优化自身性能，最终能够在没有人类直接干预的情况下，进行决策或预测。简单来说，机器学习就是让计算机具备从数据中学习并自动改进的能力。机器学习
我的一天那条红鲤鱼
早上5：40左右醒了，过了一会儿，觉得还是很困，又回到床上睡了一个回笼觉。再次醒来，7：30多了了，洗洗刷刷，烧水吃药，听音频，转眼间又8点了。但是今天特想去跑步，就去附近公园跑了5公里，回来10点多啦。洗个澡，吃个早饭，制定完本月的计划、本周的计划和今天的计划，转眼间到了下午1点啦。觉得自己不能够这么浑浑噩噩，背上书包，准备去图书馆，去的路上，吃了份大混沌。在图书馆看了2~3小时书，中间还睡了一
《ESLPod学习会》每周更新日志 ESLPod学习会
本周学习会更新内容更新AllEarsEnglish播客2期音频MP3+原文文本字幕(transcript)AEE01563ConversationalPhrasesforaSportsEvent.mp3AEE01563ConversationalPhrasesforaSportsEvent.pdfAEE0157AnnouncementTOP15FIXESforYourBiggestMistakes
FFmpeg-- c++实现：音频流aac和视频流h264封装八月的雨季997 FFmpeg ffmpeg c++音视频
文章目录流程api核心代码muxer.hmuxer.cppaac和h264封装为视频流，封装为c++的Muxter类流程分配视频文件上下文intInit(constchar*url);创建流，赋值给视频的音频流和视频流intAddStream(AVCodecContext*codec_ctx);写视频流的headintSendHeader();写视频流的packet，需要转换packet的pts和
SD NAND Flash简介！深圳市雷龙发展有限公司 nor flash nand SD NAND SD卡 TF卡
SDNANDFlash是一种特殊形式的NANDFlash，其内部有包含一个SD控制器及NANDFlash。他的特点主要有封装小，使用方便的特点。目前市面上的SDNANDFlash的容量主要有1Gb，2Gb，4Gb等。封装形式是LGA-8。对于使用者来说，可以把它单纯的看做是一个SD（TF）卡，存储一些数据，图片或音频。也可以把它作为功能更强大的NANDFlash，免去您程序上做ECC校验及坏块管理
最新ChatGPT支持下的PyTorch机器学习与深度学习 zkzhzy ChatGPT 机器学习 python 机器学习深度学习 pytorch chatgpt 数据分析人工智能
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。郁磊（副教授）主要从事AI人工智能、大语言模型及软件开发、生理系统建模与仿真、生物医学信号处理，具有丰富的科研经验，主编《MATLAB智能算
阳光淑女14/21日精进2019.12.17 80900我是淑女
在风雨里也要飞舞~今日主任务［1］复习《管理会计》［2］背诵《应知应会》［3］复习《经济博弈论》［4］听樊登读书音频［5］给好朋友写明信片［6］复习《寿险精算学》加油呀！见：［1］下午去上学的路上我外放了樊登读书音频，和我同行的娃娃听到了音频内容，表达了她的想法，即她觉得这些东西很洗脑，道理我们都懂，不同的书总展现不一样的观点，好像说得都很有理。［2］晚上和男闺蜜微信聊天的时候，被他“突然”发过来
零基础入门多媒体音频（2）-音频焦点2 thinkMoreAndDoMore 零基础入门多媒体音频音视频 android 焦点
说实话，android的代码是越来越难以阅读。业务函数里面狗皮膏药似的补丁与日俱增。继上篇简要介绍音频焦点的文章，这篇文章的主要内容是分析audiofocus的实现。看了一下午的相关代码都没找到做audiofocus策略的核心逻辑。目前能看懂的大概包含下面两个逻辑。欢迎评论区沟通。audiofocus实现的核心代码是在project_dir/frameworks/base/services/cor
Python朗读在线音频和本地音频的三种方法 PythonFun python 编程小项目人工智能 python 音视频 pygame
在日常的Python软件开发中，我们经常会遇到一个非常重要的功能需求——让程序能够读取并显示文本内容。那么，如何实现这一功能呢？本文将提供几种方法供大家参考，其中第二种方法是最推荐的。一、pyttsx3法采用这个第三方模块，可以实现python软件朗读文本。首先，需要在cmd下安装这个模块：pipinstallpyttsx3然后，就可以通过初始化发声引擎，然后定义引擎的声音大小、语速。engine
神奇的微积分科学的N次方人工智能人工智能 ai
微积分在人工智能（AI）领域扮演着至关重要的角色，以下是其主要作用：优化算法：•梯度下降法：微积分中的导数被用来计算损失函数相对于模型参数的梯度，这是许多机器学习和深度学习优化算法的核心。梯度指出了函数值增加最快的方向，通过沿着负梯度方向更新权重，可以最小化损失函数并优化模型。•反向传播：在神经网络训练中，微积分的链式法则用于计算整个网络中每个参数对于最终损失函数的影响（偏导数），这一过程就是反向
机器学习简介 Dayueban
@我的博客：有味写在前面在年前将要进行靶向代谢组学测定的样品送去公司，随之想想，还有一个半月的时间数据才会回来，那么这段时间是不是可以先学习下分类数据如何分析呢（PS:因为数据是属于分类性质的），所以不久前买的一本书——《机器学习与R语言》稍微系统学一遍，该书为美国的BrettLantz所著，翻译工作由我国学者李洪成、许金炜、李舰完成。学习本书的主要目的是了解机器学习的思想，以及所应用的领域，当然
regression机器学习回归预测模型参考学习后自我总结饮啦冰美式机器学习回归学习
简单来说，就是将样本的特征矩阵映射到样本标签空间。回归分析帮助我们理解在改变一个或多个自变量时，因变量的数值会如何变化。线性模型线性回归用于建立因变量和一个或多个自变量之间的线性关系模型。在线性回归中，假设因变量（被预测变量）与自变量（预测变量）之间存在着线性关系，也就是说，因变量的数值可以通过自变量的线性组合来预测。普通最小二乘线性回归。通过最小化实际观测值与模型预测值之间的误差平方和，可以找到
论文阅读——SpectralGPT じんじん论文计算机视觉人工智能
SpectralGPT:SpectralFoundationModelSpectralGPT的通用RS基础模型，该模型专门用于使用新型3D生成预训练Transformer（GPT）处理光谱RS图像。重建损失由两个部分组成：令牌到令牌和频谱到频谱下游任务：
2018.06.24 陌上花7807
姓名:许小妹【谦虚三组日精进打卡第76天】【知～学习】《大学》1遍，共178遍《六项精进》0遍，共32遍【经典名句分享】有的时候，我们以为的无路可走，其实是生命另一段旅程的开端。没能力看穿全局的我们会心慌，会焦虑、不知所措。然而，只要我们再撑一下，我们自然就能见识到更宽广的世界。《我与这个世界温柔相处》【行～实践】一、修身：1.坚持《教养日记》第14天；2.《六项精进》第二章；3.坚持听教育音频。
音视频实战---音视频解码 weixin_45673259 音视频音视频
该方法只能解码裸流。1、使用avcodec_find_decoder查找解码器根据使用解码器类型，决定是解码音频还是解码视频。2、使用av_parser_init获取裸流解析器和方法3、使用avcodec_alloc_context3分配编解码器上下文4、使用avcodec_open2将解码器和解码器上下文进行关联5、使用fopen打开输入、输出文件6、使用fread读取文件7、使用av_fram
自然语言处理（NLP）技术的概念及优势刘小董学习心得自然语言处理
自然语言处理（NLP）是人工智能领域的一个重要分支，其目标是使计算机能够理解、处理和生成人类自然语言的形式和含义。NLP技术的优势包括：实现人机交互：NLP技术可以使计算机与人类之间实现自然的语言交互，使人们可以通过语音识别、语义理解等方式与计算机进行交流。大规模文本处理：NLP技术可以对大规模文本进行自动化处理和分析，提取关键信息和知识，从而实现文本分类、情感分析、信息检索等任务。自动化翻译：N
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round