PaperWeekly

Seq2Seq之双向解码机制 | 附开源实现

作者丨苏剑林

单位丨追一科技

研究方向丨NLP，神经网络

个人主页丨kexue.fm

在文章玩转Keras之Seq2Seq自动生成标题中我们已经基本探讨过 Seq2Seq，并且给出了参考的 Keras 实现。

本文则将这个 Seq2Seq 再往前推一步，引入双向的解码机制，它在一定程度上能提高生成文本的质量（尤其是生成较长文本时）。本文所介绍的双向解码机制参考自 Synchronous Bidirectional Neural Machine Translation，最后笔者也是用 Keras 实现的。

背景介绍

研究过 Seq2Seq 的读者都知道，常见的 Seq2Seq 的解码过程是从左往右逐字（词）生成的，即根据 encoder 的结果先生成第一个字；然后根据 encoder 的结果以及已经生成的第一个字，来去生成第二个字；再根据 encoder 的结果和前两个字，来生成第三个词；依此类推。总的来说，就是在建模如下概率分解。

当然，也可以从右往左生成，也就是先生成倒数第一个字，再生成倒数第二个字、倒数第三个字，等等。问题是，不管从哪个方向生成，都会有方向性倾斜的问题。比如，从左往右生成的话，前几个字的生成准确率肯定会比后几个字要高，反之亦然。在 Synchronous Bidirectional Neural Machine Translation 给出了如下的在机器翻译任务上的统计结果：

L2R 和 R2L 分别是指从左往右和从右往左的解码生成。从表中我们可以看到，如果从左往右解码，那么前四个 token 的准确率有 40% 左右，但是最后 4 个 token 的准确率只有 35%；反过来也差不多。这就反映了解码的不对称性。

为了消除这种不对称性，Synchronous Bidirectional Neural Machine Translation 提出了一个双向解码机制，它维护两个方向的解码器，然后通过 Attention 来进一步对齐生成。

双向解码

虽然本文参考自 Synchronous Bidirectional Neural Machine Translation，但我没有完全精读原文，我只是凭自己的直觉粗读了原文，大致理解了原理之后自己实现的模型，所以并不保证跟原文完全一致。此外，这篇论文并不是第一篇做双向解码生成的论文，但它是我看到的双向解码的第一篇论文，所以我就只实现了它，并没有跟其他相关论文进行对比。

基本思路

既然叫双向“解码”，那么改动就只是在 decoder 那里，而不涉及到 encoder，所以下面的介绍中也只侧重描述 decoder 部分。还有，要注意的是双向解码只是一个策略，而下面只是一种参考实现，并不是标准的、唯一的，这就好比我们说的 Seq2Seq 也只是序列到序列生成模型的泛指，具体 encoder 和 decoder 怎么设计，有很多可调整的地方。

首先，给出一个简单的示意动图，来演示双向解码机制的设计和交互过程：

▲ Seq2Seq的双向解码机制图示

如图所示，双向解码基本上可以看成是两个不同方向的解码模块共存，为了便于描述，我们将上方称为 L2R 模块，而下方称为 R2L 模块。开始情况下，大家都输入一个起始标记（上图中的 S），然后 L2R 模块负责预测第一个字，而 R2L 模块负责预测最后一个字。

接着，将第一个字（以及历史信息）传入到 L2R 模块中，来预测第二个字，为了预测第二个字，除了用到 L2R 模块本身的编码外，还用到 R2L 模块已有的编码结果；反之，将最后一个字（以及历史信息）传入到 R2L 模块，再加上 L2R 模块已有的编码信息，来预测倒数第二个字；依此类推，直到出现了结束标记（上图中的E）。

数学描述

换句话说，每个模块预测每一个字时，除了用到模块内部的信息外，还用到另一模块已经编码好的信息序列，而这个“用”是通过 Attention 来实现的。用公式来说，假设当前情况下 L2R 模块要预测第 n 个字，以及 R2L 模块要预测倒数第 n 个字。假设经过若干层编码后，得到的 R2L 向量序列（对应图中左上方的第二行）为：

而 R2L 的向量序列（对应图中左下方的倒数第二行）为：

如果是单向解码的话，我们会用作为特征来预测第 n 个字，或者用作为特征来预测倒数第 n 个字。

在双向解码机制下，我们以为 query，然后以为 key 和 value 来做一个 Attention，用 Attention 的输出作为特征来预测第 n 个字，这样在预测第 n 个字的时候，就可以提前“感知”到后面的字了。

同样地，我们以为 query，然后以为 key 和 value 来做一个 Attention，用 Attention 的输出作为特征来预测倒数第 n 个字，这样在预测倒数第 n 个字的时候，就可以提前“感知”到前面的字了。

上面示意图中，上面两层和下面两层之间的交互，就是指 Attention。在下面的代码中，用到的是最普通的乘性 Attention（参考一文读懂「Attention is All You Need」| 附代码实现）。

模型实现

上面就是双向解码的基本原理和做法。可以感觉到，这样一来，Seq2Seq 的 decoder 也变得对称起来了，这是一个很漂亮的特点。当然，为了完全实现这个模型，还需要思考一些问题：1. 怎么训练？2. 怎么预测？

训练方案

跟普通的 Seq2Seq 一样，基本的训练方案就是用所谓的 Teacher-Forcing 的方式来进行训练，即 L2R 方向在预测第 n 个字的时候，假设前 n−1 个字都是准确知道的，而 R2L 方向在预测倒数第 n 个字的时候，假设倒数第 n−1,n−2,…,1 个字都是准确知道的。最终的 loss 是两个方向的逐字交叉熵的平均。

不过这样的训练方案实在是无可奈何之举，后面我们会分析它信息泄漏的弊端。

双向束搜索

现在讨论预测过程。

如果是常规的单向解码的 Seq2Seq，我们会使用 beam search（束搜索）的算法，给出概率尽可能大的序列。所谓 beam search，指的是依次逐字解码，每次只保留概率最大的 topk 条“临时路径”，直到出现结束标记为止。

到了双向解码这里，情况变得复杂了一些。我们依然用 beam search 的思路，但是同时缓存两个方向的 topk 结果，也就是说，L2R 和 R2L 两个方向各存 topk 条临时路径。此外，由于双向解码时，L2R 的解码是要参考 R2L 已有的解码结果的，所以当我们要预测下一个字时，除了要枚举概率最高的 topk 个字、枚举 topk 条 L2R 的临时路径外，还要枚举 topk 条 R2L 的临时路径，所以一共要计算 topk3 那么多个组合。

而计算完成后，采用了一种最简单的思路：对每种“字 - L2R 临时路径”的得分在“R2L 临时路径”这一维度上做了平均，使得的分数变回 topk2个，作为每种“字 - L2R 临时路径”的得分，再从这 topk2 个组合中，选出分数最高的 topk 个。而 R2L 这边的解码，则要进行反向的、相同的处理。最后，如果 L2R 和 R2L 两个方向都解码出了完成的句子，那么就选择概率（得分）最高的那个。

这样的整个过程，我们称之为“双向束搜索（双向beam search）”。如果读者自己比较熟悉单向的 beam search，甚至自己都写过 beam search 的话，上述过程其实不难理解（看看代码就更容易懂了），它算是单向 beam search 自然延伸。

当然，如果对 beam search 本身不了解的话，看上述搜索的过程应该是云里雾里的。所以想要弄清楚原理的读者，应该要从常规的单向 beam search 出发，先把它弄懂了，然后再看上述解码过程的描述，最后再看看下面给出的参考代码，就容易弄懂了。

代码参考

下面是笔者给出了双向解码的参考实现，整体还是跟之前的玩转Keras之Seq2Seq自动生成标题一致，只是解码端从双向换成单向了：

https://github.com/bojone/seq2seq/blob/master/seq2seq_bidecoder.py

注：测试环境还是跟之前差不多，大概是 Python 2.7 + Keras 2.2.4 + Tensorflow 1.8。用 Python 3.x 或者其他环境的朋友，如果你们能自己改，那就做相应的改动，如果你们自己不会改，那也请你们别来问我了，我实在没有空也没有义务帮你们跑通每一个环境。本文只讨论 Seq2Seq 技术相关的内容可否？

在这个实现里，我觉得有必要解释一下起始标记和结束标记的事情。在之前的单向解码的例子中，笔者是用 2 作为起始标记，用 3 作为结束标记。到了双向解码这里，一个很自然的问题就是：L2R 和 R2L 两个方向是不是应该要用两套起始和结束标记呢？

其实这个应该没有什么标准答案，我觉得不管是共用一套还是维护两套起止标记，结果可能都差不多。至于我在上面的参考代码中，使用的方案有点另类，但我认为比较符合直觉，具体是：依然是只用一套，但是在 L2R 方向中，用 2 作为起始标记、3 作为结束标记，而在 R2L 方向中，用 3 作为起始标记、2 作为结束标记。

思考分析

最后，我们进一步思考一下这种双向解码方案。尽管将解码过程对称化是一个很漂亮的特点，但也不代表它完全没有问题了，将它思考得更深入一些，有助于我们更好地理解和使用它。

1. 改进生成的原因

一个有意思的问题是：看上去双向解码确实能提高句子首尾的生成质量，但会不会同时降低中间部分的生成质量？

当然，理论上这是有可能的，但实际测试时不是很严重。一方面，seq2seq架构的信息编码和解码能力还是很强的，所以不会轻易损失信息；另一方面，我们自己去评估一个句子的质量的时候，往往会重点关注首尾部分，如果首尾部分都很合理，而中间部分不至于太糟糕的话，那么我们都认为它是一个合理的句子；反过来，如果首或尾不合理的话，我们会觉得这个句子很糟糕。这样一来，把句子首尾的生成质量提高了，整体的生成质量也就提高了。

▲ 原论文中双向解码相对其它单向模型带来的提升

2. 对应不上概率模型

对于单向解码，我们有清晰的概率解释，即在估计条件概率 p(Y|X)（也就是 (1)）。但是在双向解码的时候，我们发现压根儿不知道怎么对应上一个概率模型，换句话说，我们感觉我们是在算概率，感觉效果也有了，却不知道真正算得是啥，因为条件概率的条件依赖完全已经被打乱了。

当然，如果真的有实效的话，理论美感差点也无妨，我说的这一点只是理论审美的追求，大家见仁见智就好。

3. 信息提前泄漏

所谓信息泄漏，指的是本来作为预测目标的标签被用来做输入了，从而导致训练阶段的 loss 虚低（或者准确率虚高）。

由于在双向解码中，L2R 端的解码要去读取 R2L 端已有的向量序列，而在训练阶段，为了预测 R2L 端的第 n 个字，是需要传入前 n−1 个字的，这样一来，越解码到后面，信息泄漏就越严重。如下图所示：

▲ 信息泄漏示意图。训练阶段，当L2R端在预测“你”的时候，事实上用到了传入到R2L端的“你”标签；反之，R2L端预测“北”字的时候，同样存在这个问题，即用到了L2R的“北”字标签

信息泄漏的一个表观现象是：训练到后期，双向解码中 L2R 和 R2L 两个方向的交叉熵之和，比单独训练单向解码模型时的单个交叉熵还要小，这并不是因为双向解码带来多大的拟合提升，而正是信息泄漏的体现。

既然训练过程中把信息泄漏了，那为什么这样的模型还有用呢？我想，大概的原因在文章一开头的表格中就给出了。还是刚才的例子，L2R 端在预测最后一个字“你”的时候，会用到了 R2L 端所有的已知信息；而 R2L 端是从右往左逐字解码的，按照文章一开头的表格的统计数据，我们不难想象到，对于 R2L 端来说，倒数第一个字的预测准确率应该是最高的。

这样一来，假设 R2L 的倒数第一个字真的能以很高的准确率预测成功的话，那信息泄漏也变成不泄漏了——因为信息泄漏是因为我们人为地传入了标签，但如果预测的结果本身就跟标签一致，那泄漏也不再是泄漏了。

当然，原论文还提供了一个策略来缓解这个泄漏问题，大概做法是先用上述方式训练一版模型，然后对于每个训练样本，用模型生成对应的预测结果（伪标签），接着再去训练模型，这一次训练模型是传入伪标签来预测正确标签，这样就尽可能地保持了训练和预测的一致性。

文章小结

本文介绍并实现了一种 Seq2Seq 的双向解码机制，它将整个解码过程对称化了，从而在一定程度上使得生成质量更高了。个人认为这种改进的尝试还是有一定的价值的，尤其是对于追求形式美的读者来说。所以就将其介绍一番。

除此之外，文章也分析了这种双向解码可能存在的问题，给出了笔者自己的看法。敬请各位读者多多交流指教。

点击以下标题查看作者其他文章：

变分自编码器VAE：原来是这么一回事 | 附源码
再谈变分自编码器VAE：从贝叶斯观点出发
变分自编码器VAE：这样做为什么能成？
简单修改，让GAN的判别器秒变编码器
深度学习中的互信息：无监督提取特征
全新视角：用变分推断统一理解生成模型
细水长flow之NICE：流模型的基本概念与实现
细水长flow之f-VAEs：Glow与VAEs的联姻
深度学习中的Lipschitz约束：泛化与生成模型

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

? 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

? 投稿邮箱：

• 投稿邮箱：[email protected]

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 查看作者博客

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
9、汇编语言编程入门：从环境搭建到简单程序实现神经网络酱汇编语言 MEPIS GNU工具链
汇编语言编程入门：从环境搭建到简单程序实现1.数据存储介质问题解决在处理数据存储时，若要使用MEPIS系统，需确保有其可访问的存储介质。目前，MEPIS无法向采用NTFS格式（常用于Windows2000和XP工作站）的硬盘写入数据。不过，若硬盘采用FAT32格式，MEPIS就能进行写入操作。此外，MEPIS还能将文件写入软盘和大多数USB闪存驱动器。若工作站连接到局域网，还可通过FTP协议或挂载
IK分词初心myp
实现简单的分词功能，智能化分词添加依赖配置：4.10.4org.apache.lucenelucene-core${lucene.version}org.apache.lucenelucene-analyzers-common${lucene.version}org.apache.lucenelucene-queryparser${lucene.version}org.apache.lucenel
我不懂什么是爱，但我给你全部我拥有的香尧
因为怕黑，所以愿意陪伴在夜中行走的人，给他一点点的安全感。因为渴望温柔与爱，所以愿意为别的孩子付出爱与温柔。因为曾遭受侮辱和伤害，所以不以同样的方式施于其他人。如果你向别人出之以利刃，对方还了你爱与包容，真的不要感激他，真的不要赞美他。每一个被人伤害过的人心里都留下了一颗仇恨的种子，他也会想要有一天以眼还眼，以牙还牙。但他未让那颗种子生根发芽，他用一把心剑又一次刺向他自己，用他血荐仇恨，开出一朵温
实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
深入解析JVM工作原理：从字节码到机器指令的全过程
一、JVM概述Java虚拟机(JVM)是Java平台的核心组件，它实现了Java"一次编写，到处运行"的理念。JVM是一个抽象的计算机器，它有自己的指令集和运行时内存管理机制。JVM的主要职责：加载：读取.class文件并验证其正确性存储：管理内存分配和垃圾回收执行：解释或编译字节码为机器指令安全：提供沙箱环境限制恶意代码二、JVM架构详解JVM由三个主要子系统组成：1.类加载子系统类加载过程分为
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 高级扩展：自定义元素与性能优化实战练习时长两年半的程序员小胡 Flowable 流程引擎实战指南流程图 flowable BPMN 流程引擎 java
在前五篇文章中，我们从基础概念、流程设计、API实战、SpringBoot集成，到外部系统协同，逐步构建了Flowable的应用体系。但企业级复杂场景中，原生功能往往难以满足定制化需求——比如需要特殊的审批规则网关、与决策引擎联动实现动态路由，或是在高并发场景下优化流程引擎性能。本文将聚焦Flowable的高级扩展能力，详解如何自定义流程元素、集成规则引擎，并掌握大型系统中的性能调优策略。一、自定
Java | 多线程经典问题 - 售票 Ada54
一、售票需求1）同一个票池2）多个窗口卖票，不能出售同一张票二、售票问题代码实现（线程与进程小总结，请戳：Java|线程和进程，创建线程）step1：定义SaleWindow类实现Runnable接口，覆盖run方法step2：实例化SaleWindow对象，创建Thread对象，将SaleWindow作为参数传给Thread类的构造函数，然后通过Thread.start()方法启动线程step3
恩小希美食成长日记之118：“摘星女神”王亚平归来，她的婚姻，治愈了多少职场女性的痛恩小希
上周最为热闹的消息,无疑是神舟13号的三位航天英雄回来了.其中,最为瞩目的就是王亚平.她是我国首位进行太空行走的女航天员,也是为自己小女儿“摘星星的妈妈”。作为最受关注的职场妈妈，王亚平之所以能够成就这样一番事业，跟背后默默支持她的丈夫--赵鹏分不开。01王亚平1980年出生于山东烟台。父母都是地地道道的农民。王亚平这个姑娘从小体质好，一直练习长跑。高中时，空军来家乡招收女飞行员，作为体育班里唯一
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
2019-07-30 西域社群
天地之间，分外热闹。望热浪涛涛，引无数帅哥竞开撩，夕窈窕淑女皆露腰。一代天骄，群里热闹。不见美女露妖娆，唯见帅哥手机忙，唐诗宋词，广为流传，惜字如金，声情并茂。君悉吾析，今日之局有套路，昨日之生惹人恋。聚往矣，数风流人物还看今朝！！
在线人数统计业务设计（场景八股文）
业务问题在当经的网站中，在线人数的实时统计已经是一个必不可少的模块了，并且该统计功能最好能够按不同的时间间隔做的统计，现在需要你设计一个在线人数统计的模块，你应该怎么进行设计的呢？背景一个网校下会有多个学员。目前平台大概有十个，平台对应的网校大概五十几个，平均一个网校会有5w个用户，预计总人数为200w，最该学员的在线人数在10w左右。设计思路最开始的时候，想到的就是使用mysql直接实现，但是明
JAVA接口机结构解析秃狼 SpringBoot 八股文 Java java 学习
什么是接口机在Java项目中，接口机通常指用于与外部系统进行数据交互的中间层，负责处理请求和响应的转换、协议适配、数据格式转换等任务。接口机的结构我们的接口机的结构分为两个大部分，外部接口机和内部接口机，在业务的调度上也是通过mq来实现的，只要的目的就是为了解耦合和做差异化。在接口机中主要的方法就是定时任务，消息的发送和消费，其他平台调用接口机只能提供外部接口机的方法进行调用，外部接口机可以提供消
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
氧惠官方邀请码333777，氧惠邀请码怎么获得？氧惠邀请码有什么套路？知行导师
问：氧惠邀请码怎么获得？答：氧惠官方邀请码333777返点高佣金高真的高。问：氧惠邀请码有什么套路？答：氧惠官方邀请码333777返点高佣金高真的高。氧惠APP汇聚各大主流电商和生活服务平台优惠，展示全网全品类商品，满足网购爱好者对品质好货与极致性价比的追求，并同时享受大平台购物权益保障。满足用户日常吃喝玩乐衣食住行的聚合APP，独特的商业模式，响应国家号召，为实现全民共富而努力奋斗。氧惠邀请码3
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
12张思维导图读懂《关键对话》蜜蜂学堂
你一定遇到过下列情况：·向上司提出你精心设计的方案，却被泼了一头冷水。·要求下属加班，下属以沉默相对抗。·和家人谈“开源节流”，他却只当是耳边风。·要邻居遵守公德，对方却依然我行我素。·要你的另一半浪漫些，对方却还是像根木头一样。·请朋友还钱，朋友却总是找各种借口推托。当你遇到这些情况时，你是沉默以对，还是尖刻批评，抑或拍案而起？别觉得灰心丧气，因为大部分人都和你一样，在面对难以解决却又会对生活产
LVS+Keepalived实现高可用和负载均衡 2401_84412895 程序员 lvs 负载均衡运维
2、开启网卡子接口配置VIP[root@a~]#cd/etc/sysconfig/network-scripts/[root@anetwork-scripts]#cp-aifcfg-ens32ifcfg-ens32:0[root@anetwork-scripts]#catifcfg-ens32:0BOOTPROTO=staticDEVICE=ens32:0ONBOOT=yesIPADDR=10.1
深入理解汇编语言子程序设计与系统调用网安spinage 汇编语言开发语言汇编算法
本文将全面解析汇编语言中子程序设计的核心技术以及系统调用的实现方法，涵盖参数传递的多种方式、堆栈管理、API调用等关键知识点，并提供实际案例演示。一、子程序设计：参数传递的艺术1.寄存器传参：高效简洁.386.modelflat,stdcalloptioncasemap:none.dataxdd5;定义变量ydd6sumdd?.code;函数定义：addxy1addxy1procpushebpmo
大胆的宣传自己工匠良辰
#大胆的宣传自己原创：辉哥奇谭辉哥奇谭今天有朋友问：辉哥，发现你最近很多次宣传「知识星球」…我回答：对我自己用心做的东西有信心。我的观点是：我们每个人要把自己当成一件产品，精心的打磨，大胆的推销。如果我们一辈子都不敢面对自己这件产品，也不好意思去推销，怎样才能实现自己内心的梦想？怎样才能获得自由？怎样才能过上自己想过的生活？人生在世也许就是七八十年光景，我们最终都会败在「时光」脚下。每个人来到这世
【老房翻新】92平轻奢简约风，将和谐之美融入空间！没人比我更懂装修
在客厅空间中，设计师于冷静的空间基调中选用了层次感丰富的黄蓝色作为主要跳色，搭配黑白纹理的地毯与单椅，为空间增加了时尚摩登的气息。艺术感的单品突出点亮了空间，绿植的点缀、留白的软饰则增强了空间的呼吸性。点击此处添加图片说明文字点击此处添加图片说明文字设计师力求使每一处的设立都在空间中达到相互间的呼应与制衡，将艺术的跃动之美赋于空间之上，也将空间的和谐之美融于生活之中。点击此处添加图片说明文字点击此
京东家电年销售额是去年的1300%，主要来自于他.... Shanshan小课堂
经过大半个月角逐纠缠，时间终于来到6月18日，618全球年中购物节迎来最高潮。作为国内最大的家电零售平台，京东家电从18日0点开始，便开启了飞速狂奔的模式，仅8分钟销售额就突破20亿元!展现出强劲的增长势头与家电主场的王者霸气的同时，也让各家电品牌实现了爆发式增长，美的、海尔、格力、奥克斯均在3分钟内突破1亿元大关。在今年的618中，除了消费者已经熟悉的网购形式外，线上线下联动的融合模式、社交电商
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
二十四节气组诗谷雨离陌_6639
图片来源网络，若侵犯了你的权益，请联系我删除6.谷雨文/离陌背上行囊背上如行囊的我从此任行程马不停蹄今天家乡的田野春雨快马加鞭播下希望的种子观音不语目送着我和夏天一道在观音山出关图片来源网络，若侵犯了你的权益，请联系我删除你好啊，我是离陌，已然在懵懂中走过了16年的岁月，为了珍惜当下的每一秒，所以立志做一名终身学习者。文学对于我来说是一种信仰，诗歌是我的生命。人生之道，四通八达，即入文学，自当持之
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

Seq2Seq之双向解码机制 | 附开源实现

背景介绍

双向解码

模型实现

文章小结

你可能感兴趣的:(Seq2Seq之双向解码机制 | 附开源实现)