wyj7260

多标量处理器 Multiscalar(翻译自文章Multiscalar Processors)

多标量处理器 Multiscalar

在多标量处理器中，程序被分成由软硬件组合而成的任务的集合。这些任务被分配给处理器内的并行单元进行处理。论文从多标量处理器的设计思想，多标量程序的结构，多标量处理器的硬件结构，多标量处理器周期分配，多标量处理器模型性能评估五个方面介绍了多标量处理器。

多标量的设计思想

多标量处理器一种新的处理器实现范例，能够从普通的高级语言中提取大量的指令级并行。

多标量处理器微架构

多标量处理器的一种微架构如下图一所示：

图1 多标量处理器的一种架构

我们可以将多标量处理器理解成许多处理单元的集合，通过定序器给处理单元分配任务。一个程序被分成由软硬件组合而成的任务的集合，一个任务是CGF的一部分，这个任务的执行对应着一些连续的动态指令序列，通过注释器，程序被静态的划分成多个任务。

多标量处理器的执行过程

多标量处理器的一个目标是非顺序执行控制流图（CGF）。下图是一个CGF的示例:

图2 CGF示例

多标量处理器是通过确立一个大的准确的动态指令窗口，提取和运行独立的指令。多标量是大步的执行CGF，不是一条指令一条指令的执行，也不是一个基本块一个基本快的执行，而是一个任务一个任务的执行。

执行的过程是多标量处理器将任务T1赋给一个处理单元，而不用管任务的内容是什么，不用管任务T1和其他任务之间是否存在数据依赖或是是否存在控制依赖，然后预测任务T1执行完后将会执行哪个任务T2，然后将T2付给另一个处理单元（由尾指针指示）。以此类推，直到没有空闲的处理单元。可以通过一个例子来看多标量的处理过程。一个程序被划分成五个基本块五个基本块，A、B、C、D、E，如下图4所示：

图3程序的基本块。

其中基本块的上标和下标分别代表外层循环和内层循环。每一个外层循环可以看成一个任务，赋给一个处理单元。那么处理器就可以同时有三个循环可以并行执行。因此处理器每个周期可以并行的执行三条指令，但是为了保证正确执行，任务执行必须保持顺序语义。

多标量程序

多标量程序示例

下面这是一段普通的高级语言代码：

这段程序是重复的从buffer中拿出一个符号（symbol），向下检查链表中有没有和这个符号匹配的符号。如果匹配，那么就进行处理，如果不存在匹配的符号，就在链表中添加一个记录，表示这个符号。

通过对这段普通的程序进行处理，可以将普通的高级语言的程序转化为多标量程序。

对程序添加任务描述符和标志位，可以得到多标量程序。

多标量程序的特点

多标量程序里维持的三种不同信息：

1．构成任务的真实的代码：这里指ISA（指令集架构）。

ISA对多标量的设计影响很小，所以现有的指令集架构可以基本不用做大的修改就可以使用

2．CGF结构的特点，这里主要指定序器

3.不同任务之间的通信特点。

定序器需要一些信息来快速执行CGF，这些信息主要指后继任务的信息，这新信息被静态的确定，并被保存才任务描述器中。为了协同不同任务之间的执行，有必要描述每个任务的特色，也就是每个任务产生的值，每个任务需要的值。编译器执行静态分析CGF的操作，提供create mask的值（这个任务将产生的值）。译器需要标记任务中最后一条更新寄存器的指令最后一条指令（退出指令）分别为forward位和stop位标记。

需要的主要硬件

多标量处理器需要添加的硬件主要有两个：定序器（Sequencer）和地址解析寄存器（ABR）。ABR的主要任务是存储内存投机操作，检查内存依赖，进行初始化修正工作，标记load和store操作（用load和store位）。

检查load和store位可以检查依赖，若后面的一个任务取了内存地址的值，但是这个值前一个任务还没有产生，则产生内存依赖。

并行执行时数据依赖问题

需要注意的是不同任务的指令虽然是分离的，但是不是独立的。

程序顺序执行时，值是放在存储地址上，也就是内存和寄存器上。因为顺序执行时，将存储地址看成单一的寄存器和内存地址，同时也有时间上的顺序，就是说第二个循环用到的数据，是第一个循环产生的，这种顺序不能改变，所以多标量也必须保持这种观点。

那么多标量处理器执行时应该考虑指令之间的依赖关系。指令之间是存在控制依赖和数据依赖的，所以一个问题就摆在了我们面前，任务之间是如何通信，如何解决这些依赖。

解决指令之间的依赖问题，维持程序的顺序依赖主要有下列两种策略。第一种策略是保证任务内是顺序的，第二种策略是处理单元之间保持一个宽松的顺序语义，反过来给任务之间施加了一个顺序，也就是处理单元连成一个环，头执行第一个任务，尾执行最后一个任务。

数据依赖主要有两种，一是寄存器之间的依赖，另一个是内存依赖。

寄存器依赖

解决寄存器依赖是控制逻辑通过寄存器组构成的保留站来同步前面任务产生的值和后面任务需要的值来解决的。Creat mask用来存放前一个任务产生的值。通过图一所示的那个单向环传递产生的值。

当前面的任务产生的值传给了后面的任务时，保留站就应该清空

当前面的任务的值还没有产生出来时，后面的任务需要等待。

内存依赖

至于存储器，情况就不太一样了。不同于寄存器，存储器不能提前精确的决定一个任务什么时候产生值或者什么时候需要值。

如果存储器知道需要的值的话，那么就可以向寄存器似的，经过同步，获得前一个任务产生的值。

但是大多数情况存储器是不知道的需要的值。有两种策略解决这个问题，保守的策略和积极的策略。保守的策略就是等待直到前一个任务产生正确的值，这样程序就能维持顺序语义。积极的策略就是：通过投机执行，在程序执行过程中，动态检查，如果发现错误，即程序使用了错误的数据，那么就取消程序，那么后继的任务也被取消。多标量使用的是积极的策略。

多标量的执行过程是投机执行，将其看做投机执行的原因是多标量执行过程中存在控制投机和数据依赖。控制投机是预测下一个任务，而数据依赖指的是程序可能用错误数据。

多标量周期分配

我们现在来看一个更加细节的问题，也就是多标量的执行时的周期分配问题。最好的情况是处理器执行的周期都是有效周期，然而这种最好的情况是不可能的，主要是因为并非所有的周期都是有效周期。多标量处理器中存在三种周期：无用周期，没有计算的周期，空闲周期。

无用周期

处理单元使用了错误的数据，或者执行了错误的预测分支。

没有计算的周期

处理单元在这个周期等待，等待前驱任务产生的值，或者等待同一个任务产生的值。

空闲周期

没有给处理单元分配任务（大多数情况是由于取消任务时，重新分配任务造成的）。第三种情况忽略不计。这里需要区分没有计算的周期（已经分给任务）和空闲周期（没有分配给任务）。

从周期分配的角度提高系统性能

既然多标量周期可以分为以上三种，所以可以尽可能能的提高有效周期的数量，来提高处理的性能。

对于无用周期，那么处理单元必须取消已经执行了的操作以保证正确，为了减小这种回滚带来的代价，应该做如下两种操作。第一，通过同步数据通信来减低取消操作的机会。第二，提早决定，防止进行了更多的无效操作

产生没有计算的周期原因是主要是任务内依赖，任务间依赖，取平衡。其中任务内依赖可以通过代码调度，乱序执行，非阻塞式cache解决。

性能评价

模拟环境特征

模拟器执行了多标量处理器的所有操作，执行了除了系统调用之外的所以程序代码。

处理单元5级流水结构，指令执行可以是有序和乱序。

存储器访存时间：访问前四个字10周期，以后每四个字10周期

定序器：包含1024个直接映射的cache。

基准程序

加速比较高的基准程序

Eqntott：eqntott中的大部分指令在函数cmppt中，是一个循环，编译器自动的包含整个大的循环，允许不同的处理单元执行不同的迭代。

Tomcatv：几乎所有的时间花在一个大的循环，这个循环的每个迭代都是独立的，因此我们获得了很好的加速。

Cmp和wc：几乎所有的时间均花在一个循环，循环内包含其他的小循环。

Example：80%的时间花在找那个那段代码上（就是这一部分演示的那个代码，找symbol的那个），因为外层循环的迭代几乎是独立的，所以加速比也不错。

加速比较差的基准程序

Compress：几乎所有的时间花在一个大的单一的循环上，包含了一个复杂的控制流。整个程序包含一个很深的关键路径，并且这个程序需要很大的hash表，导致了cache不命中率比较大，所以加速比不是很好。

Gcc和xlisp：取消任务（因为预测错误和存储器依赖）导致性能降低。多标量执行时间的花销（包括指令延时和数据cache延时）也导致性能的降低。

结论：

这篇论文主要描述了多标量处理模式，这是利用细粒度并行也就是指令级并行的一种新模式。

多标量处理器使用软硬件结合的方式从普通的程序利用并行。它通过程序控制流图把程序划分任务，而不用检查任务的内容，任务被分配给了不同的处理单元，每一个处理单元取指和执行分给它的任务。

当作者在研究多标量处理器时，多标量处理器还存在一些有待改进的地方。比如继续改进编译器，使之和硬件更好的配合。

作者认为多标量处理器性能问题还不是很好，是由于他们的解决方法还是有待于改进。希望是随着软件支持的改进，和更合理的硬件，多标量处理器能够更好的利用指令级并行，以至于超过其他的模式。

你可能感兴趣的:(Multiscalar)

多标量处理器 Multiscalar(翻译自文章Multiscalar Processors) wyj7260 Multiscalar
多标量处理器Multiscalar在多标量处理器中，程序被分成由软硬件组合而成的任务的集合。这些任务被分配给处理器内的并行单元进行处理。论文从多标量处理器的设计思想，多标量程序的结构，多标量处理器的硬件结构，多标量处理器周期分配，多标量处理器模型性能评估五个方面介绍了多标量处理器。多标量的设计思想多标量处理器一种新的处理器实现范例，能够从普通的高级语言中提取大量的指令级并行。多标量处理器微架构多标
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S