simd 第15页

ARM处理器NEON编程及优化技巧—左移右移等移位操作

ARM的NEON协处理器技术是一个64/128-bit的混合SIMD架构，用于加速包括视频编码解码、音频解码编码、3D图像、语音和图像等多媒体和信号处理应用。

ceasar11·2014-02-19 11:00

SSE Intrinsics各函数介绍

fengbingchun·2014-02-16 19:00

SSE2介绍及其简单用法举例

SSE2，全名为StreamingSIMDExtensions2，是一种IA-32架构的SIMD指令集。SSE2是在2001年随着Intel发表第一代Pentium4处理器也一并推出的指令集。

fengbingchun·2014-01-19 21:00

SSE2 Intrinsics各函数介绍

fengbingchun·2014-01-18 21:00

ARM Cortex系列(A8/A9/A15/A7) NEON多媒体处理SIMD引擎优化

Cortex-A9的NEON多媒体处理器是基于ARMv7的SIMD（SingleInstructionMultipleData）和向量浮点VFPv3（VectorFloating-Point）指令集的，

yxnyxnyxnyxnyxn·2014-01-14 17:00

vs2010 调试模式下XMMatrix赋值造成越界访问

本来想用下新的simd代替下d3dmatrix结果遇到vs2010这奇葩bug，果断为了不影响后续，暂时先不用xmath了，全套完

x954818696·2014-01-10 22:00

跨平台使用Intrinsic函数范例1——使用SSE、AVX指令集处理单精度浮点数组求和（支持vc、gcc，兼容Windows、Linux、Mac）

本文面对对SSE等SIMD指令集有一定基础的读者，以单精度浮点数组求和为例演示了如何跨平台使用SSE、AVX指令集。

ceasar11·2014-01-09 10:00

图像处理的简单优化-06: SIMD

关于SIMD及为CPU做优化的指引文章请参考这里。内存的特殊要求SIMD使用的内存必须在16字节边界对齐，通过使用_mm_malloc()函数，很容易就实现。

igame·2013-12-31 09:09

图像处理的简单优化-06: SIMD

关于SIMD及为CPU做优化的指引文章请参考这里。内存的特殊要求SIMD使用的内存必须在16字节边界对齐，通过使用_mm_malloc()函数，很容易就实现。

igame·2013-12-31 09:00

单数据多指令(SIMD) MMX SSE AVX

概述SIMD是指单指令多数据技术，它已经成为Intel处理器的重要性能扩展。

dellme99·2013-12-30 11:05

使用STL vector 作为XNAMath快速灵活的SIMD数据容器

原文链接: http://www.qsoftz.com/mirza/?p=59简介这篇文章是关于如何将传统的STLvector作为XNAMath类型容器使用.因为SSE/SSE2指令集要求数据必须对齐到16字节的边界,所以vector的分配器必须替换成一个可以对齐的内存分配器(x86架构).本文适用于想在代码中引入新鲜空气的x86Windows开发者,你将会看到如何把强大的XNAMath和灵活的S

xoyojank·2013-12-29 18:00

Intrinsics头文件与SIMD指令集、Visual Studio版本对应表!

VSVisualStudiointrin.hAll Architectures8.02005mmintrin.hMMX intrinsics6.06.0 SP5+PP5xmmintrin.hStreaming SIMD

dj0379·2013-12-12 02:00

支持NEON指令集的android编译设置

支持NEON指令集android编译设置从ARMv7开始ARM提供高级单指令多数据(SIMD)扩展亦称NEON技术

zhenwenxian·2013-12-01 15:00

网络工程师突击五

***********网络工程速记********阵列处理机属于SIMD计算机。

yxh1157686920·2013-11-03 21:33

网络工程师突击五

***********网络工程速记********阵列处理机属于SIMD计算机。

yxh1157686920·2013-11-03 21:33

OpenCL kernel优化——线程数目的确定

workgroup和work-item在数目上有以下几点影响：1.本地内存和全局内存有较多数据互访的，尽量减少workgroup的数量，应尽可能接近设备上计算单元或者SIMD

eric41050808·2013-10-10 11:00

用PGCL为安卓编写有效的OpenCL代码

在前一篇文章中，我们介绍了创建一款可用于OpenCL的安卓应用所的安卓应用所需的基本步骤，这款应用可与作为OpenCL计算设备的NEON/SIMD扩展程序并行运行于多个ARMCPU内核。

zhangoi391·2013-09-11 14:00

OpenMPI、MapReduce简单比较

因此适合在SIMD及SPMD并行计算机上运行，例如在向量机上通过数据并行求解问题。消息传递即各个并行执行

biggoodbobo·2013-08-30 10:00

arm学习笔记一(arm概述及其基本编程模型)

体系结构的版本及命名方法arm体系统构的6个版本的特点arm体系的变种1thumb指令集（t变种）2长乘法指令（M变种）3增强型dsp指令（E变种）4java加速器jazelle（J变种）5arm媒体功能扩展(SIMD

retacn_yue·2013-08-24 10:00

基于SIMD指令的内积运算

内积运算是向量投影、测度计算中的常见运算，本节给出内积运算的SIMD加速版本，需要引用头文件“#include”。

u011747351·2013-08-23 20:00

windows7 64位机上，libjpeg-turbo的安装和使用

libjpeg-turbo是对libjpeg的扩展，支持SIMD指令，如X86架构的MMX、SSE、SSE2、3DNOW，ARM架构的NEON，在对jpeg进行编码和解码的过程中能提高速度。

fengbingchun·2013-08-22 10:00

自定义宏实现任意字节对齐

使用MMX、SSE、AVX等SIMD指令集进行汇编加速时，若地址是8、16、32字节对齐时，能使用对齐的数据读取、写入指令，从而进一步优化速度。

cmsbupt·2013-08-19 14:00

为不规则应用设计新一代超大型多线程架构

这些应用需求推动着处理器设计往更快的SIMD（单指令，多数据）架构单

Antonino Tumeo, Simone Secchi, and Oreste Villa·2013-08-02 00:00

面向对象vs面向数据

http://blog.csdn.net/xoyojank/article/details/8739957要点摘录：SIMD,Cachefriendly其实大多数做引擎的人都有考虑,好多人都会说"SSE

niexiao2008·2013-07-26 14:00

Intrinsic 基础入门【1】

intel-intrinsics-guideMicrosoft官方网站上关于Intrinsic的介绍：http://msdn.microsoft.com/zh-cn/library/vstudio/tzkfha43(v=vs.100).aspx各种SIMD

cmsbupt·2013-07-18 13:00

通用处理器的并行设计思想

从底层来看，采用SIMD技术是让数据实现并行，通过让一条指令处理多组数据，减少总的指令数，提高程序的执行效率。采

益慧凌云·2013-06-03 21:58

NEON的一些总结

blog.sina.com.cn/s/blog_4ae178ba01013yax.html2、http://blog.csdn.net/conowen/article/details/72559203、【整理】SIMD

lyuan1314·2013-05-21 11:00

GCC中的Intrinsics头文件与SIMD指令集、宏、参数的对应表

原文地址：http://www.cnblogs.com/zyl910/archive/2012/08/27/intrin_table_gcc.html列名解释——GCC470：GCC4.7.0(Fedora17)。/usr/lib/gcc/i686-redhat-linux/4.7.0/include/。GCC462：GCC4.6.2(MinGW)。\lib\gcc\mingw32\4.6.2\i

nancygreen·2013-05-03 16:00

A Simple Wrapper of DirectX Math

ASimpleWrapperofDirectXMath关于DirectXMathDirectXMath最初叫做XNAMath，是一个跨平台的C++数学库，全SIMD指令优化，目前的版本是3.03，支持x86

clayman·2013-05-01 14:00

ARM Cortex-A系列处理器

Cortex-A15)的基本特性，基本上都可以支持ARM、Thumb-2、Thumb指令集，支持Java加速扩展的Jazelle技术、ThustZone的安全扩展以及针对浮点FPU的VFP硬件扩展和并行多数据的SIMD

jgdu1981·2013-04-28 12:00

android 编译libjpeg

android手机上实践了一下，需要40-60个ms，这个虽然比以前的300ms好多了，但是还是不能满足我的要求，进一步查看了网上信息，libjpeg-turbo是为x86和x86-64进行优化的使用了SIMD

jwzhangjie·2013-04-13 10:00

Between SISD and SIMD: a bridge not too far

GPGPU, since its emerge in 2007 by nVidia, has been continuously changing the paradigm of software/hardware computing. It has already been proven to be a very competitive candidate in supercomputing,

lonelydove·2013-04-06 14:00

Android NDK使用NEON优化，SIMD优化

有的时候其实网络上资料比较多，但是自己很难找到。譬如我一直想要做AndroidNDK的源代码优化，知道可以利用NEON，可以利用汇编进行。但是却找不到正确的门路。所以耗费了很多时间。在针对C代码的优化上，实在是收益甚微，对某个函数进行的代码优化，对整个系统来说，影响一般很小（一方面代码本来在优化上性能的提升倍数不多，另一方面单个函数在整个系统中占用的比重都很低），所以优化了几天也见不到明显的

luofl1992·2013-04-04 17:00

arm学习笔记一(arm概述及其基本编程模型)

体系结构的版本及命名方法arm体系统构的6个版本的特点arm体系的变种1thumb指令集（t变种）2长乘法指令（M变种）3增强型dsp指令（E变种）4java加速器jazelle（J变种）5arm媒体功能扩展(SIMD

retacn_yue·2013-02-16 21:00

arm学习笔记一(arm概述及其基本编程模型)

体系统构的6个版本的特点 arm体系的变种 1 thumb指令集（t变种） 2 长乘法指令（M变种） 3 增强型dsp指令（E变种） 4 java加速器jazelle（J变种） 5 arm媒体功能扩展(SIMD

岳振华·2013-02-16 21:00

SPEEX重采样分析（一）

SPEEX重采样分析（一）转载自:http://blog.csdn.net/ahyswang/article/details/7675390简介算法速度快SIMD（SSE）指令支持低内存高质量该算法是基于最原始的重采样算法

牵着老婆满街逛·2013-02-05 12:00

SIMD、MIMD

费林分类法单一指令流多指令流单资料流单指令单数据流（SISD）多指令单数据流（MISD）多资料流单指令多数据流（SIMD）多指令多数据流（MIMD）单指令多数据流（SingleInstructionMultipleData

pkgfs·2012-12-31 14:00

Flynn分类法

单指令流多数据流（SIMD）——单个的指令流作用于多于一个的数据流上。例如有数据

skywalker_leo·2012-12-28 09:00

NEON 技术

ARM® NEON™ 通用 SIMD 引擎可有效处理当前和将来的多媒体格式，从而改善用户体验。

wizardmly·2012-12-25 09:00

Intrinsics头文件与SIMD指令集、Visual Studio版本对应表!

Intrinsics头文件与SIMD指令集、VisualStudio版本对应表!

feixiang_john·2012-12-14 15:00

【D3D11游戏编程】学习笔记二：XNAMath之XMVECTOR

在D3D11版中，3D数学库被单独隔离出来，为XNAMath库，功能和之前基本一样，但是建立在SIMD指令上，以更好地

BonChoix·2012-12-11 02:00

【D3D11游戏编程】学习笔记二：XNAMath之XMVECTOR

在D3D11版中，3D数学库被单独隔离出来，为XNA Math库，功能和之前基本一样，但是建立在SIMD指令上，以更好地利用Window

nanjingjiangbiao_T·2012-12-11 02:00

MMX开发文档

该技术使用了单指令多数据技术(SIMD)技术，以并行方式处理多个数据元素，从而提高了多媒体和通讯软件的运行速度。MMX™指令集增加了57条新的操作码和一个新的64位四字数据类型。

zhoujunming·2012-11-30 09:00

谷歌开源 Supersonic 查询引擎

Supersonic提供了一组大量使用缓存相关算法、SIMD指令和矢量化操作的转换原语，并可以利用现代的超线程 CPU的优势。Supersonic主要被用来作为各种数据仓库项目的后端。

lbxhappy·2012-11-21 11:00

并行计算种类---读书笔记

现代CPU的每个核心都采用了超标量、超级流水线、超长指令字、SIMD、超线程、分支预测等手段发掘程序内的指令级并行。

fulva·2012-11-20 17:00

[C] 跨平台使用Intrinsic函数范例3——使用MMX、SSE2指令集处理 32位整数数组求和

本文面对对SSE等SIMD指令集有一定基础的读者，以32位整数数组求和为例演示了如何跨平台使用MMX、SSE2指令集。

zyl910·2012-10-26 21:00

[C] 跨平台使用Intrinsic函数范例2——使用SSE2、AVX指令集处理双精度浮点数组求和

本文面对对SSE等SIMD指令集有一定基础的读者，以双精度浮点数组求和为例演示了如何跨平台使用SSE2、AVX指令集。支持vc、gcc编译器，在Windows、Linux、Mac这三大平台上成功运行。

zyl910·2012-10-26 18:00

[C] 跨平台使用Intrinsic函数范例1——使用SSE、AVX指令集处理单精度浮点数组求和（支持vc、gcc，兼容Windows、Linux、Mac）

本文面对对SSE等SIMD指令集有一定基础的读者，以单精度浮点数组求和为例演示了如何跨平台使用SSE、AVX指令集。

zyl910·2012-10-22 22:00

使用Google Supersonic查询列存储数据库

而且Google宣称，因为“大量使用了高速缓存感知算法、SIMD指令和矢量化执行，使之能够开发出现代超级流水线处理器的能力与资源”，这些数据变换原语“超级快速”。

昵称4·2012-10-22 06:00

使用Google Supersonic查询列存储数据库

而且Google宣称，因为“大量使用了高速缓存感知算法、SIMD指令和矢量化执行，使之能够开发出现代超级流水线处理器的能力与资源”，这些数据变换原语“超级快速”。

Abel Avram·2012-10-22 00:00

推荐频道

simd

ARM处理器NEON编程及优化技巧—左移右移等移位操作

SSE Intrinsics各函数介绍

SSE2介绍及其简单用法举例

SSE2 Intrinsics各函数介绍

ARM Cortex系列(A8/A9/A15/A7) NEON多媒体处理SIMD引擎优化

vs2010 调试模式下XMMatrix赋值造成越界访问

跨平台使用Intrinsic函数范例1——使用SSE、AVX指令集 处理 单精度浮点数组求和（支持vc、gcc，兼容Windows、Linux、Mac）

图像处理的简单优化-06: SIMD

图像处理的简单优化-06: SIMD

单数据多指令(SIMD) MMX SSE AVX

使用STL vector 作为XNAMath快速灵活的SIMD数据容器

Intrinsics头文件与SIMD指令集、Visual Studio版本对应表!

支持NEON指令集的android编译设置

网络工程师突击 五

网络工程师突击 五

OpenCL kernel优化——线程数目的确定

用PGCL为安卓编写有效的OpenCL代码

OpenMPI、MapReduce简单比较

arm学习笔记一(arm概述及其基本编程模型)

基于SIMD指令的内积运算

windows7 64位机上，libjpeg-turbo的安装和使用

自定义宏实现任意字节对齐

为不规则应用设计新一代超大型多线程架构

面向对象vs面向数据

Intrinsic 基础入门【1】

通用处理器的并行设计思想

NEON的一些总结

GCC中的Intrinsics头文件与SIMD指令集、宏、参数的对应表

A Simple Wrapper of DirectX Math

ARM Cortex-A系列处理器

android 编译libjpeg

Between SISD and SIMD: a bridge not too far

Android NDK使用NEON优化，SIMD优化

arm学习笔记一(arm概述及其基本编程模型)

arm学习笔记一(arm概述及其基本编程模型)

SPEEX重采样分析（一）

SIMD、MIMD

Flynn分类法

NEON 技术

Intrinsics头文件与SIMD指令集、Visual Studio版本对应表!

【D3D11游戏编程】学习笔记二：XNAMath之XMVECTOR

【D3D11游戏编程】学习笔记二：XNAMath之XMVECTOR

MMX开发文档

谷歌开源 Supersonic 查询引擎

并行计算种类---读书笔记

[C] 跨平台使用Intrinsic函数范例3——使用MMX、SSE2指令集 处理 32位整数数组求和

[C] 跨平台使用Intrinsic函数范例2——使用SSE2、AVX指令集 处理 双精度浮点数组求和

[C] 跨平台使用Intrinsic函数范例1——使用SSE、AVX指令集 处理 单精度浮点数组求和（支持vc、gcc，兼容Windows、Linux、Mac）

使用Google Supersonic查询列存储数据库

使用Google Supersonic查询列存储数据库

跨平台使用Intrinsic函数范例1——使用SSE、AVX指令集处理单精度浮点数组求和（支持vc、gcc，兼容Windows、Linux、Mac）

网络工程师突击五

网络工程师突击五

[C] 跨平台使用Intrinsic函数范例3——使用MMX、SSE2指令集处理 32位整数数组求和

[C] 跨平台使用Intrinsic函数范例2——使用SSE2、AVX指令集处理双精度浮点数组求和

[C] 跨平台使用Intrinsic函数范例1——使用SSE、AVX指令集处理单精度浮点数组求和（支持vc、gcc，兼容Windows、Linux、Mac）