隨著Intel Pentium III處理器的發布,給程序設計人員又帶來了許多新的特性。利用這些新特性,程序員可以為用戶創造出更好的產品. Pentium III和Pentium III Xeon(至強處理器)的許多新特性,可以使她能夠比Pentium II和Pentium II Xeon處理器有更快的運行速度,這些新特性包括一個處理器序列號(unique processor ID)和新增SSE處理器指令集,這些新的指令集就像Pentium II在經典Pentium的基礎上添加的MMX指令集.

1. Data Swizzling

要利用Pentium III處理器SSE指令的加速功能也是要有一定的代價的.因為SSE指令只能操作她定義的新數據類型(128位).如果應用程序使用自己的數據類型格式,那麼在進行SSE指令操作之前要將他轉換為這種新數據類型,操作完成之後又要把他轉換回來.

這種把一種數據格式轉換到另一種數據格式的操作就稱為"data swizzling".


1.1 數據組織


struct point {

float x, y, z;
point dataset[...];

圖九 :結構數組

SSE的優點,就是可以同時對多個頂點的進行處理.這樣我們就必須要能夠方便的處理到表示多個頂點的數據(比如表示4個頂點x坐標的4個浮點數).這是可以實現的,我們可以把表示一個頂點的x、y和z三個坐標值分別集合在一起,然後應用程序對他們進行處理.要實現這些,應用程序必須重新組織數據到三個單獨的數組中,或者創建一個數組結構,結構中每個數組對應一個這樣的坐標值數組.這個數據結構也稱為SoA結構.(我是這樣理解的: 在不用SSE時是把表示一個頂點的三個坐標值組合到一個數據結構中,處理時一個值一個值的進行.而使用SSE以後,可以把所有點的各坐標值分別組合到3個數組中,處理時取出這樣一個數組的4個值同時執行).


struct point {

float *x, *y, *z;

圖十: 數組結構

2. 內存問題

2.1 對齊


聲名變量時可以指定__declspec編譯器標記來強制變量使用16字節邊界對齊,就像下面的例子代碼所示.下面的變量myVar在使用這個對齊標記以後將被強制到16字節邊界對齊.但當在直接聲明這個新數據類型變量(也就是SSE定義的128位新數據類型)時就不需要指定這個對齊標記了,編譯器會在遇到這個新數據類型時自動按16字節對齊.下面是對齊標記的用法 :

__declspec(align(16)) float[4] myVar;

2.2 動態分配



在運行時分配內存可以使用malloc或者new命令.默認情況下這兩種方法分配的指針都不是16字節邊界對齊的.因此我們必須把這個分配得到的指針轉換到16字節對齊,或者使用_mm_malloc函數來分配內存.使用_mm_malloc函數分配的內存塊是按16字節邊界對齊的. 和malloc函數有一個free函數一樣,_mm_malloc函數也有一個對應的函數_mm_free.分配內存塊使用_mm_malloc函數而清除(free)內存塊用_mm_free函數.

2.3 自定義數據類型




union sse4 {

__m128 m;

float f[4];


2.4 偵測CPU

使用SSE指令集需要有Pentium III處理器,應用程序一個首要的任務就是要去檢查有沒有Pentium III芯片.這可以用cpuid的指令完成.

想要cpuid工作,需要把eax寄存器設置為特定的值.這裡我們只想得到CPU的ID,需要把eax寄存器置為1然後調用cpuid指令. 下面給出檢查PentiumIII處理器是否存在的代碼.要想使下面的代碼工作,還必須包含fvec.h頭文件.

BOOL CheckP3HW()


_asm {

// Move the number 1 into eax - this will move the

// feature bits into EDX when a CPUID is issued, that

// is, EDX will then hold the key to the cpuid

mov eax, 1

// Does this processor have SSE support?


// Perform CPUID (puts processor feature info in EDX)

// Shift the bits in edx to the right by 26, thus bit 25

// (SSE bit) is now in CF bit in EFLAGS register.

shr edx,0x1A

// If CF is not set, jump over next instruction

jnc nocarryflag

// set the return value to 1 if the CF flag is set

mov [SSEHW], 1



return SSEHW;

SSE SDK還有一個Pentium III和SSE寄存器的異常模式.用下面的代碼也可以用來檢查是否有Pentium III處理器.要編譯下面的代碼,需要包含fvec.h頭文件.

// Checking for SSE emulation support
BOOL CheckP3Emu()


Fvec32 pNormal = (1.0, 2.0, 3.0, 4.0);

Fvec32 pZero = 0.0;

// Checking for SSE HW emulation

__try {

_asm {

// Issue a move instruction that will cause exception

// w/out HW support emulation

movups xmm1, [pNormal]

// Issue a computational instruction that will cause

// exception w/out HW support emulation

divps xmm1, [pZero]



// If there''s an exception, set emulation variable to false




return SSEEmu;

4. 附加示例

在這一節,我們將向你介紹幾個SSE指令集(Streaming SIMD Extensions)使用的例子.

4.1 數組操作


#include < FVEC.H >
#define ARRSIZE 400
__declspec(align(16)) float a[ARRSIZE], b[ARRSIZE], c[ARRSIZE];

4.1.1 Assembly Language


push esi;

push edi;

mov edi, a;

mov esi, b;

mov edx, c;

mov ecx, 100;

movaps xmm0, [edi];

movups xmm1, [esi];

mulps xmm0, xmm1;

movups [edx], xmm0;

add edi, 16;

add esi, 16;

add edx, 16;

dec ecx;

jnz loop;

pop edi;

pop esi;

4.1.2 Intrinsics

__m128 m1, m2, m3;
for ( int i = 0; i < ARRSIZE; i += 4 )

m1= _mm_loadu_ps(a+i);

m2= _mm_loadu_ps(b+i);

m3= _mm_mul_ps(m1,m2);

_mm_storeu_ps(c+i, m3);

4.1.3 C++

F32vec4 f1, f2, f3;
for ( int i = 0; i < ARRSIZE; i +=4 )

loadu(f1, a+i);

loadu(f2, b+i);

f3 = f1 * f2;

storeu(c+i, f3);

4.2 矢量3D



union sse4 {
  __m128 m;
  float f[4];
class sVector3 {
  sse4 val;
  sVector3(float, float, float);
  float& operator [](int);
  sVector3& operator +=(const sVector3&);
  float length() const;
friend float dot(const sVector3&, const sVector3&);


sVector3::sVector3(float x, float y, float z) {
  val.m = _mm_set_ps(0, z, y, x);
float& sgmVector3::operator [](int i) {
  return val.f[i];
sVector3& sVector3::operator +=(const sVector3& v) {
  val.m = _mm_add_ps(val.m, v.val.m);
  return *this;
float sVector3::length() const {
  sse4 m1;
  m1.m = _mm_sqrt_ps(_mm_mul_ps(val.m, val.m));
  return m1.f[0] + m1.f[1] + m1.f[2];
float dot(const sVector3& v1, const sVector3& v2) {
  sVector3 v(v1);
  v.val.m = _mm_mul_ps(v.val.m, v2.val.m);
  return v.val.f[0] + v.val.f[1] + v.val.f[2];

4.3 4x4矩陣



float const sEPSILON = 1.0e-10f;
union sse16 {
  __m128 m[4];
  float f[4][4];
class sMatrix4 {
  sse16 val;
  sse4 sFuzzy;
  float& operator()(int, int);
  sMatrix4& operator +=(const sMatrix4&);
  bool operator ==(const sMatrix4&) const;
  sVector4 operator *(const sVector4&) const;
  float RCD(const sMatrix4& B, int i, int j) const;


sMatrix4::sMatrix4(float* fv) {
  val.m[0] = _mm_set_ps(fv[3], fv[2], fv[1], fv[0]);
  val.m[1] = _mm_set_ps(fv[7], fv[6], fv[5], fv[4]);
  val.m[2] = _mm_set_ps(fv[11], fv[10], fv[9], fv[8]);
  val.m[3] = _mm_set_ps(fv[15], fv[14], fv[13], fv[12]);
  float f = sEPSILON;
  sFuzzy.m = _mm_set_ps(f, f, f, f);
float& sMatrix4::operator()(int i, int j) {
  return val.f[i][j];
sMatrix4& sMatrix4::operator +=(const sMatrix4& M) {
  val.m[0] = _mm_add_ps(val.m[0], M.val.m[0]);
  val.m[1] = _mm_add_ps(val.m[1], M.val.m[1]);
  val.m[2] = _mm_add_ps(val.m[2], M.val.m[2]);
  val.m[3] = _mm_add_ps(val.m[3], M.val.m[3]);
  return *this;
bool sMatrix4::operator ==(const sMatrix4& M) const {
  int res[4];
  res[0] = res[1] = res[2] = res[3] = 0;
  res[0] = _mm_movemask_ps(_mm_cmplt_ps(_mm_sub_ps(
    _mm_max_ps(val.m[0], M.val.m[0]),
    _mm_min_ps(val.m[0], M.val.m[0])), sFuzzy.m));
  res[1] = _mm_movemask_ps(_mm_cmplt_ps(_mm_sub_ps(
    _mm_max_ps(val.m[1], M.val.m[1]),
    _mm_min_ps(val.m[1], M.val.m[1])), sFuzzy.m));
  res[2] = _mm_movemask_ps(_mm_cmplt_ps(_mm_sub_ps(
    _mm_max_ps(val.m[2], M.val.m[2]),
    _mm_min_ps(val.m[2], M.val.m[2])), sFuzzy.m));
  res[3] = _mm_movemask_ps(_mm_cmplt_ps(_mm_sub_ps(
    _mm_max_ps(val.m[3], M.val.m[3]),
    _mm_min_ps(val.m[3], M.val.m[3])), sFuzzy.m));
  if ( (15 == res[0]) && (15 == res[1])
      && (15 == res[2]) && (15 == res[3]) )
    return 1;
  return 0;
sVector4 sMatrix4::operator *(const sVector4& v) const {
  return sVector4(
    val.f[0][0] * v[0] + val.f[0][1] * v[1]
      + val.f[0][2] * v[2] + val.f[0][3] * v[3],
    val.f[1][0] * v[0] + val.f[1][1] * v[1]
      + val.f[1][2] * v[2] + val.f[1][3] * v[3],
    val.f[2][0] * v[0] + val.f[2][1] * v[1]
      + val.f[2][2] * v[2] + val.f[2][3] * v[3],
    val.f[3][0] * v[0] + val.f[3][1] * v[1]
      + val.f[3][2] * v[2] + val.f[3][3] * v[3]);
float sMatrix4::RCD(const sMatrix4& B, int i, int j) const {
  return val.f[i][0] * B.val.f[0][j] + val.f[i][1] * B.val.f[1][j]
    + val.f[i][2] * B.val.f[2][j] + val.f[i][3] * B.val.f[3][j];


