yuv 到 32 位 rgb 的快速轉換演算法基mmx 實現 (轉)[@more@]

/// to:baojinlong@sohu.com">baojinlong@sohu.com

// if have any problem, contact me.

// the asm function nearly have the same speed as mmx!

/////// asm code

unsigned char *clip;

void init_clip()
{
unsigned char *p;
p=(unsigned char*)malloc(2048);
clip=p+1024;
for (int i=-1024;i<1024;i++)
{
clip[i]=(i>=0)? ((i<=255)?i:255):0;
}
}

// r=1.164(y-16)+1.596(v-128)
// g=1.164(y-16)-0.391(u-128)-0.813(v-128)
// b=1.164(y-16)+2.018(u-128)

const static int p_1164 = 75;
const static int p_1596 = 102;
const static int p_0391 = 25;
const static int p_0813 = 52;
const static int p_2018 = 129;

const static int ooffooff=0x00ff00ff;
const static int ffooffoo=0xff00ff00;

const static short p_223[]= {25632,25632};
const static short p_135[]= {4349,4349};
const static short p_277[]= { 23906,23906};

void paroll_yuv2rgb(unsigned char *y,
unsigned char *u,
unsigned char *v,
unsigned char *r,
int h ,
int w)
{
// h: height of y matrix
// w: width of y matrix
// chroma type:: must be 420

// r=1.164*y + 1.596*v -223
// g=1.164*y - 0.391*u - 0.813*v +135.9
// b=1.164*y + 2.018*u -276.93

int py1164_20;
int py1164_31;
int pv1596;
int pv0813;
int pu0391;
int pu2018;
int pr20,pr31,pg20,pg31,pb20,pb31;

int rw=w<<2;
int rws16=rw-16;
int lw=w>>2;
int lh=h>>1;
int lw0=lw;
int iclip=(int)clip;

__asm
{
mov esi,y
llw:
mov edi,v

add [v],2

movzx ebx,byte ptr [edi]
movzx eax,byte ptr [edi+1]

mov edi,u
add [u],2

shl eax,16
or eax,ebx // 00 v1 00 v0

movzx ecx,byte ptr [edi+1]

mov ebx,eax
mul [p_0813]
shl ecx,16
mov [pv0813],eax
mov eax,ebx
mul d ptr p_1596

movzx ebx,byte ptr [edi]

mov [pv1596],eax

mov eax,ecx
or eax,ebx // 00 u1 00 u0

mov ecx,[esi] // y3 y2 y1 y0

mov ebx,eax
mul dword ptr p_0391

mov edi,ecx

mov [pu0391],eax

mov eax,ebx
mul dword ptr p_2018

and ecx,ooffooff // 0 y2 0 y0
mov [pu2018],eax

mov eax,ecx
mul [p_1164] // y2 y0
and edi,ffooffoo // y3 0 y1 0
mov [py1164_20],eax
mov eax,edi
shr eax,8 // 0 y3 0 y2

mul [p_1164] // y3 y1

mov ecx,[pv1596]

mov ebx,[py1164_20]

mov edx,dword ptr p_223

mov [py1164_31],eax

add eax,ecx
add ebx,ecx
shr eax,1
shr ebx,1
add eax,edx
add ebx,edx
shl eax,1
shl ebx,1

mov [pr31],eax // r3 r1
mov [pr20],ebx // r2 r0

mov ecx,[pu2018]
mov eax,[py1164_20]
mov ebx,[py1164_31]
mov edx,dword ptr [p_277]
add eax,ecx
add ebx,ecx
shr eax,1
shr ebx,1
add eax,edx
add ebx,edx
shl eax,1
shl ebx,1
mov [pb20],eax
mov [pb31],ebx

mov eax,[py1164_20]
mov ebx,[py1164_31]
mov ecx,[pu0391]
mov edx,[pv0813]
shr eax,1
shr ebx,1
shr ecx,1
shr edx,1
sub eax,ecx
sub ebx,ecx
mov ecx,dword ptr [p_135]
sub eax,edx
sub ebx,edx
add eax,ecx
add ebx,ecx
shl eax,1
shl ebx,1
mov [pg20],eax
mov [pg31],ebx

// cland output
mov edi,r

lea edx, [pr20]
mov ecx,iclip

movsx eax,word ptr [edx]
movsx ebx,word ptr [edx+2]
sar eax,6
sar ebx,6
add eax,ecx
add ebx,ecx

xor ecx,ecx
xor edx,edx
mov cl,[eax] // r0
mov dl,[ebx] // r2
mov [edi+2],cl
mov [edi+10],dl

lea edx,[pr31]
mov ecx,iclip

movsx eax,word ptr [edx]
movsx ebx,word ptr [edx+2]
sar eax,6
sar ebx,6
add eax,ecx
add ebx,ecx

xor ecx,ecx
xor edx,edx
mov cl,[eax] // r1
mov dl,[ebx] // r3
mov [edi+6],cl
mov [edi+14],dl

lea edx,[pg20]
mov ecx,iclip

movsx eax,word ptr [edx]
movsx ebx,word ptr [edx+2]
sar eax,6
sar ebx,6
add eax,ecx
add ebx,ecx

xor ecx,ecx
xor edx,edx
mov cl,[eax] // g0
mov dl,[ebx] // g2
mov [edi+1],cl
mov [edi+9],dl

lea edx,[pg31]
mov ecx,iclip

movsx eax,word ptr [edx]
movsx ebx,word ptr [edx+2]
sar eax,6
sar ebx,6
add eax,ecx
add ebx,ecx

xor ecx,ecx
xor edx,edx
mov cl,[eax] // g1
mov dl,[ebx] // g3
mov [edi+5],cl
mov [edi+13],dl

lea edx,[pb20]
mov ecx,iclip

movsx eax,word ptr [edx]
movsx ebx,word ptr [edx+2]
sar eax,6
sar ebx,6
add eax,ecx
add ebx,ecx

xor ecx,ecx
xor edx,edx
mov cl,[eax] // b0
mov dl,[ebx] // b2
mov [edi],cl
mov [edi+8],dl

lea edx,[pb31]
mov ecx,iclip

movsx eax,word ptr [edx]
movsx ebx,word ptr [edx+2]
sar eax,6
sar ebx,6
add eax,ecx
add ebx,ecx

xor ecx,ecx
xor edx,edx
mov cl,[eax] // b1
mov dl,[ebx] // b3

mov ebx,rw
add esi,w
add [r],ebx
mov eax,[esi] // y3 y2 y1 y0

mov [edi+4],cl
mov [edi+12],dl

// next row of y
mov ebx,eax
and eax,ooffooff // 0 y2 0 y0
mul [p_1164]
and ebx,ffooffoo // y3 0 y1 0
shr ebx,8
mov [py1164_20],eax
mov eax,ebx

mul [p_1164]

mov ecx,pv1596

mov ebx,py1164_20
mov edx,dword ptr p_223

mov [py1164_31],eax

add eax,ecx
add ebx,ecx
shr eax,1
shr ebx,1
add eax,edx
add ebx,edx
shl eax,1
shl ebx,1
mov [pr31],eax // r3 r1
mov [pr20],ebx // r2 r0

mov ecx,[pu2018]
mov eax,[py1164_20]
mov ebx,[py1164_31]
mov edx,dword ptr [p_277]
add eax,ecx
add ebx,ecx
shr eax,1
shr ebx,1
add eax,edx
add ebx,edx
shl eax,1
shl ebx,1
mov [pb20],eax
mov [pb31],ebx

mov ecx,[pu0391]
mov eax,[py1164_20]
mov ebx,[py1164_31]
mov edx,[pv0813]
shr ecx,1
shr eax,1
shr ebx,1
shr edx,1
sub eax,ecx
sub ebx,ecx
mov ecx,dword ptr [p_135]
sub eax,edx
sub ebx,edx
add eax,ecx
add ebx,ecx
shl eax,1
shl ebx,1
mov [pg20],eax
mov [pg31],ebx

// clip and output
mov edi,r

lea edx,[pr20]
mov ecx,iclip

movsx eax,word ptr [edx]
movsx ebx,word ptr [edx+2]
sar eax,6
sar ebx,6
add eax,ecx
add ebx,ecx