loopfilter16_sse.asm

mozilla-central/third_party/dav1d/src/x86/loopfilter16_sse.asm

Enable keyboard shortcuts

Source code

File a bug in Core :: Audio/Video: Playback

Revision control

Copy as Markdown

Other Tools

; Copyright © 2021, VideoLAN and dav1d authors

; Copyright © 2021, Two Orioles, LLC

; All rights reserved.

; Redistribution and use in source and binary forms, with or without

; modification, are permitted provided that the following conditions are met:

; 1. Redistributions of source code must retain the above copyright notice, this

;    list of conditions and the following disclaimer.

; 2. Redistributions in binary form must reproduce the above copyright notice,

;    this list of conditions and the following disclaimer in the documentation

;    and/or other materials provided with the distribution.

; THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND

; ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED

; WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE

; DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR

; ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES

; (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;

; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND

; ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT

; (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS

; SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.

%include "config.asm"

%include "ext/x86/x86inc.asm"

SECTION_RODATA 16

%if ARCH_X86_64

%define PIC_sym(a) a

%else

%define PIC_base $$

%define PIC_sym(a) pic_regq+a-PIC_base

%endif

pb_4x1_4x5_4x9_4x13: times 4 db 0, 1

                     times 4 db 8, 9

pw_1: times 8 dw 1

pw_2: times 8 dw 2

pw_3: times 8 dw 3

; 4 and 16 need to be next to each other since they are used as alternates

; depending on whether bitdepth is 10 or 12

pw_4: times 8 dw 4

pw_16: times 8 dw 16

pw_8: times 8 dw 8

pw_4096: times 8 dw 4096

pb_mask: dd 1, 1, 2, 2

SECTION .text

%if ARCH_X86_32

%if STACK_ALIGNMENT < 16

%define extra_stack 2

%else

%define extra_stack 0

%endif

%endif

%macro RELOC_ARGS 2 ; h/v, off

ASSERT ARCH_X86_32

%if STACK_ALIGNMENT < 16

    mov          r5d, [rstk + stack_offset + 4*4 + 4]

%define lstridem [esp+%2+0*gprsize]

    mov     lstridem, r5d

    mov          r5d, [rstk + stack_offset + 4*5 + 4]

%define lutm [esp+%2+1*gprsize]

    mov         lutm, r5d

    mov          r5d, [rstk + stack_offset + 4*6 + 4]

%ifidn %1, v

%define wm [esp+%2+2*gprsize]

    mov           wm, r5d

    mov          r5d, [rstk + stack_offset + 4*3 + 4]

%define lm [esp+%2+3*gprsize]

    mov           lm, r5d

%else ; %1 == h

%define hm [esp+%2+2*gprsize]

    mov           hm, r5d

%endif ; %1==v

   mov           r5d, r7m

%define bdmulm [esp+%2+4*gprsize]

    mov       bdmulm, r5d

%else

%define lstridem r4m

%define lutm r5m

%ifidn %1, v

%define wm r6m

%define lm r3m

%else

%define hm r6m

%endif

%define bdmulm r7m

%endif ; STACK_ALIGNMENT

%endmacro

%macro UNRELOC_ARGS 0

%if ARCH_X86_32

%undef lm

%undef lstridem

%undef wm

%undef hm

%undef lutm

%endif

%endmacro

%macro SPLATD 2

    movd %1, %2

    pshufd %1, %1, q0000

%endmacro

%macro SPLATW 2

    movd %1, %2

    pshuflw %1, %1, q0000

    punpcklqdq %1, %1

%endmacro

;        in:            out:

; mm%1   a b c d        a e i m

; mm%2   e f g h        b f j n

; mm%3   i j k l   ->   c g k o

; mm%4   m n o p        d h l p

%macro TRANSPOSE4X4W 5

    punpcklwd        m%5, m%1, m%2

    punpckhwd        m%1, m%2

    punpcklwd        m%2, m%3, m%4

    punpckhwd        m%3, m%4

    punpckldq        m%4, m%5, m%2

    punpckhdq        m%5, m%2

    punpckldq        m%2, m%1, m%3

    punpckhdq        m%1, m%3

    SWAP              %1, %4

    SWAP              %2, %5, %3

%endmacro

;         in:                  out:

; m%1   a b c d e f g h      a i q y 6 E M U

; m%2   i j k l m n o p      b j r z 7 F N V

; m%3   q r s t u v w x      c k s 0 8 G O W

; m%4   y z 0 1 2 3 4 5      d l t 1 9 H P X

; m%5   6 7 8 9 A B C D  ->  e m u 2 A I Q Y

; m%6   E F G H I J K L      f n v 3 B J R Z

; m%7   M N O P Q R S T      g o w 4 C K S +

; m%8   U V W X Y Z + =      h p x 5 D L T =

%if ARCH_X86_64

%macro TRANSPOSE8X8W 9

    ; m%1   a b c d e f g h      a i q y b j r z

    ; m%2   i j k l m n o p      c k s 0 d l t 1

    ; m%3   q r s t u v w x  ->  e m u 2 f n v 3

    ; m%4   y z 0 1 2 3 4 5      g o w 4 h p x 5

    TRANSPOSE4X4W     %1, %2, %3, %4, %9

    ; m%5   6 7 8 9 A B C D      6 E M U 7 F N V

    ; m%6   E F G H I J K L      8 G O W 9 H P X

    ; m%7   M N O P Q R S T  ->  A I Q Y B J R Z

    ; m%8   U V W X Y Z + =      C K S + D L T =

    TRANSPOSE4X4W     %5, %6, %7, %8, %9

    ; m%1   a i q y b j r z      a i q y 6 E M U

    ; m%2   c k s 0 d l t 1      b j r z 7 F N V

    ; m%3   e m u 2 f n v 3      c k s 0 8 G O W

    ; m%4   g o w 4 h p x 5      d l t 1 9 H P X

    ; m%5   6 E M U 7 F N V  ->  e m u 2 A I Q Y

    ; m%6   8 G O W 9 H P X      f n v 3 B J R Z

    ; m%7   A I Q Y B J R Z      g o w 4 C K S +

    ; m%8   C K S + D L T =      h p x 5 D L T =

    punpckhqdq       m%9, m%1, m%5

    punpcklqdq       m%1, m%5

    punpckhqdq       m%5, m%2, m%6

    punpcklqdq       m%2, m%6

    punpckhqdq       m%6, m%3, m%7

    punpcklqdq       m%3, m%7

    punpckhqdq       m%7, m%4, m%8

    punpcklqdq       m%4, m%8

    SWAP %8, %7, %4, %5, %3, %2, %9

%endmacro

%else ; x86-32

; input: 1-7 in registers, 8 in first memory [read-only]

; second memory is scratch, and may overlap with first or third memory

; output: 1-5,7-8 in registers, 6 in third memory [write-only]

%macro TRANSPOSE8X8W 13 ; regs [8x], mem [3x], a/u [in/out alignment [2x]

    TRANSPOSE4X4W     %1, %2, %3, %4, %8

%ifnidn %9, ""

    mov%12           m%8, %9

%else

    mova             m%8, %10

%endif

    mova             %10, m%4

    TRANSPOSE4X4W     %5, %6, %7, %8, %4

    punpckhqdq       m%4, m%1, m%5

    punpcklqdq       m%1, m%5

    punpckhqdq       m%5, m%2, m%6

    punpcklqdq       m%2, m%6

    punpckhqdq       m%6, m%3, m%7

    punpcklqdq       m%3, m%7

    mova             m%7, %10

%ifnidn %11, ""

    mov%13           %11, m%6

%else

    mova             %10, m%6

%endif

    punpckhqdq       m%6, m%7, m%8

    punpcklqdq       m%7, m%8

    ; 1,4,2,5,3,8,7,6 -> 1,2,3,4,5,6,7,8

    SWAP              %2, %4, %5, %3

    SWAP              %6, %8

%endmacro

%endif ; x86-32/64

; transpose and write m8-11, everything else is scratch

%macro TRANSPOSE_8x4_AND_WRITE_4x8 5 ; p1, p0, q0, q1, tmp

    ; transpose 8x4

    punpcklwd     %5, %1, %2

    punpckhwd     %1, %2

    punpcklwd     %2, %3, %4

    punpckhwd     %3, %4

    punpckldq     %4, %5, %2

    punpckhdq     %5, %2

    punpckldq     %2, %1, %3

    punpckhdq     %1, %3

    ; write out

    movq   [dstq+strideq*0-4], %4

    movhps [dstq+strideq*1-4], %4

    movq   [dstq+strideq*2-4], %5

    movhps [dstq+stride3q -4], %5

    lea         dstq, [dstq+strideq*4]

    movq   [dstq+strideq*0-4], %2

    movhps [dstq+strideq*1-4], %2

    movq   [dstq+strideq*2-4], %1

    movhps [dstq+stride3q -4], %1

    lea         dstq, [dstq+strideq*4]

%endmacro

%macro FILTER 2 ; width [4/6/8/16], dir [h/v]

    ; load data

%ifidn %2, v

%if %1 == 4

%if ARCH_X86_64

%define P1 m8

%define P0 m9

%define Q0 m10

%define Q1 m11

    mova          P1, [dstq+mstrideq*2]         ; p1

    mova          P0, [dstq+mstrideq*1]         ; p0

    mova          Q0, [dstq+strideq*0]          ; q0

    mova          Q1, [dstq+strideq*1]          ; q1

%else ; x86-32

%define P1 [dstq+mstrideq*2]

%define P0 [dstq+mstrideq*1]

%define Q0 [dstq+strideq*0]

%define Q1 [dstq+strideq*1]

%endif ; x86-32/64

%else ; %1 != 4

    ; load 6-8 pixels, remainder (for wd=16) will be read inline

    lea         tmpq, [dstq+mstrideq*4]

%if ARCH_X86_64

    ; we load p3 later

%define P2 m13

%define P1 m8

%define P0 m9

%define Q0 m10

%define Q1 m11

%define Q2 m14

    mova          P2, [tmpq+strideq*1]

    mova          P1, [tmpq+strideq*2]

    mova          P0, [tmpq+stride3q]

    mova          Q0, [dstq+strideq*0]

    mova          Q1, [dstq+strideq*1]

    mova          Q2, [dstq+strideq*2]

%if %1 != 6

%define P3 [tmpq+strideq*0]

%define Q3 m15

    mova          Q3, [dstq+stride3q]

%endif ; %1 != 6

%else ; x86-32

%define P2 [tmpq+strideq*1]

%define P1 [dstq+mstrideq*2]

%define P0 [dstq+mstrideq*1]

%define Q0 [dstq+strideq*0]

%define Q1 [dstq+strideq*1]

%define Q2 [dstq+strideq*2]

%if %1 != 6

%define P3 [dstq+mstrideq*4]

%define Q3 [dstq+stride3q]

%endif ; %1 != 6

%endif ; x86-32/64

%endif ; %1 ==/!= 4

%else ; %2 != v

    ; load lines

%if %1 == 4

    movq          m0, [dstq+strideq*0-4]

    movq          m2, [dstq+strideq*1-4]

    movq          m4, [dstq+strideq*2-4]

    movq          m5, [dstq+stride3q -4]

    lea         tmpq, [dstq+strideq*4]

    movq          m3, [tmpq+strideq*0-4]

    movq          m6, [tmpq+strideq*1-4]

    movq          m1, [tmpq+strideq*2-4]

    movq          m7, [tmpq+stride3q -4]

    ; transpose 4x8

    ; m0: A-D0

    ; m2: A-D1

    ; m4: A-D2

    ; m5: A-D3

    ; m3: A-D4

    ; m6: A-D5

    ; m1: A-D6

    ; m7: A-D7

    punpcklwd     m0, m2

    punpcklwd     m4, m5

    punpcklwd     m3, m6

    punpcklwd     m1, m7

    ; m0: A0-1,B0-1,C0-1,D0-1

    ; m4: A2-3,B2-3,C2-3,D2-3

    ; m3: A4-5,B4-5,C4-5,D4-5

    ; m1: A6-7,B6-7,C6-7,D6-7

    punpckhdq     m2, m0, m4

    punpckldq     m0, m4

    punpckhdq     m4, m3, m1

    punpckldq     m3, m1

    ; m0: A0-3,B0-3

    ; m2: C0-3,D0-3

    ; m3: A4-7,B4-7

    ; m4: C4-7,D4-7

    punpckhqdq    m1, m0, m3

    punpcklqdq    m0, m3

    punpckhqdq    m3, m2, m4

    punpcklqdq    m2, m4

    ; m0: A0-7

    ; m1: B0-7

    ; m2: C0-7

    ; m3: D0-7

%if ARCH_X86_64

    SWAP           0, 8

    SWAP           1, 9

    SWAP           2, 10

    SWAP           3, 11

%define P1 m8

%define P0 m9

%define Q0 m10

%define Q1 m11

%else

%define P1 [esp+3*mmsize]

%define P0 [esp+4*mmsize]

%define Q0 [esp+5*mmsize]

%define Q1 [esp+6*mmsize]

    mova          P1, m0

    mova          P0, m1

    mova          Q0, m2

    mova          Q1, m3

%endif

%elif %1 == 6 || %1 == 8

    movu          m0, [dstq+strideq*0-8]

    movu          m1, [dstq+strideq*1-8]

    movu          m2, [dstq+strideq*2-8]

    movu          m3, [dstq+stride3q -8]

    lea         tmpq, [dstq+strideq*4]

    movu          m4, [tmpq+strideq*0-8]

    movu          m5, [tmpq+strideq*1-8]

    movu          m6, [tmpq+strideq*2-8]

%if ARCH_X86_64

    movu          m7, [tmpq+stride3q -8]

%endif

    ; transpose 8x16

    ; m0: A-H0,A-H8

    ; m1: A-H1,A-H9

    ; m2: A-H2,A-H10

    ; m3: A-H3,A-H11

    ; m4: A-H4,A-H12

    ; m5: A-H5,A-H13

    ; m6: A-H6,A-H14

    ; m7: A-H7,A-H15

%if ARCH_X86_64

    punpcklwd     m8, m0, m1

%else

    punpcklwd     m7, m0, m1

%endif

    punpckhwd     m0, m1

    punpcklwd     m1, m2, m3

    punpckhwd     m2, m3

    punpcklwd     m3, m4, m5

    punpckhwd     m4, m5

%if ARCH_X86_64

    punpcklwd     m5, m6, m7

    punpckhwd     m6, m7

%else

    mova  [rsp+3*16], m4

    movu          m4, [tmpq+stride3q -8]

    punpcklwd     m5, m6, m4

    punpckhwd     m6, m4

%endif

    ; m8: A0-1,B0-1,C0-1,D0-1 [m7 on x86-32]

    ; m0: E0-1,F0-1,G0-1,H0-1

    ; m1: A2-3,B2-3,C2-3,D2-3

    ; m2: E2-3,F2-3,G2-3,H2-3

    ; m3: A4-5,B4-5,C4-5,D4-5

    ; m4: E4-5,F4-5,G4-5,H4-5 [r3 on x86-32]

    ; m5: A6-7,B6-7,C6-7,D6-7

    ; m6: E6-7,F6-7,G6-7,H6-7

%if ARCH_X86_64

    punpckldq     m7, m8, m1

    punpckhdq     m8, m1

%else

    punpckldq     m4, m7, m1

    punpckhdq     m7, m1

%endif

    punpckldq     m1, m0, m2

    punpckhdq     m0, m2

    punpckldq     m2, m3, m5

    punpckhdq     m3, m5

%if ARCH_X86_64

    punpckldq     m5, m4, m6

    punpckhdq     m4, m6

%else

    mova  [rsp+4*16], m3

    mova          m3, [rsp+3*16]

    punpckldq     m5, m3, m6

    punpckhdq     m3, m6

%endif

    ; m7: A0-3,B0-3 [m4 on x86-32]

    ; m8: C0-3,D0-3 [m7 on x86-32]

    ; m1: E0-3,F0-3

    ; m0: G0-3,H0-3

    ; m2: A4-7,B4-7

    ; m3: C4-7,D4-7 [r4 on x86-32]

    ; m5: E4-7,F4-7

    ; m4: G4-7,H4-7 [m3 on x86-32]

%if ARCH_X86_64

%if %1 != 6

    punpcklqdq    m6, m7, m2

%endif

    punpckhqdq    m7, m2

    punpcklqdq    m2, m8, m3

    punpckhqdq    m8, m3

    punpcklqdq    m3, m1, m5

    punpckhqdq    m1, m5

%if %1 != 6

    punpckhqdq    m5, m0, m4

%endif

    punpcklqdq    m0, m4

%if %1 == 8

    mova  [rsp+1*16], m6

%define P3 [rsp+1*16]

%endif

    ; 7,2,8,3,1,0,5 -> 13,8,9,10,11,14,15

    SWAP           7, 13

    SWAP           8, 2, 9

    SWAP           3, 10

    SWAP           1, 11

    SWAP           0, 14

    SWAP           5, 15

%define P2 m13

%define P1 m8

%define P0 m9

%define Q0 m10

%define Q1 m11

%define Q2 m14

%if %1 == 8

%define Q3 m15

%endif

%else ; x86-32

%if %1 == 8

%define P3 [rsp+ 6*16]

    punpcklqdq    m6, m4, m2

    mova          P3, m6

%endif

    mova          m6, [rsp+4*16]

    punpckhqdq    m4, m2

    punpcklqdq    m2, m7, m6

    punpckhqdq    m7, m6

    punpcklqdq    m6, m1, m5

    punpckhqdq    m1, m5

%if %1 == 8

%define Q3 [rsp+24*16]

    punpckhqdq    m5, m0, m3

    mova          Q3, m5

%endif

    punpcklqdq    m0, m3

%if %1 == 8

%define P2 [rsp+18*16]

%define P1 [rsp+19*16]

%define P0 [rsp+20*16]

%define Q0 [rsp+21*16]

%define Q1 [rsp+22*16]

%define Q2 [rsp+23*16]

%else

%define P2 [rsp+3*16]

%define P1 [rsp+4*16]

%define P0 [rsp+5*16]

%define Q0 [rsp+6*16]

%define Q1 [rsp+7*16]

%define Q2 [rsp+8*16]

%endif

    mova          P2, m4

    mova          P1, m2

    mova          P0, m7

    mova          Q0, m6

    mova          Q1, m1

    mova          Q2, m0

%endif ; x86-32/64

%else ; %1 == 16

    ; We only use 14 pixels but we'll need the remainder at the end for

    ; the second transpose

    mova          m0, [dstq+strideq*0-16]

    mova          m1, [dstq+strideq*1-16]

    mova          m2, [dstq+strideq*2-16]

    mova          m3, [dstq+stride3q -16]

    lea         tmpq, [dstq+strideq*4]

    mova          m4, [tmpq+strideq*0-16]

    mova          m5, [tmpq+strideq*1-16]

    mova          m6, [tmpq+strideq*2-16]

%if ARCH_X86_64

    mova          m7, [tmpq+stride3q -16]

    TRANSPOSE8X8W 0, 1, 2, 3, 4, 5, 6, 7, 8

    SWAP           5, 13

    SWAP           6, 8

    SWAP           7, 9

%define P2 m13

%define P1 m8

%define P0 m9

%else ; x86-32

%define P2 [esp+18*16]

%define P1 [esp+19*16]

%define P0 [esp+20*16]

    TRANSPOSE8X8W 0, 1, 2, 3, 4, 5, 6, 7, \

                     [tmpq+stride3q -16], P2, "", a, a

    mova          P1, m6

    mova          P0, m7

%endif ; x86-32/64

    mova [rsp+ 7*16], m0

    mova [rsp+ 8*16], m1

    mova [rsp+ 9*16], m2

    mova [rsp+10*16], m3

%define P3 [rsp+6*16]

    mova          P3, m4

    mova          m0, [dstq+strideq*0]

    mova          m1, [dstq+strideq*1]

    mova          m2, [dstq+strideq*2]

    mova          m3, [dstq+stride3q ]

    lea         tmpq, [dstq+strideq*4]

    mova          m4, [tmpq+strideq*0]

    mova          m5, [tmpq+strideq*1]

    mova          m6, [tmpq+strideq*2]

%if ARCH_X86_64

    mova          m7, [tmpq+stride3q ]

    TRANSPOSE8X8W 0, 1, 2, 3, 4, 5, 6, 7, 10

    SWAP          0, 10

    SWAP          1, 11

    SWAP          2, 14

    SWAP          3, 15

%define Q0 m10

%define Q1 m11

%define Q2 m14

%define Q3 m15

%else ; x86-32

    TRANSPOSE8X8W 0, 1, 2, 3, 4, 5, 6, 7, \

                     [tmpq+stride3q ], [rsp+12*16], "", a, a

%define Q0 [esp+21*16]

%define Q1 [esp+22*16]

%define Q2 [esp+23*16]

%define Q3 [esp+24*16]

    mova         Q0, m0

    mova         Q1, m1

    mova         Q2, m2

    mova         Q3, m3

%endif ; x86-32/64

    mova [rsp+11*16], m4

%if ARCH_X86_64

    mova [rsp+12*16], m5

%endif

    mova [rsp+13*16], m6

    mova [rsp+14*16], m7

%endif ; %1 == 4/6/8/16

%endif ; %2 ==/!= v

    ; load L/E/I/H

%if ARCH_X86_32

%define l_strideq r5

    mov    l_strideq, dword lstridem

%ifidn %2, v

%define lq r3

    mov           lq, dword lm

%endif

%endif

%ifidn %2, v

%if cpuflag(sse4)

    pmovzxbw      m1, [lq]

    pmovzxbw      m0, [lq+l_strideq]

    pxor          m2, m2

%else ; ssse3

    movq          m1, [lq]

    movq          m0, [lq+l_strideq]

    pxor          m2, m2

    REPX {punpcklbw x, m2}, m1, m0

%endif ; ssse3/sse4

%else ; %2 != v

    movq          m0, [lq]                      ; l0, l1

    movq          m1, [lq+l_strideq]            ; l2, l3

    punpckldq     m0, m1                        ; l0, l2, l1, l3

    pxor          m2, m2

    punpcklbw     m1, m0, m2                    ; l0, l2

    punpckhbw     m0, m2                        ; l1, l3

%endif ; %2==/!=v

%if ARCH_X86_32

%ifidn %2, v

%undef lq

    mov     mstrideq, mstridem

%endif

%endif

    pcmpeqw       m5, m2, m0

    pand          m1, m5

    por           m0, m1                        ; l[x][] ? l[x][] : l[x-stride][]

    pshufb        m0, [PIC_sym(pb_4x1_4x5_4x9_4x13)] ; l[x][1]

    pcmpeqw       m5, m2, m0                    ; !L

    psrlw         m5, 1

%if ARCH_X86_64

    psrlw         m2, m0, [lutq+128]

    SPLATW        m1, [lutq+136]

%else ; x86-32

    mov           r5, lutm

    psrlw         m2, m0, [r5+128]

    SPLATW        m1, [r5+136]

%endif ; x86-32/64

    pminsw        m2, m1

    pmaxsw        m2, [PIC_sym(pw_1)]           ; I

    psrlw         m1, m0, 4                     ; H

    paddw         m0, [PIC_sym(pw_2)]

    paddw         m0, m0

    paddw         m0, m2                        ; E

    REPX {pmullw x, [bdmulq]}, m0, m1, m2

%if ARCH_X86_32

%undef l_strideq

    lea    stride3q, [strideq*3]

%endif

    psubw         m3, P1, P0                    ; p1-p0

    psubw         m4, Q0, Q1                    ; q0-q1

    REPX {pabsw x, x}, m3, m4

    pmaxsw        m3, m5

    pmaxsw        m3, m4

    pcmpgtw       m7, m3, m1                    ; hev

%if %1 != 4

    psubw         m4, P2, P0                    ; p2-p0

    pabsw         m4, m4

    pmaxsw        m4, m3

%if %1 != 6

    mova          m6, P3                        ; p3

    psubw         m5, m6, P0                    ; p3-p0

    pabsw         m5, m5

    pmaxsw        m4, m5

%endif ; %1 != 6

    psubw         m5, Q0, Q2                    ; q0-q2

    pabsw         m5, m5

    pmaxsw        m4, m5

%if %1 != 6

    psubw         m5, Q0, Q3                    ; q0-q3

    pabsw         m5, m5

    pmaxsw        m4, m5

%endif ; %1 != 6

    pcmpgtw       m4, [bdmulq]                     ; !flat8in

    psubw         m5, P2, P1                    ; p2-p1

    pabsw         m5, m5

%if %1 != 6

    psubw         m6, P2                        ; p3-p2

    pabsw         m6, m6

    pmaxsw        m5, m6

    psubw         m6, Q2, Q3                    ; q2-q3

    pabsw         m6, m6

    pmaxsw        m5, m6

%endif ; %1 != 6

    psubw         m6, Q2, Q1                    ; q2-q1

    pabsw         m6, m6

    pmaxsw        m5, m6

%if %1 == 16

    SPLATD        m6, [maskq+8]

    SPLATD        m1, [maskq+4]

    por           m6, m1

    pand          m6, m12

    pcmpeqd       m6, m12

    pand          m5, m6

%else ; %1 != 16

    SPLATD        m6, [maskq+4]

    pand          m6, m12

    pcmpeqd       m6, m12

    pand          m5, m6                        ; only apply fm-wide to wd>4 blocks

%endif ; %1==/!=16

    pmaxsw        m3, m5

%endif ; %1 != 4

    pcmpgtw       m3, m2

    psubw         m5, P1, Q1                    ; p1-q1

    psubw         m6, P0, Q0                    ; p0-q0

    REPX {pabsw x, x}, m5, m6

    paddw         m6, m6

    psrlw         m5, 1

    paddw         m5, m6                        ; abs(p0-q0)*2+(abs(p1-q1)>>1)

    pcmpgtw       m5, m0                        ; abs(p0-q0)*2+(abs(p1-q1)>>1) > E

    por           m3, m5

%if %1 == 16

%ifidn %2, v

    lea         tmpq, [dstq+mstrideq*8]

    mova          m0, [tmpq+strideq*1]

    mova          m1, [tmpq+strideq*2]

    mova          m2, [tmpq+stride3q]

%else ; %2 != v

    mova          m0, [rsp+ 8*16]

    mova          m1, [rsp+ 9*16]

    mova          m2, [rsp+10*16]

%endif ; %2==/!=v

    REPX {psubw x, P0}, m0, m1, m2

    REPX {pabsw x, x}, m0, m1, m2

    pmaxsw        m1, m0

    pmaxsw        m1, m2

%ifidn %2, v

    lea         tmpq, [dstq+strideq*4]

    mova          m0, [tmpq+strideq*0]

    mova          m2, [tmpq+strideq*1]

    mova          m5, [tmpq+strideq*2]

%else ; %2 != v

    mova          m0, [rsp+11*16]

    mova          m2, [rsp+12*16]

    mova          m5, [rsp+13*16]

%endif ; %2==/!=v

    REPX {psubw x, Q0}, m0, m2, m5

    REPX {pabsw x, x}, m0, m2, m5

    pmaxsw        m0, m2

    pmaxsw        m1, m5

    pmaxsw        m1, m0

    pcmpgtw       m1, [bdmulq]                  ; !flat8out

    por           m1, m4                        ; !flat8in | !flat8out

    SPLATD        m2, [maskq+8]

    pand          m5, m2, m12

    pcmpeqd       m5, m12

    pandn         m1, m5                        ; flat16

    pandn         m5, m3, m1                    ; flat16 & fm

    SWAP           1, 5

    SPLATD        m5, [maskq+4]

    por           m5, m2

    pand          m2, m5, m12

    pcmpeqd       m2, m12

    pandn         m4, m2                        ; flat8in

    pandn         m2, m3, m4

    SWAP           2, 4

    SPLATD        m2, [maskq+0]

    por           m2, m5

    pand          m2, m12

    pcmpeqd       m2, m12

    pandn         m3, m2

    pandn         m0, m4, m3                    ; fm & !flat8 & !flat16

    SWAP           0, 3

    pandn         m0, m1, m4                    ; flat8 & !flat16

    SWAP           0, 4

%elif %1 != 4

    SPLATD        m0, [maskq+4]

    pand          m2, m0, m12

    pcmpeqd       m2, m12

    pandn         m4, m2

    pandn         m2, m3, m4                    ; flat8 & fm

    SWAP           2, 4

    SPLATD        m2, [maskq+0]

    por           m0, m2

    pand          m0, m12

    pcmpeqd       m0, m12

    pandn         m3, m0

    pandn         m0, m4, m3                    ; fm & !flat8

    SWAP           0, 3

%else ; %1 == 4

    SPLATD        m0, [maskq+0]

    pand          m0, m12

    pcmpeqd       m0, m12

    pandn         m3, m0                        ; fm

%endif ; %1==/!=4

    ; short filter

%if ARCH_X86_64

    SPLATW        m0, r7m

%else

    SPLATW        m0, bdmulm

%endif

    pcmpeqw       m2, m2

    psrlw         m0, 1                         ; 511 or 2047

    pxor          m2, m0                        ; -512 or -2048

    psubw         m5, Q0, P0                    ; q0-p0

    paddw         m6, m5, m5

    paddw         m6, m5                        ; 3*(q0-p0)

    psubw         m5, P1, Q1                    ; iclip_diff(p1-q1)

    pminsw        m5, m0

    pmaxsw        m5, m2

    pand          m5, m7                        ; f=iclip_diff(p1-q1)&hev

    paddw         m5, m6                        ; f=iclip_diff(3*(q0-p0)+f)

    pminsw        m5, m0

    pmaxsw        m5, m2

    pand          m3, m5                        ; f&=fm

    paddw         m5, m3, [PIC_sym(pw_3)]

    paddw         m3, [PIC_sym(pw_4)]

    REPX {pminsw x, m0}, m5, m3

    psraw         m5, 3                         ; f2

    psraw         m3, 3                         ; f1

    psubw         m0, m2                        ; 1023 or 4095

    pxor          m2, m2

%if ARCH_X86_64

    paddw         P0, m5

    psubw         Q0, m3

%else

    paddw          m5, P0

    psubw          m6, Q0, m3

    REPX {pminsw x, m0}, m5, m6

    REPX {pmaxsw x, m2}, m5, m6

%endif

    paddw         m3, [PIC_sym(pw_1)]

    psraw         m3, 1                         ; f=(f1+1)>>1

    pandn         m7, m3                        ; f&=!hev

    SWAP           7, 3

%if ARCH_X86_64

    paddw         P1, m3

    psubw         Q1, m3

    REPX {pminsw x, m0}, P1, P0, Q0, Q1

    REPX {pmaxsw x, m2}, P1, P0, Q0, Q1

%else

    psubw         m7, Q1, m3

    paddw         m3, P1

    REPX {pminsw x, m0}, m7, m3

    REPX {pmaxsw x, m2}, m7, m3

%if %1 > 4

    mova          P1, m3

    mova          P0, m5

    mova          Q0, m6

    mova          Q1, m7

%endif

%endif

%if %1 == 16

; m8-11 = p1/p0/q0/q1, m4=flat8, m1=flat16

; m12=filter bits mask

; m13-15=p2/q2/q3

; m0,2-3,5-7 = free

    ; flat16 filter

%ifidn %2, v

    lea         tmpq, [dstq+mstrideq*8]

    mova          m0, [tmpq+strideq*1]          ; p6

    mova          m2, [tmpq+strideq*2]          ; p5

    mova          m7, [tmpq+stride3q]           ; p4

    mova          m6, [tmpq+strideq*4]          ; p3

    lea         tmpq, [dstq+mstrideq*4]

%else ; %2 != v

    mova          m0, [rsp+ 8*16]

    mova          m2, [rsp+ 9*16]

    mova          m7, [rsp+10*16]

    mova          m6, [rsp+ 6*16]

%endif ; %2==/!=v

    mova [rsp+ 0*16], m4

    ; p6*7+p5*2+p4*2+p3+p2+p1+p0+q0

    psllw         m3, m0, 3                     ; p6*8

    paddw         m3, [PIC_sym(pw_8)]

    paddw         m5, m2, m7                    ; p5+p4

    psubw         m3, m0

    paddw         m5, m5                        ; (p5+p4)*2

    paddw         m3, m6                        ; p6*7+p3

    paddw         m5, P2                        ; (p5+p4)*2+p2

    paddw         m3, P1                        ; p6*7+p3+p1

    paddw         m5, P0                        ; (p5+p4)*2+p2+p0

    paddw         m3, Q0                        ; p6*7+p3+p1+q0

    paddw         m3, m5                        ; p6*7+p5*2+p4*2+p3+p2+p1+p0+q0

    psrlw         m5, m3, 4

    pand          m5, m1

    pandn         m4, m1, m2

    por           m5, m4

%ifidn %2, v

    mova [tmpq+mstrideq*2], m5                   ; p5

%else ; %2 != v

    mova  [rsp+9*16], m5

%endif ; %2==/!=v

    ; sub p6*2, add p3/q1

    paddw         m3, m6

    paddw         m5, m0, m0

    paddw         m3, Q1

    psubw         m3, m5

    psrlw         m5, m3, 4

    pand          m5, m1

    pandn         m4, m1, m7

    por           m5, m4

%ifidn %2, v

    mova [tmpq+mstrideq*1], m5                   ; p4

%else ; %2 != v

    mova [rsp+10*16], m5

%endif ; %2==/!=v

    ; sub p6/p5, add p2/q2

    psubw         m3, m0

    paddw         m5, P2, Q2

    psubw         m3, m2

    paddw         m3, m5

    psrlw         m5, m3, 4

    pand          m5, m1

    pandn         m4, m1, m6

    por           m5, m4

%ifidn %2, v

    mova [tmpq+strideq*0], m5                  ; p3

%else ; %2 != v

    mova  [rsp+6*16], m5

%endif ; %2==/!=v

%define WRITE_IN_PLACE 0

%ifidn %2, v

%if ARCH_X86_64

%define WRITE_IN_PLACE 1

%endif

%endif

    ; sub p6/p4, add p1/q3

    paddw         m3, P1

    paddw         m5, m0, m7

    paddw         m3, Q3

    psubw         m3, m5

    psrlw         m5, m3, 4

    pand          m5, m1

    pandn         m4, m1, P2

    por           m5, m4

%if WRITE_IN_PLACE

    mova [tmpq+strideq*1], m5

%else

    mova  [rsp+1*16], m5                        ; don't clobber p2/m13

%endif

    ; sub p6/p3, add p0/q4

    paddw         m3, P0

    paddw         m5, m0, m6

%ifidn %2, v

    paddw         m3, [dstq+strideq*4]

%else ; %2 != v

    paddw         m3, [rsp+11*16]

%endif ; %2==/!=v

    psubw         m3, m5

    psrlw         m5, m3, 4

    pand          m5, m1

    pandn         m4, m1, P1

    por           m5, m4

%if WRITE_IN_PLACE

    mova [dstq+mstrideq*2], m5

%else

    mova  [rsp+2*16], m5                        ; don't clobber p1/m3

%endif

    ; sub p6/p2, add q0/q5

    paddw         m3, Q0

    paddw         m5, m0, P2

%ifidn %2, v

%if ARCH_X86_32

    lea           r4, P2

%endif

    lea         tmpq, [dstq+strideq*4]

    paddw         m3, [tmpq+strideq*1]

%else ; %2 != v

    paddw         m3, [rsp+12*16]

%endif ; %2==/!=v

    psubw         m3, m5

    psrlw         m5, m3, 4

    pand          m5, m1

    pandn         m4, m1, P0

    por           m5, m4

%if WRITE_IN_PLACE

    mova [dstq+mstrideq*1], m5

%else

    mova  [rsp+3*16], m5                        ; don't clobber p0/m4

%endif

    ; sub p6/p1, add q1/q6

    paddw         m3, Q1

    paddw         m5, m0, P1

%ifidn %2, v

    mova          m0, [tmpq+strideq*2]          ; q6

%else ; %2 != v

    mova          m0, [rsp+13*16]               ; q6

%endif ; %2==/!=v

    paddw         m3, m0

    psubw         m3, m5

    psrlw         m5, m3, 4

    pand          m5, m1

    pandn         m4, m1, Q0

    por           m5, m4

%if WRITE_IN_PLACE

    mova      [dstq], m5

%else

    mova  [rsp+4*16], m5                        ; don't clobber q0/m5

%endif

    ; sub p5/p0, add q2/q6

    paddw         m3, Q2

    paddw         m5, m2, P0

    paddw         m3, m0

    psubw         m3, m5

    psrlw         m5, m3, 4

    pand          m5, m1

    pandn         m4, m1, Q1

    por           m2, m5, m4                    ; don't clobber q1/m6

    ; sub p4/q0, add q3/q6

    paddw         m3, Q3

    paddw         m7, Q0

    paddw         m3, m0

    psubw         m3, m7

    psrlw         m7, m3, 4

    pand          m7, m1

    pandn         m4, m1, Q2

    por           m7, m4                        ; don't clobber q2/m14

    ; sub p3/q1, add q4/q6

%ifidn %2, v

    paddw         m3, [tmpq+strideq*0]

%else ; %2 != v

    paddw         m3, [rsp+11*16]

%endif ; %2==/!=v

    paddw         m6, Q1

    paddw         m3, m0

    psubw         m3, m6

    psrlw         m6, m3, 4

    pand          m6, m1

    pandn         m4, m1, Q3

    por           m6, m4

%if WRITE_IN_PLACE

    mova [tmpq+mstrideq], m6                    ; q3

%else ; %2 != v

    mova  [rsp+5*16], m6

%endif ; %2==/!=v

    ; sub p2/q2, add q5/q6

%ifidn %2, v

    paddw         m3, [tmpq+strideq*1]

%if ARCH_X86_64

    paddw         m5, P2, Q2

%else

    ; because tmpq is clobbered, so we use a backup pointer for P2 instead

    paddw         m5, [r4], Q2

    mov     pic_regq, pic_regm

%endif

%else ; %2 != v

    paddw         m3, [rsp+12*16]

    paddw         m5, P2, Q2

%endif ; %2==/!=v

    paddw         m3, m0

    psubw         m3, m5

    psrlw         m5, m3, 4

    pand          m5, m1

%ifidn %2, v

    pandn         m4, m1, [tmpq+strideq*0]

%else ; %2 != v

    pandn         m4, m1, [rsp+11*16]

%endif ; %2==/!=v

    por           m5, m4

%ifidn %2, v

    mova [tmpq+strideq*0], m5                   ; q4

%else ; %2 != v

    mova [rsp+11*16], m5

%endif ; %2==/!=v

    ; sub p1/q3, add q6*2

    psubw         m3, P1

    paddw         m0, m0

    psubw         m3, Q3

    paddw         m3, m0

    psrlw         m5, m3, 4

    pand          m5, m1

%ifidn %2, v

    pandn         m4, m1, [tmpq+strideq*1]

%else ; %2 != v

    pandn         m4, m1, [rsp+12*16]

%endif ; %2==/!=v

    por           m5, m4

%ifidn %2, v

    mova [tmpq+strideq*1], m5                   ; q5

%else ; %2 != v

    mova [rsp+12*16], m5

%endif ; %2==/!=v

    mova          m4, [rsp+0*16]

%ifidn %2, v

    lea         tmpq, [dstq+mstrideq*4]

%endif

%if ARCH_X86_64

    SWAP           2, 11

    SWAP           7, 14

    SWAP           6, 15

%else ; x86-32

    mova          Q1, m2

    mova          Q2, m7

%endif ; x86-32/64

%if WRITE_IN_PLACE

    mova          P2, [tmpq+strideq*1]

    mova          P1, [tmpq+strideq*2]

    mova          P0, [tmpq+stride3q]

    mova          Q0, [dstq]

%elif ARCH_X86_64

    mova          P2, [rsp+1*16]

    mova          P1, [rsp+2*16]

    mova          P0, [rsp+3*16]

    mova          Q0, [rsp+4*16]

%else ; !WRITE_IN_PLACE & x86-32

    mova          m0, [rsp+1*16]

    mova          m1, [rsp+2*16]

    mova          m2, [rsp+3*16]

    mova          m3, [rsp+4*16]

    mova          m7, [rsp+5*16]

    mova          P2, m0

    mova          P1, m1

    mova          P0, m2

    mova          Q0, m3

    mova          Q3, m7

%endif ; WRITE_IN_PLACE / x86-32/64

%undef WRITE_IN_PLACE

%endif ; %1 == 16

%if %1 >= 8

    ; flat8 filter

    mova          m0, P3                        ; p3

    paddw         m1, m0, P2                    ; p3+p2

    paddw         m2, P1, P0                    ; p1+p0

    paddw         m3, m1, m1                    ; 2*(p3+p2)

    paddw         m2, m0                        ; p1+p0+p3

    paddw         m3, Q0                        ; 2*(p3+p2)+q0

    paddw         m2, m3                        ; 3*p3+2*p2+p1+p0+q0

    pmulhrsw      m7, m2, [PIC_sym(pw_4096)]

    psubw         m7, P2

    pand          m7, m4

    paddw         m3, P1, Q1                    ; p1+q1

    psubw         m2, m1                        ; 2*p3+p2+p1+p0+q0

    paddw         m2, m3                        ; 2*p3+p2+2*p1+p0+q0+q1

    pmulhrsw      m3, m2, [PIC_sym(pw_4096)]

    psubw         m3, P1

    pand          m3, m4

    paddw         m5, m0, P1                    ; p3+p1

    paddw         m6, P0, Q2                    ; p0+q2

    psubw         m2, m5                        ; p3+p2+p1+p0+q0+q1

    paddw         m2, m6                        ; p3+p2+p1+2*p0+q0+q1+q2

    pmulhrsw      m5, m2, [PIC_sym(pw_4096)]

    psubw         m5, P0

    pand          m5, m4

    paddw         m6, m0, P0                    ; p3+p0

    paddw         m1, Q0, Q3                    ; q0+q3

    psubw         m2, m6                        ; p2+p1+p0+q0+q1+q2

    paddw         m2, m1                        ; p2+p1+p0+2*q0+q1+q2+q3

    pmulhrsw      m6, m2, [PIC_sym(pw_4096)]

    psubw         m6, Q0

    pand          m6, m4

    paddw         m2, Q1                        ; p2+p1+p0+2*q0+2*q1+q2+q3

    paddw         m2, Q3                        ; p2+p1+p0+2*q0+2*q1+q2+2*q3

    paddw         m1, P2, Q0                    ; p2+q0

    psubw         m2, m1                        ; p1+p0+q0+2*q1+q2+2*q3

    pmulhrsw      m1, m2, [PIC_sym(pw_4096)]

    psubw         m1, Q1

    pand          m1, m4

    psubw         m2, P1                        ; p0+q0+2*q1+q2+2*q3

    psubw         m2, Q1                        ; p0+q0+q1+q2+2*q3

    paddw         m0, Q3, Q2                    ; q3+q2

    paddw         m2, m0                        ; p0+q0+q1+2*q2+3*q3

    pmulhrsw      m2, [PIC_sym(pw_4096)]

    psubw         m2, Q2

    pand          m2, m4

    paddw         m7, P2

    paddw         m3, P1

    paddw         m5, P0

    paddw         m6, Q0

    paddw         m1, Q1

    paddw         m2, Q2

%ifidn %2, v

    mova [tmpq+strideq*1], m7                   ; p2

    mova [tmpq+strideq*2], m3                   ; p1

    mova [tmpq+stride3q ], m5                   ; p0

    mova [dstq+strideq*0], m6                   ; q0

    mova [dstq+strideq*1], m1                   ; q1

    mova [dstq+strideq*2], m2                   ; q2

%else ; %2 != v

    mova          m0, P3

%if %1 == 8

    lea         tmpq, [dstq+strideq*4]

%if ARCH_X86_64

    SWAP           4, 15

    TRANSPOSE8X8W  0, 7, 3, 5, 6, 1, 2, 4, 8

%else

    TRANSPOSE8X8W  0, 7, 3, 5, 6, 1, 2, 4, "", \

                      Q3, [tmpq+strideq*1-8], a, u

%endif

    ; write 8x8

    movu   [dstq+strideq*0-8], m0

    movu   [dstq+strideq*1-8], m7

    movu   [dstq+strideq*2-8], m3

    movu   [dstq+stride3q -8], m5

    movu   [tmpq+strideq*0-8], m6

%if ARCH_X86_64

    movu   [tmpq+strideq*1-8], m1

%endif

    movu   [tmpq+strideq*2-8], m2

    movu   [tmpq+stride3q -8], m4

    lea         dstq, [dstq+strideq*8]

%else ; %1 != 8

%if ARCH_X86_64

    SWAP           6, 8

    SWAP           1, 9

    SWAP           2, 10

%else

    mova  [rsp+1*16], m6

    mova  [rsp+2*16], m1

    mova  [rsp+3*16], m2

%endif

    mova          m1, [rsp+ 7*16]

    mova          m2, [rsp+ 8*16]

    mova          m4, [rsp+ 9*16]

    mova          m6, [rsp+10*16]

    lea         tmpq, [dstq+strideq*4]

%if ARCH_X86_64

    TRANSPOSE8X8W  1, 2, 4, 6, 0, 7, 3, 5, 11

%else

    mova  [rsp+7*16],  m5

    TRANSPOSE8X8W  1, 2, 4, 6, 0, 7, 3, 5, "", \

                      [rsp+7*16], [tmpq+strideq*1-16], a, a

%endif

    mova [dstq+strideq*0-16], m1

    mova [dstq+strideq*1-16], m2

    mova [dstq+strideq*2-16], m4

    mova [dstq+stride3q -16], m6

    mova [tmpq+strideq*0-16], m0

%if ARCH_X86_64

    mova [tmpq+strideq*1-16], m7

%endif

    mova [tmpq+strideq*2-16], m3

    mova [tmpq+stride3q -16], m5

%if ARCH_X86_64

    SWAP           6, 8

    SWAP           1, 9

    SWAP           2, 10

    SWAP           4, 15

%else

    mova          m6, [rsp+1*16]

    mova          m1, [rsp+2*16]

    mova          m2, [rsp+3*16]

    mova          m4, Q3

%endif

    mova          m0, [rsp+11*16]

    mova          m3, [rsp+12*16]

    mova          m5, [rsp+13*16]

%if ARCH_X86_64

    mova          m7, [rsp+14*16]

    TRANSPOSE8X8W  6, 1, 2, 4, 0, 3, 5, 7, 8

%else

    TRANSPOSE8X8W  6, 1, 2, 4, 0, 3, 5, 7, "", \

                      [rsp+14*16], [tmpq+strideq*1], a, a

%endif

    mova [dstq+strideq*0], m6

    mova [dstq+strideq*1], m1

    mova [dstq+strideq*2], m2

    mova [dstq+stride3q ], m4

    mova [tmpq+strideq*0], m0

%if ARCH_X86_64

    mova [tmpq+strideq*1], m3

%endif

    mova [tmpq+strideq*2], m5

    mova [tmpq+stride3q ], m7

    lea         dstq, [dstq+strideq*8]

%endif ; %1==/!=8

%endif ; %2==/!=v

%elif %1 == 6

    ; flat6 filter

    paddw         m3, P1, P0                    ; p1+p0

    paddw         m3, P2                        ; p2+p1+p0

    paddw         m6, P2, Q0                    ; p2+q0

    paddw         m3, m3                        ; 2*(p2+p1+p0)

    paddw         m3, m6                        ; p2+2*(p2+p1+p0)+q0

    pmulhrsw      m2, m3, [PIC_sym(pw_4096)]

    psubw         m2, P1

    pand          m2, m4

    paddw         m3, Q0                        ; p2+2*(p2+p1+p0+q0)

    paddw         m6, P2, P2                    ; 2*p2

    paddw         m3, Q1                        ; p2+2*(p2+p1+p0+q0)+q1

    psubw         m3, m6                        ; p2+2*(p1+p0+q0)+q1

    pmulhrsw      m5, m3, [PIC_sym(pw_4096)]

    psubw         m5, P0

    pand          m5, m4

    paddw         m3, Q1                        ; p2+2*(p1+p0+q0+q1)

    paddw         m6, P2, P1                    ; p2+p1

    paddw         m3, Q2                        ; p2+2*(p1+p0+q0+q1)+q2

    psubw         m3, m6                        ; p1+2*(p0+q0+q1)+q2

    pmulhrsw      m6, m3, [PIC_sym(pw_4096)]

    psubw         m6, Q0

    pand          m6, m4

    psubw         m3, P1                        ; 2*(p0+q0+q1)+q2

%if ARCH_X86_64

    paddw         Q2, Q2                        ; q2*2

%else

    mova          m0, Q2

    paddw         m0, m0

%endif

    psubw         m3, P0                        ; p0+2*(q0+q1)+q2

%if ARCH_X86_64

    paddw         m3, Q2                        ; p0+q*(q0+q1+q2)+q2

%else

    paddw         m3, m0

%endif

    pmulhrsw      m3, [PIC_sym(pw_4096)]

    psubw         m3, Q1

    pand          m3, m4

    paddw         m2, P1

    paddw         m5, P0

    paddw         m6, Q0

    paddw         m3, Q1

%ifidn %2, v

    mova [dstq+mstrideq*2], m2                   ; p1

    mova [dstq+mstrideq*1], m5                   ; p0

    mova [dstq+strideq*0], m6                   ; q0

    mova [dstq+strideq*1], m3                   ; q1

%else ; %2 != v

    TRANSPOSE_8x4_AND_WRITE_4x8 m2, m5, m6, m3, m0

%endif ; %2==/!=v

%else ; %1 == 4

%if ARCH_X86_64

%ifidn %2, v

    mova [dstq+mstrideq*2], P1                   ; p1

    mova [dstq+mstrideq*1], P0                   ; p0

    mova [dstq+strideq*0], Q0                   ; q0

    mova [dstq+strideq*1], Q1                   ; q1

%else ; %2 != v

    TRANSPOSE_8x4_AND_WRITE_4x8 P1, P0, Q0, Q1, m0

%endif ; %2==/!=v

%else ; x86-32

%ifidn %2, v

    mova [dstq+mstrideq*2], m3

    mova [dstq+mstrideq*1], m5

    mova [dstq+strideq*0], m6

    mova [dstq+strideq*1], m7

%else ; %2 != v

    TRANSPOSE_8x4_AND_WRITE_4x8 m3, m5, m6, m7, m0

%endif ; %2==/!=v

%endif ; x86-32/64

%endif ; %1

%undef P3

%undef P2

%undef P1

%undef P0

%undef Q0

%undef Q1

%undef Q2

%undef Q3

%endmacro

INIT_XMM ssse3

; stack layout:

; r0 - flat8 backup inside flat16 code

%if ARCH_X86_64

cglobal lpf_v_sb_y_16bpc, 6, 12, 16, -16 * 1, \

                          dst, stride, mask, l, l_stride, lut, \

                          w, stride3, mstride, tmp, mask_bits, bdmul

    mov          r6d, r7m

    sar          r6d, 7

    and          r6d, 16                      ; 0 for 10bpc, 16 for 12bpc

    lea       bdmulq, [pw_4]

    add       bdmulq, r6

    mov           wd, wm

    shl    l_strideq, 2

    sub           lq, l_strideq

%else

; stack layout [32bit only]:

; r1-4 - p2-q0 post-filter16

; r5 - p3

; r6 - q3 post-filter16

; r7 - GPRs [mask_bitsm, mstridem]

; r8 - m12/pb_mask

; r9 - bdmulq

cglobal lpf_v_sb_y_16bpc, 4, 7, 8, -16 * (10 + extra_stack), \

                          dst, stride, mask, mstride, pic_reg, stride3, tmp

    RELOC_ARGS     v, 10*16

%if STACK_ALIGNMENT >= 16

    mov          r5d, r7m

%endif

    sar          r5d, 7

    and          r5d, 16                      ; 0 for 10bpc, 16 for 12bpc

    LEA     pic_regq, PIC_base

%define pic_regm dword [esp+7*16+2*gprsize]

    mov     pic_regm, pic_regq

    mova          m0, [PIC_sym(pw_4)+r5]

%define bdmulq esp+9*16

    mova    [bdmulq], m0

    shl dword lstridem, 2

    sub           r3, dword lstridem

    mov     dword lm, r3

%endif

    mov     mstrideq, strideq

    neg     mstrideq

    lea     stride3q, [strideq*3]

%if ARCH_X86_64

    mov   mask_bitsd, 0x3

    mova         m12, [pb_mask]

%else

%define mstridem dword [esp+7*16+1*gprsize]

    mov     mstridem, mstrideq

%define mask_bitsm dword [esp+7*16+0*gprsize]

    mov   mask_bitsm, 0x3

    mova          m0, [PIC_sym(pb_mask)]

%define m12 [esp+8*16]

    mova         m12, m0

%endif

.loop:

%if ARCH_X86_64

    test   [maskq+8], mask_bitsd              ; vmask[2]

%else

    mov          r6d, mask_bitsm

    test   [maskq+8], r6d

%endif

    jz .no_flat16

    FILTER        16, v

    jmp .end

.no_flat16:

%if ARCH_X86_64

    test   [maskq+4], mask_bitsd              ; vmask[1]

%else

    test   [maskq+4], r6d

%endif

    jz .no_flat

    FILTER         8, v

    jmp .end

.no_flat:

%if ARCH_X86_64

    test   [maskq+0], mask_bitsd              ; vmask[0]

%else

    test   [maskq+0], r6d

%endif

    jz .end

    FILTER         4, v

.end:

%if ARCH_X86_64

    pslld        m12, 2

    add           lq, 8

%else

    mova          m0, m12

    pslld         m0, 2

    mova         m12, m0

    add     dword lm, 8

%endif

    add         dstq, 16

%if ARCH_X86_64

    shl   mask_bitsd, 2

    sub           wd, 2

%else

    shl   mask_bitsm, 2

    sub     dword wm, 2

%endif

    jg .loop

%undef mask_bitsm

%undef bdmulq

    UNRELOC_ARGS

RET

INIT_XMM ssse3

; stack layout:

; r0 - flat8 backup inside flat16

; r1-4 - p2-q0 post-filter16 backup

; r5 - q3 post-filter16 backup

; r6 - p3

; r7-10 - p7-4

; r11-14 - q4-7

%if ARCH_X86_64

cglobal lpf_h_sb_y_16bpc, 6, 11, 16, -16 * 15, \

                          dst, stride, mask, l, l_stride, lut, \

                          h, stride3, tmp, mask_bits, bdmul

    mov          r6d, r7m

    sar          r6d, 7

    and          r6d, 16                      ; 0 for 10bpc, 16 for 12bpc

    lea       bdmulq, [pw_4]

    add       bdmulq, r6

    mov           hd, hm

    shl    l_strideq, 2

%else

; stack layout [32bit only]:

; r15 - GPRs [mask_bitsm]

; r16 - m12/pb_mask

; r17 - bdmulq

; r18-24 - p2-q3

cglobal lpf_h_sb_y_16bpc, 4, 7, 8, -16 * (25 + extra_stack), \

                          dst, stride, mask, l, pic_reg, stride3, tmp

    RELOC_ARGS     h, 25*16

%if STACK_ALIGNMENT >= 16

    mov          r5d, r7m

%endif

    sar          r5d, 7

    and          r5d, 16                      ; 0 for 10bpc, 16 for 12bpc

    LEA     pic_regq, PIC_base

    mova          m0, [PIC_sym(pw_4)+r5]

%define bdmulq esp+17*16

    mova    [bdmulq], m0

    shl dword lstridem, 2

%endif

    sub           lq, 4

    lea     stride3q, [strideq*3]

%if ARCH_X86_64

    mov   mask_bitsd, 0x3

    mova         m12, [pb_mask]

%else

%define mask_bitsm dword [esp+15*16+0*gprsize]

    mov   mask_bitsm, 0x3

    mova          m0, [PIC_sym(pb_mask)]

%define m12 [esp+16*16]

    mova         m12, m0

%endif

.loop:

%if ARCH_X86_64

    test   [maskq+8], mask_bitsd            ; vmask[2]

%else

    mov         r6d, mask_bitsm

    test   [maskq+8], r6d

%endif

    jz .no_flat16

    FILTER        16, h

    jmp .end

.no_flat16:

%if ARCH_X86_64

    test   [maskq+4], mask_bitsd            ; vmask[1]

%else

    test   [maskq+4], r6d

%endif

    jz .no_flat

    FILTER         8, h

    jmp .end

.no_flat:

%if ARCH_X86_64

    test   [maskq+0], mask_bitsd            ; vmask[0]

%else

    test   [maskq+0], r6d

%endif

    jz .no_filter

    FILTER         4, h

    jmp .end

.no_filter:

    lea         dstq, [dstq+strideq*8]

.end:

%if ARCH_X86_64

    pslld        m12, 2

    lea           lq, [lq+l_strideq*2]

    shl   mask_bitsd, 2

    sub           hd, 2

%else

    mova          m0, m12

    pslld         m0, 2

    mova         m12, m0

    add           lq, dword lstridem

    add           lq, dword lstridem

    shl   mask_bitsm, 2

    sub     dword hm, 2

%endif

    jg .loop

%undef mask_bitsm

%undef bdmulq

    UNRELOC_ARGS

RET

INIT_XMM ssse3

%if ARCH_X86_64

cglobal lpf_v_sb_uv_16bpc, 6, 12, 16, \

                           dst, stride, mask, l, l_stride, lut, \

                           w, stride3, mstride, tmp, mask_bits, bdmul

    mov          r6d, r7m

    sar          r6d, 7

    and          r6d, 16                      ; 0 for 10bpc, 16 for 12bpc

    lea       bdmulq, [pw_4]

    add       bdmulq, r6

    mov           wd, wm

    shl    l_strideq, 2

    sub           lq, l_strideq

%else

; stack layout [32bit only]:

; r0 - GPRs [mask_bitsm, mstridem]

; r1 - m12/pb_mask

; r2 - bdmulq

cglobal lpf_v_sb_uv_16bpc, 4, 7, 8, -16 * (3 + extra_stack), \

                           dst, stride, mask, mstride, pic_reg, stride3, tmp

    RELOC_ARGS     v, 3*16

%if STACK_ALIGNMENT >= 16

    mov          r5d, r7m

%endif

    sar          r5d, 7

    and          r5d, 16                      ; 0 for 10bpc, 16 for 12bpc

    LEA     pic_regq, PIC_base

    mova          m0, [PIC_sym(pw_4)+r5]

%define bdmulq esp+2*16

    mova    [bdmulq], m0

    shl dword lstridem, 2

    sub           r3, dword lstridem

    mov     dword lm, r3

%endif

    mov     mstrideq, strideq

    neg     mstrideq

    lea     stride3q, [strideq*3]

%if ARCH_X86_64

    mov   mask_bitsd, 0x3

    mova         m12, [pb_mask]

%else

%define mask_bitsm dword [esp+0*gprsize]

%define mstridem dword [esp+1*gprsize]

    mov   mask_bitsm, 0x3

    mov     mstridem, mstrideq

    mova          m0, [PIC_sym(pb_mask)]

%define m12 [esp+1*16]

    mova         m12, m0

%endif

.loop:

%if ARCH_X86_64

    test   [maskq+4], mask_bitsd            ; vmask[1]

%else

    mov          r6d, mask_bitsm

    test   [maskq+4], r6d

%endif

    jz .no_flat

    FILTER         6, v

    jmp .end

.no_flat:

%if ARCH_X86_64

    test   [maskq+0], mask_bitsd            ; vmask[0]

%else

    test   [maskq+0], r6d

%endif

    jz .end

    FILTER         4, v

.end:

%if ARCH_X86_64

    pslld        m12, 2

    add           lq, 8

%else

    mova          m0, m12

    pslld         m0, 2

    mova         m12, m0

    add     dword lm, 8

%endif

    add         dstq, 16

%if ARCH_X86_64

    shl   mask_bitsd, 2

    sub           wd, 2

%else

    shl   mask_bitsm, 2

    sub     dword wm, 2

%endif

    jg .loop

%undef mask_bitsm

%undef bdmulq

    UNRELOC_ARGS

RET

INIT_XMM ssse3

%if ARCH_X86_64

cglobal lpf_h_sb_uv_16bpc, 6, 11, 16, \

                           dst, stride, mask, l, l_stride, lut, \

                           h, stride3, tmp, mask_bits, bdmul

    mov          r6d, r7m

    sar          r6d, 7

    and          r6d, 16                      ; 0 for 10bpc, 16 for 12bpc

    lea       bdmulq, [pw_4]

    add       bdmulq, r6

    mov           hd, hm

    shl    l_strideq, 2

%else

; stack layout [32bit only]:

; r0 - GPRs [mask_bitsm]

; r1 - m12/pb_mask

; r2 - bdmulq

; r3-8 - p2-q2

cglobal lpf_h_sb_uv_16bpc, 4, 7, 8, -16 * (9 + extra_stack), \

                           dst, stride, mask, l, pic_reg, stride3, tmp

    RELOC_ARGS     h, 9*16

%if STACK_ALIGNMENT >= 16

    mov          r5d, r7m

%endif

    sar          r5d, 7

    and          r5d, 16                      ; 0 for 10bpc, 16 for 12bpc

    LEA     pic_regq, PIC_base

    mova          m0, [PIC_sym(pw_4)+r5]

%define bdmulq esp+2*16

    mova    [bdmulq], m0

    shl dword lstridem, 2

%endif

    sub           lq, 4

    lea     stride3q, [strideq*3]

%if ARCH_X86_64

    mov   mask_bitsd, 0x3

    mova         m12, [pb_mask]

%else

%define mask_bitsm dword [esp+0*gprsize]

    mov   mask_bitsm, 0x3

    mova          m0, [PIC_sym(pb_mask)]

%define m12 [esp+1*16]

    mova         m12, m0

%endif

.loop:

%if ARCH_X86_64

    test   [maskq+4], mask_bitsd            ; vmask[1]

%else

    mov          r6d, mask_bitsm

    test   [maskq+4], r6d

%endif

    jz .no_flat

    FILTER         6, h

    jmp .end

.no_flat:

%if ARCH_X86_64

    test   [maskq+0], mask_bitsd            ; vmask[0]

%else

    test   [maskq+0], r6d

%endif

    jz .no_filter

    FILTER         4, h

    jmp .end

.no_filter:

    lea         dstq, [dstq+strideq*8]

.end:

%if ARCH_X86_64

    pslld        m12, 2

    lea           lq, [lq+l_strideq*2]

    shl   mask_bitsd, 2

    sub           hd, 2

%else

    mova          m0, m12

    pslld         m0, 2

    mova         m12, m0

    add           lq, dword lstridem

    add           lq, dword lstridem

    shl   mask_bitsm, 2

    sub     dword hm, 2

%endif

    jg .loop

%undef mask_bitsm

%undef bdmulq

    UNRELOC_ARGS

RET