filmgrain_avx512.asm

mozilla-central/third_party/dav1d/src/x86/filmgrain_avx512.asm

Enable keyboard shortcuts

Source code

File a bug in Core :: Audio/Video: Playback

Revision control

Copy as Markdown

Other Tools

; Copyright © 2022, VideoLAN and dav1d authors

; Copyright © 2022, Two Orioles, LLC

; All rights reserved.

; Redistribution and use in source and binary forms, with or without

; modification, are permitted provided that the following conditions are met:

; 1. Redistributions of source code must retain the above copyright notice, this

;    list of conditions and the following disclaimer.

; 2. Redistributions in binary form must reproduce the above copyright notice,

;    this list of conditions and the following disclaimer in the documentation

;    and/or other materials provided with the distribution.

; THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND

; ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED

; WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE

; DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR

; ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES

; (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;

; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND

; ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT

; (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS

; SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.

%include "config.asm"

%include "ext/x86/x86inc.asm"

%include "x86/filmgrain_common.asm"

%if ARCH_X86_64

SECTION_RODATA 64

pb_even:       db  0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30

               db 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 52, 54, 56, 58, 60, 62

               db 64, 66, 68, 70, 72, 74, 76, 78, 80, 82, 84, 86, 88, 90, 92, 94

               db 96, 98,100,102,104,106,108,110,112,114,116,118,120,122,124,126

pb_odd:        db  1,  3,  5,  7,  9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31

               db 33, 35, 37, 39, 41, 43, 45, 47, 49, 51, 53, 55, 57, 59, 61, 63

               db 65, 67, 69, 71, 73, 75, 77, 79, 81, 83, 85, 87, 89, 91, 93, 95

               db 97, 99,101,103,105,107,109,111,113,115,117,119,121,123,125,127

interleave_hl: db  8,  0,  9,  1, 10,  2, 11,  3, 12,  4, 13,  5, 14,  6, 15,  7

pb_27_17_17_27:        db 27, 17, 17, 27,  0, 32,  0, 32

pb_23_22_0_32:         db 23, 22,  0, 32,  0, 32,  0, 32

pb_27_17:      times 2 db 27, 17

pb_23_22:      times 2 db 23, 22

pw_8:          times 2 dw 8

pw_1024:       times 2 dw 1024

pb_17_27:      times 2 db 17, 27

fg_max:        times 4 db 255

               times 4 db 240

               times 4 db 235

fg_min:        times 4 db 0

               times 4 db 16

noise_rnd:     times 2 dw 128

               times 2 dw 64

               times 2 dw 32

               times 2 dw 16

SECTION .text

INIT_ZMM avx512icl

cglobal fgy_32x32xn_8bpc, 6, 13, 22, dst, src, stride, fg_data, w, scaling, \

                                     grain_lut, h, sby, see, overlap

%define base r11-fg_min

    lea             r11, [fg_min]

    mov             r6d, [fg_dataq+FGData.scaling_shift]

    mov             r7d, [fg_dataq+FGData.clip_to_restricted_range]

    mov            sbyd, sbym

    mov        overlapd, [fg_dataq+FGData.overlap_flag]

    mov             r12, 0x0000000f0000000f ; h_overlap mask

    mova             m0, [scalingq+64*0]

    mova             m1, [scalingq+64*1]

    mova             m2, [scalingq+64*2]

    mova             m3, [scalingq+64*3]

    kmovq            k1, r12

    vbroadcasti32x4  m4, [base+interleave_hl]

    vpbroadcastd   ym16, [base+pb_27_17]

    vpbroadcastd    m12, [base+pb_17_27]

    vpbroadcastd     m6, [base+noise_rnd+r6*4-32]

    test           sbyd, sbyd

    setnz           r6b

    vpbroadcastd     m7, [base+fg_min+r7*4]

    vpbroadcastd     m8, [base+fg_max+r7*8]

    pxor             m5, m5

    vpbroadcastd     m9, [base+pw_1024]

    vpbroadcastq    m10, [base+pb_27_17_17_27]

    vmovdqa64   m12{k1}, m16

    test            r6b, overlapb

    jnz .v_overlap

    imul           seed, sbyd, (173 << 24) | 37

    add            seed, (105 << 24) | 178

    rorx           seed, seed, 24

    movzx          seed, seew

    xor            seed, [fg_dataq+FGData.seed]

    DEFINE_ARGS dst, src, stride, src_bak, w, offx, offy, \

                h, sby, see, overlap

    lea        src_bakq, [srcq+wq]

    neg              wq

    sub            dstq, srcq

.loop_x:

    rorx             r6, seeq, 1

    or             seed, 0xeff4

    test           seeb, seeh

    lea            seed, [r6+0x8000]

    cmovp          seed, r6d                 ; updated seed

    rorx          offyd, seed, 8

    rorx          offxq, seeq, 12

    and           offyd, 0xf

    imul          offyd, 164

    lea           offxd, [offyq+offxq*2+829] ; offy*stride+offx

    DEFINE_ARGS dst, src, stride, src_bak, w, offxy, grain_lut, \

                h, sby, see, overlap

    mov      grain_lutq, grain_lutmp

    mov              hd, hm

.loop_y:

    movu           ym21, [grain_lutq+offxyq-82]

    vinserti32x8    m21, [grain_lutq+offxyq+ 0], 1

    call .add_noise

    sub              hb, 2

    jg .loop_y

    add              wq, 32

    jge .end

    lea            srcq, [src_bakq+wq]

    test       overlapd, overlapd

    jz .loop_x

    test           sbyd, sbyd

    jnz .hv_overlap

.loop_x_h_overlap:

    rorx             r6, seeq, 1

    or             seed, 0xeff4

    test           seeb, seeh

    lea            seed, [r6+0x8000]

    cmovp          seed, r6d                 ; updated seed

    DEFINE_ARGS dst, src, stride, src_bak, w, offx, offy, \

                h, sby, see, left_offxy

    rorx          offyd, seed, 8

    mov     left_offxyd, offxd               ; previous column's offy*stride

    rorx          offxq, seeq, 12

    and           offyd, 0xf

    imul          offyd, 164

    lea           offxd, [offyq+offxq*2+829] ; offy*stride+offx

    DEFINE_ARGS dst, src, stride, src_bak, w, offxy, grain_lut, \

                h, sby, see, left_offxy

    mov      grain_lutq, grain_lutmp

    mov              hd, hm

.loop_y_h_overlap:

    movu           ym20, [grain_lutq+offxyq-82]

    vinserti32x8    m20, [grain_lutq+offxyq+ 0], 1

    movd           xm19, [grain_lutq+left_offxyq-50]

    vinserti32x4    m19, [grain_lutq+left_offxyq+32], 2

    punpcklbw       m19, m20

    pmaddubsw       m19, m10, m19

    pmulhrsw        m19, m9

    punpckhbw       m21, m20, m5

    packsswb    m20{k1}, m19, m19

    punpcklbw       m20, m5, m20

    call .add_noise_h

    sub              hb, 2

    jg .loop_y_h_overlap

    add              wq, 32

    jge .end

    lea            srcq, [src_bakq+wq]

    test           sbyd, sbyd

    jnz .hv_overlap

    jmp .loop_x_h_overlap

.v_overlap:

    DEFINE_ARGS dst, src, stride, fg_data, w, offy, offx, \

                h, sby, see, overlap

    movzx           r6d, sbyb

    imul           seed, [fg_dataq+FGData.seed], 0x00010001

    imul            r7d, r6d, 173 * 0x00010001

    imul            r6d, 37 * 0x01000100

    add             r7d, (105 << 16) | 188

    add             r6d, (178 << 24) | (141 << 8)

    and             r7d, 0x00ff00ff

    and             r6d, 0xff00ff00

    xor            seed, r7d

    xor            seed, r6d     ; (cur_seed << 16) | top_seed

    DEFINE_ARGS dst, src, stride, src_bak, w, offx, offy, \

                h, sby, see, overlap

    lea        src_bakq, [srcq+wq]

    neg              wq

    sub            dstq, srcq

    ; we assume from the block above that bits 8-15 of r7d are zero'ed

    mov             r6d, seed

    or             seed, 0xeff4eff4

    test           seeb, seeh

    setp            r7b          ; parity of top_seed

    shr            seed, 16

    shl             r7d, 16

    test           seeb, seeh

    setp            r7b          ; parity of cur_seed

    or              r6d, 0x00010001

    xor             r7d, r6d

    rorx           seed, r7d, 1  ; updated (cur_seed << 16) | top_seed

    rorx          offyd, seed, 8

    rorx          offxd, seed, 12

    and           offyd, 0xf000f

    and           offxd, 0xf000f

    imul          offyd, 164

    ; offxy=offy*stride+offx, (cur_offxy << 16) | top_offxy

    lea           offxd, [offyq+offxq*2+0x10001*829+32*82]

    DEFINE_ARGS dst, src, stride, src_bak, w, offxy, grain_lut, \

                h, sby, see, overlap, top_offxy

    mov      grain_lutq, grain_lutmp

    mov              hd, hm

    movzx    top_offxyd, offxyw

    shr          offxyd, 16

    movu           ym19, [grain_lutq+offxyq-82]

    vinserti32x8    m19, [grain_lutq+offxyq+ 0], 1

    movu           ym21, [grain_lutq+top_offxyq-82]

    vinserti32x8    m21, [grain_lutq+top_offxyq+ 0], 1

    punpckhbw       m20, m21, m19

    punpcklbw       m21, m19

    call .add_noise_v

    sub              hb, 2

    jg .loop_y

    add              wq, 32

    jge .end

    lea            srcq, [src_bakq+wq]

    ; since fg_dataq.overlap is guaranteed to be set, we never jump back

    ; to .v_overlap, and instead always fall-through to h+v overlap

.hv_overlap:

    ; we assume from the block above that bits 8-15 of r7d are zero'ed

    mov             r6d, seed

    or             seed, 0xeff4eff4

    test           seeb, seeh

    setp            r7b          ; parity of top_seed

    shr            seed, 16

    shl             r7d, 16

    test           seeb, seeh

    setp            r7b          ; parity of cur_seed

    or              r6d, 0x00010001

    xor             r7d, r6d

    rorx           seed, r7d, 1  ; updated (cur_seed << 16) | top_seed

    DEFINE_ARGS dst, src, stride, src_bak, w, offx, offy, \

                h, sby, see, left_offxy, top_offxy, topleft_offxy

    mov  topleft_offxyd, top_offxyd

    rorx          offyd, seed, 8

    mov     left_offxyd, offxd

    rorx          offxd, seed, 12

    and           offyd, 0xf000f

    and           offxd, 0xf000f

    imul          offyd, 164

    ; offxy=offy*stride+offx, (cur_offxy << 16) | top_offxy

    lea           offxd, [offyq+offxq*2+0x10001*829+32*82]

    DEFINE_ARGS dst, src, stride, src_bak, w, offxy, grain_lut, \

                h, sby, see, left_offxy, top_offxy, topleft_offxy

    mov      grain_lutq, grain_lutmp

    mov              hd, hm

    movzx    top_offxyd, offxyw

    shr          offxyd, 16

    movu           ym19, [grain_lutq+offxyq-82]

    vinserti32x8    m19, [grain_lutq+offxyq+ 0], 1

    movd           xm16, [grain_lutq+left_offxyq-50]

    vinserti32x4    m16, [grain_lutq+left_offxyq+32], 2

    movu           ym21, [grain_lutq+top_offxyq-82]

    vinserti32x8    m21, [grain_lutq+top_offxyq+ 0], 1

    movd           xm17, [grain_lutq+topleft_offxyq-50]

    vinserti32x4    m17, [grain_lutq+topleft_offxyq+32], 2

    ; do h interpolation first (so top | top/left -> top, left | cur -> cur)

    punpcklbw       m16, m19

    pmaddubsw       m16, m10, m16

    punpcklbw       m17, m21

    pmaddubsw       m17, m10, m17

    punpckhbw       m20, m21, m19

    pmulhrsw        m16, m9

    pmulhrsw        m17, m9

    packsswb    m19{k1}, m16, m16

    packsswb    m21{k1}, m17, m17

    ; followed by v interpolation (top | cur -> cur)

    punpcklbw       m21, m19

    call .add_noise_v

    sub              hb, 2

    jg .loop_y_h_overlap

    add              wq, 32

    lea            srcq, [src_bakq+wq]

    jl .hv_overlap

.end:

RET

ALIGN function_align

.add_noise_v:

    pmaddubsw       m20, m12, m20

    pmaddubsw       m21, m12, m21

    pmulhrsw        m20, m9

    pmulhrsw        m21, m9

    packsswb        m21, m20

.add_noise:

    punpcklbw       m20, m5, m21

    punpckhbw       m21, m5

.add_noise_h:

    mova           ym18, [srcq+strideq*0]

    vinserti32x8    m18, [srcq+strideq*1], 1

    mova            m19, m0

    punpcklbw       m16, m18, m5

    vpermt2b        m19, m18, m1 ; scaling[  0..127]

    vpmovb2m         k2, m18

    punpckhbw       m17, m18, m5

    vpermi2b        m18, m2, m3  ; scaling[128..255]

    vmovdqu8    m19{k2}, m18     ; scaling[src]

    pshufb          m19, m4

    pmaddubsw       m18, m19, m20

    pmaddubsw       m19, m21

    add      grain_lutq, 82*2

    pmulhrsw        m18, m6      ; noise

    pmulhrsw        m19, m6

    paddw           m16, m18

    paddw           m17, m19

    packuswb        m16, m17

    pmaxub          m16, m7

    pminub          m16, m8

    mova    [dstq+srcq], ym16

    add            srcq, strideq

    vextracti32x8 [dstq+srcq], m16, 1

    add            srcq, strideq

ret

%macro FGUV_FN 3 ; name, ss_hor, ss_ver

cglobal fguv_32x32xn_i%1_8bpc, 6, 14+%2, 22, dst, src, stride, fg_data, w, \

                                             scaling, grain_lut, h, sby, luma, \

                                             overlap, uv_pl, is_id, _, stride3

    lea             r11, [fg_min]

    mov             r6d, [fg_dataq+FGData.scaling_shift]

    mov             r7d, [fg_dataq+FGData.clip_to_restricted_range]

    mov             r9d, is_idm

    mov            sbyd, sbym

    mov        overlapd, [fg_dataq+FGData.overlap_flag]

%if %2

    mov             r12, 0x000f000f000f000f ; h_overlap mask

    vpbroadcastq    m10, [base+pb_23_22_0_32]

    lea        stride3q, [strideq*3]

%else

    mov             r12, 0x0000000f0000000f

    vpbroadcastq    m10, [base+pb_27_17_17_27]

%endif

    mova             m0, [scalingq+64*0]

    mova             m1, [scalingq+64*1]

    mova             m2, [scalingq+64*2]

    mova             m3, [scalingq+64*3]

    kmovq            k1, r12

    vbroadcasti32x4  m4, [base+interleave_hl]

    vpbroadcastd     m6, [base+noise_rnd+r6*4-32]

    vpbroadcastd     m7, [base+fg_min+r7*4]

    shlx            r7d, r7d, r9d

    vpbroadcastd     m8, [base+fg_max+r7*4]

    test           sbyd, sbyd

    setnz           r7b

    vpbroadcastd     m9, [base+pw_1024]

    mova            m11, [base+pb_even]

    mova            m12, [base+pb_odd]

    pxor             m5, m5

    mov              r5, r10mp      ; lstride

    cmp byte [fg_dataq+FGData.chroma_scaling_from_luma], 0

    jne .csfl

%macro %%FGUV_32x32xN_LOOP 3 ; not-csfl, ss_hor, ss_ver

    DEFINE_ARGS dst, src, stride, fg_data, w, lstride, grain_lut, \

                h, sby, see, overlap, uv_pl, _, _, stride3

%if %1

    mov             r6d, uv_plm

    vpbroadcastd    m16, [base+pw_8]

    vbroadcasti32x4 m14, [fg_dataq+FGData.uv_mult+r6*4]

    vpbroadcastw    m15, [fg_dataq+FGData.uv_offset+r6*4]

    pshufb          m14, m16     ; uv_luma_mult, uv_mult

%endif

    test            r7b, overlapb

    jnz %%v_overlap

    imul           seed, sbyd, (173 << 24) | 37

    add            seed, (105 << 24) | 178

    rorx           seed, seed, 24

    movzx          seed, seew

    xor            seed, [fg_dataq+FGData.seed]

    DEFINE_ARGS dst, src, stride, luma, w, lstride, grain_lut, \

                offx, offy, see, overlap, _, _, _, stride3

    mov           lumaq, r9mp

    lea             r11, [srcq+wq]

    lea             r12, [dstq+wq]

    lea             r13, [lumaq+wq*(1+%2)]

    mov           r11mp, r11

    mov           r12mp, r12

    neg              wq

%%loop_x:

    rorx             r6, seeq, 1

    or             seed, 0xeff4

    test           seeb, seeh

    lea            seed, [r6+0x8000]

    cmovp          seed, r6d     ; updated seed

    rorx          offyd, seed, 8

    rorx          offxq, seeq, 12

    and           offyd, 0xf

    imul          offyd, 164>>%3

    lea           offyd, [offyq+offxq*(2-%2)+(3+(6>>%3))*82+3+(6>>%2)] ; offy*stride+offx

    DEFINE_ARGS dst, src, stride, luma, w, lstride, grain_lut, \

                h, offxy, see, overlap, _, _, _, stride3

    mov      grain_lutq, grain_lutmp

    mov              hd, hm

%%loop_y:

%if %2

    movu           xm21, [grain_lutq+offxyq+82*0]

    vinserti128    ym21, [grain_lutq+offxyq+82*1], 1

    vinserti32x4    m21, [grain_lutq+offxyq+82*2], 2

    vinserti32x4    m21, [grain_lutq+offxyq+82*3], 3

%else

    movu           ym21, [grain_lutq+offxyq+82*0]

    vinserti32x8    m21, [grain_lutq+offxyq+82*1], 1

%endif

    call %%add_noise

    sub              hb, 2<<%2

    jg %%loop_y

    add              wq, 32>>%2

    jge .end

    mov            srcq, r11mp

    mov            dstq, r12mp

    lea           lumaq, [r13+wq*(1<<%2)]

    add            srcq, wq

    add            dstq, wq

    test       overlapd, overlapd

    jz %%loop_x

    cmp       dword r8m, 0       ; sby

    jne %%hv_overlap

    ; horizontal overlap (without vertical overlap)

%%loop_x_h_overlap:

    rorx             r6, seeq, 1

    or             seed, 0xeff4

    test           seeb, seeh

    lea            seed, [r6+0x8000]

    cmovp          seed, r6d     ; updated seed

    DEFINE_ARGS dst, src, stride, luma, w, lstride, grain_lut, \

                offx, offy, see, left_offxy, _, _, _, stride3

    lea     left_offxyd, [offyq+(32>>%2)]         ; previous column's offy*stride+offx

    rorx          offyd, seed, 8

    rorx          offxq, seeq, 12

    and           offyd, 0xf

    imul          offyd, 164>>%3

    lea           offyd, [offyq+offxq*(2-%2)+(3+(6>>%3))*82+3+(6>>%2)] ; offy*stride+offx

    DEFINE_ARGS dst, src, stride, luma, w, lstride, grain_lut, \

                h, offxy, see, left_offxy, _, _, _, stride3

    mov      grain_lutq, grain_lutmp

    mov              hd, hm

%%loop_y_h_overlap:

%if %2

    movu           xm20, [grain_lutq+offxyq     +82*0]

    movd           xm19, [grain_lutq+left_offxyq+82*0]

    vinserti32x4   ym20, [grain_lutq+offxyq     +82*1], 1

    vinserti32x4   ym19, [grain_lutq+left_offxyq+82*1], 1

    vinserti32x4    m20, [grain_lutq+offxyq     +82*2], 2

    vinserti32x4    m19, [grain_lutq+left_offxyq+82*2], 2

    vinserti32x4    m20, [grain_lutq+offxyq     +82*3], 3

    vinserti32x4    m19, [grain_lutq+left_offxyq+82*3], 3

%else

    movu           ym20, [grain_lutq+offxyq     + 0]

    movd           xm19, [grain_lutq+left_offxyq+ 0]

    vinserti32x8    m20, [grain_lutq+offxyq     +82], 1

    vinserti32x4    m19, [grain_lutq+left_offxyq+82], 2

%endif

    punpcklbw       m19, m20

    pmaddubsw       m19, m10, m19

    punpckhbw       m21, m20, m5

    pmulhrsw        m19, m9

    vpacksswb   m20{k1}, m19, m19

    punpcklbw       m20, m5, m20

    call %%add_noise_h

    sub              hb, 2<<%2

    jg %%loop_y_h_overlap

    add              wq, 32>>%2

    jge .end

    mov            srcq, r11mp

    mov            dstq, r12mp

    lea           lumaq, [r13+wq*(1<<%2)]

    add            srcq, wq

    add            dstq, wq

    cmp       dword r8m, 0       ; sby

    jne %%hv_overlap

    jmp %%loop_x_h_overlap

%%v_overlap:

    DEFINE_ARGS dst, src, stride, fg_data, w, lstride, grain_lut, \

                _, sby, see, overlap, _, _, _, stride3

    movzx          sbyd, sbyb

    imul           seed, [fg_dataq+FGData.seed], 0x00010001

    imul            r7d, sbyd, 173 * 0x00010001

    imul           sbyd, 37 * 0x01000100

    add             r7d, (105 << 16) | 188

    add            sbyd, (178 << 24) | (141 << 8)

    and             r7d, 0x00ff00ff

    and            sbyd, 0xff00ff00

    xor            seed, r7d

    xor            seed, sbyd    ; (cur_seed << 16) | top_seed

%if %3

    vpbroadcastd    m13, [base+pb_23_22]

    kxnorw           k3, k3, k3  ; v_overlap mask

%elif %2

    vbroadcasti32x8 m13, [base+pb_27_17]

    kxnord           k3, k3, k3

    pshufd          m13, m13, q0000 ; 8x27_17, 8x17_27

%else

    vpbroadcastd   ym16, [base+pb_27_17]

    vpbroadcastd    m13, [base+pb_17_27]

    vmovdqa64   m13{k1}, m16

%endif

    DEFINE_ARGS dst, src, stride, luma, w, lstride, grain_lut, \

                offx, offy, see, overlap, top_offxy, _, _, stride3

    mov           lumaq, r9mp

    lea             r11, [srcq+wq]

    lea             r12, [dstq+wq]

    lea             r13, [lumaq+wq*(1<<%2)]

    mov           r11mp, r11

    mov           r12mp, r12

    neg              wq

    ; we assume from the block above that bits 8-15 of r7d are zero'ed

    mov             r6d, seed

    or             seed, 0xeff4eff4

    test           seeb, seeh

    setp            r7b          ; parity of top_seed

    shr            seed, 16

    shl             r7d, 16

    test           seeb, seeh

    setp            r7b          ; parity of cur_seed

    or              r6d, 0x00010001

    xor             r7d, r6d

    rorx           seed, r7d, 1  ; updated (cur_seed << 16) | top_seed

    rorx          offyd, seed, 8

    rorx          offxd, seed, 12

    and           offyd, 0x000f000f

    and           offxd, 0x000f000f

    imul          offyd, 164>>%3

    ; offxy=offy*stride+offx, (cur_offxy << 16) | top_offxy

    lea           offyd, [offyq+offxq*(2-%2)+0x10001*((3+(6>>%3))*82+3+(6>>%2))+(32>>%3)*82]

    DEFINE_ARGS dst, src, stride, luma, w, lstride, grain_lut, \

                h, offxy, see, overlap, top_offxy, _, _, stride3

    mov      grain_lutq, grain_lutmp

    mov              hd, hm

    movzx    top_offxyd, offxyw

    shr          offxyd, 16

%if %3

    movu           xm18, [grain_lutq+offxyq+82*0]

    movu           xm20, [grain_lutq+top_offxyq+82*0]

    ; only interpolate first line, insert remaining line unmodified

    vbroadcasti128 ym21, [grain_lutq+offxyq+82*1]

    vinserti32x4    m21, [grain_lutq+offxyq+82*2], 2

    vinserti32x4    m21, [grain_lutq+offxyq+82*3], 3

    punpcklbw      xm19, xm20, xm18

    punpckhbw      xm20, xm18

%elif %2

    movu           xm18, [grain_lutq+offxyq+82*0]

    vinserti128    ym18, [grain_lutq+offxyq+82*1], 1

    movu           xm20, [grain_lutq+top_offxyq+82*0]

    vinserti32x4   ym20, [grain_lutq+top_offxyq+82*1], 1

    vbroadcasti32x4 m21, [grain_lutq+offxyq+82*2]

    vinserti32x4    m21, [grain_lutq+offxyq+82*3], 3

    punpcklbw      ym19, ym20, ym18

    punpckhbw      ym20, ym18

%else

    movu           ym21, [grain_lutq+offxyq+82*0]

    vinserti32x8    m21, [grain_lutq+offxyq+82*1], 1

    movu           ym20, [grain_lutq+top_offxyq+82*0]

    vinserti32x8    m20, [grain_lutq+top_offxyq+82*1], 1

%endif

    call %%add_noise_v

    sub              hb, 2<<%2

    jg %%loop_y

    add              wq, 32>>%2

    jge .end

    mov            srcq, r11mp

    mov            dstq, r12mp

    lea           lumaq, [r13+wq*(1<<%2)]

    add            srcq, wq

    add            dstq, wq

%%hv_overlap:

    ; we assume from the block above that bits 8-15 of r7d are zero'ed

    mov             r6d, seed

    or             seed, 0xeff4eff4

    test           seeb, seeh

    setp            r7b          ; parity of top_seed

    shr            seed, 16

    shl             r7d, 16

    test           seeb, seeh

    setp            r7b          ; parity of cur_seed

    or              r6d, 0x00010001

    xor             r7d, r6d

    rorx           seed, r7d, 1  ; updated (cur_seed << 16) | top_seed

    DEFINE_ARGS dst, src, stride, luma, w, lstride, grain_lut, \

                offx, offy, see, left_offxy, top_offxy, topleft_offxy, _, stride3

    lea  topleft_offxyd, [top_offxyq+(32>>%2)]

    lea     left_offxyd, [offyq+(32>>%2)]

    rorx          offyd, seed, 8

    rorx          offxd, seed, 12

    and           offyd, 0x000f000f

    and           offxd, 0x000f000f

    imul          offyd, 164>>%3

    ; offxy=offy*stride+offx, (cur_offxy << 16) | top_offxy

    lea           offyd, [offyq+offxq*(2-%2)+0x10001*((3+(6>>%3))*82+3+(6>>%2))+(32>>%3)*82]

    DEFINE_ARGS dst, src, stride, luma, w, lstride, grain_lut, \

                h, offxy, see, left_offxy, top_offxy, topleft_offxy, _, stride3

    mov      grain_lutq, grain_lutmp

    mov              hd, hm

    movzx    top_offxyd, offxyw

    shr          offxyd, 16

%if %2

    movu           xm21, [grain_lutq+offxyq+82*0]

    movd           xm16, [grain_lutq+left_offxyq+82*0]

    vinserti128    ym21, [grain_lutq+offxyq+82*1], 1

    vinserti128    ym16, [grain_lutq+left_offxyq+82*1], 1

    vinserti32x4    m21, [grain_lutq+offxyq+82*2], 2

    vinserti32x4    m16, [grain_lutq+left_offxyq+82*2], 2

    vinserti32x4    m21, [grain_lutq+offxyq+82*3], 3

    vinserti32x4    m16, [grain_lutq+left_offxyq+82*3], 3

    movd           xm18, [grain_lutq+topleft_offxyq+82*0]

    movu           xm20, [grain_lutq+top_offxyq]

    ; do h interpolation first (so top | top/left -> top, left | cur -> cur)

    punpcklbw       m16, m21

%if %3

    punpcklbw      xm18, xm20

%else

    vinserti128    ym18, [grain_lutq+topleft_offxyq+82*1], 1

    vinserti128    ym20, [grain_lutq+top_offxyq+82*1], 1

    punpcklbw      ym18, ym20

%endif

    punpcklqdq      m16, m18

    pmaddubsw       m16, m10, m16

    pmulhrsw        m16, m9

    packsswb        m16, m16

    vmovdqu8    m21{k1}, m16

%if %3

    vpalignr   xm20{k1}, xm16, xm16, 4

    punpcklbw      xm19, xm20, xm21

    punpckhbw      xm20, xm21

%else

    vpalignr   ym20{k1}, ym16, ym16, 4

    punpcklbw      ym19, ym20, ym21

    punpckhbw      ym20, ym21

%endif

%else

    movu           ym21, [grain_lutq+offxyq+82*0]

    vinserti32x8    m21, [grain_lutq+offxyq+82*1], 1

    movd           xm16, [grain_lutq+left_offxyq+82*0]

    vinserti32x4    m16, [grain_lutq+left_offxyq+82*1], 2

    movu           ym20, [grain_lutq+top_offxyq+82*0]

    vinserti32x8    m20, [grain_lutq+top_offxyq+82*1], 1

    movd           xm18, [grain_lutq+topleft_offxyq+82*0]

    vinserti32x4    m18, [grain_lutq+topleft_offxyq+82*1], 2

    punpcklbw       m16, m21

    punpcklbw       m18, m20

    punpcklqdq      m16, m18

    pmaddubsw       m16, m10, m16

    pmulhrsw        m16, m9

    packsswb        m16, m16

    vpalignr    m20{k1}, m16, m16, 4

    vmovdqu8    m21{k1}, m16

%endif

    call %%add_noise_v

    sub              hb, 2<<%2

    jg %%loop_y_h_overlap

    add              wq, 32>>%2

    jge .end

    mov            srcq, r11mp

    mov            dstq, r12mp

    lea           lumaq, [r13+wq*(1<<%2)]

    add            srcq, wq

    add            dstq, wq

    jmp %%hv_overlap

ALIGN function_align

%%add_noise_v:

%if %3

    pmaddubsw      xm19, xm13, xm19

    pmaddubsw      xm20, xm13, xm20

    pmulhrsw       xm19, xm9

    pmulhrsw       xm20, xm9

    vpacksswb   m21{k3}, m19, m20

%elif %2

    pmaddubsw      ym19, ym13, ym19

    pmaddubsw      ym20, ym13, ym20

    pmulhrsw       ym19, ym9

    pmulhrsw       ym20, ym9

    vpacksswb   m21{k3}, m19, m20

%else

    punpcklbw       m19, m20, m21

    punpckhbw       m20, m21

    pmaddubsw       m19, m13, m19

    pmaddubsw       m20, m13, m20

    pmulhrsw        m19, m9

    pmulhrsw        m20, m9

    packsswb        m21, m19, m20

%endif

%%add_noise:

    punpcklbw       m20, m5, m21

    punpckhbw       m21, m5

%%add_noise_h:

    mova           ym18, [lumaq+lstrideq*(0<<%3)]

    vinserti32x8    m18, [lumaq+lstrideq*(1<<%3)], 1

%if %2

    lea           lumaq, [lumaq+lstrideq*(2<<%3)]

    mova           ym16, [lumaq+lstrideq*(0<<%3)]

    vinserti32x8    m16, [lumaq+lstrideq*(1<<%3)], 1

    mova           xm17, [srcq+strideq*0]

    mova            m19, m11

    vpermi2b        m19, m18, m16

    vinserti128    ym17, [srcq+strideq*1], 1

    vpermt2b        m18, m12, m16

    vinserti32x4    m17, [srcq+strideq*2], 2

    pavgb           m18, m19

    vinserti32x4    m17, [srcq+stride3q ], 3

%else

    mova           ym17, [srcq+strideq*0]

    vinserti32x8    m17, [srcq+strideq*1], 1

%endif

%if %1

    punpckhbw       m19, m18, m17

    punpcklbw       m18, m17     ; { luma, chroma }

    pmaddubsw       m19, m14

    pmaddubsw       m18, m14

    psraw           m19, 6

    psraw           m18, 6

    paddw           m19, m15

    paddw           m18, m15

    packuswb        m18, m19

.add_noise_main:

    mova            m19, m0

    vpermt2b        m19, m18, m1 ; scaling[  0..127]

    vpmovb2m         k2, m18

    vpermi2b        m18, m2, m3  ; scaling[128..255]

    vmovdqu8    m19{k2}, m18     ; scaling[src]

    pshufb          m19, m4

    pmaddubsw       m18, m19, m20

    pmaddubsw       m19, m21

    add      grain_lutq, 82*2<<%2

    lea           lumaq, [lumaq+lstrideq*(2<<%3)]

    lea            srcq, [srcq+strideq*(2<<%2)]

    pmulhrsw        m18, m6      ; noise

    pmulhrsw        m19, m6

    punpcklbw       m16, m17, m5 ; chroma

    punpckhbw       m17, m5

    paddw           m16, m18

    paddw           m17, m19

    packuswb        m16, m17

    pmaxub          m16, m7

    pminub          m16, m8

%if %2

    mova          [dstq+strideq*0], xm16

    vextracti128  [dstq+strideq*1], ym16, 1

    vextracti32x4 [dstq+strideq*2], m16, 2

    vextracti32x4 [dstq+stride3q ], m16, 3

%else

    mova          [dstq+strideq*0], ym16

    vextracti32x8 [dstq+strideq*1], m16, 1

%endif

    lea            dstq, [dstq+strideq*(2<<%2)]

ret

%else

    jmp .add_noise_main

%endif

%endmacro

    %%FGUV_32x32xN_LOOP 1, %2, %3

.csfl:

    %%FGUV_32x32xN_LOOP 0, %2, %3

.end:

RET

%endmacro

FGUV_FN 420, 1, 1

FGUV_FN 422, 1, 0

FGUV_FN 444, 0, 0

%endif ; ARCH_X86_64