avx.rs - mozsearch

mozilla-central/third_party/rust/memchr/src/memchr/x86/avx.rs

Enable keyboard shortcuts

Source code

File a bug in Firefox Build System :: General

Revision control

Copy as Markdown

Other Tools

use core::{arch::x86_64::*, cmp, mem::size_of};

use super::sse2;

const VECTOR_SIZE: usize = size_of::<__m256i>();

const VECTOR_ALIGN: usize = VECTOR_SIZE - 1;

// The number of bytes to loop at in one iteration of memchr/memrchr.

const LOOP_SIZE: usize = 4 * VECTOR_SIZE;

// The number of bytes to loop at in one iteration of memchr2/memrchr2 and

// memchr3/memrchr3. There was no observable difference between 128 and 64

// bytes in benchmarks. memchr3 in particular only gets a very slight speed up

// from the loop unrolling.

const LOOP_SIZE2: usize = 2 * VECTOR_SIZE;

#[target_feature(enable = "avx2")]

pub unsafe fn memchr(n1: u8, haystack: &[u8]) -> Option<usize> {

    // For a high level explanation for how this algorithm works, see the

    // sse2 implementation. The avx implementation here is the same, but with

    // 256-bit vectors instead of 128-bit vectors.

    // This routine is called whenever a match is detected. It is specifically

    // marked as unlineable because it improves the codegen of the unrolled

    // loop below. Inlining this seems to cause codegen with some extra adds

    // and a load that aren't necessary. This seems to result in about a 10%

    // improvement for the memchr1/crate/huge/never benchmark.

//

    // Interestingly, I couldn't observe a similar improvement for memrchr.

    #[cold]

    #[inline(never)]

    #[target_feature(enable = "avx2")]

    unsafe fn matched(

        start_ptr: *const u8,

        ptr: *const u8,

        eqa: __m256i,

        eqb: __m256i,

        eqc: __m256i,

        eqd: __m256i,

    ) -> usize {

        let mut at = sub(ptr, start_ptr);

        let mask = _mm256_movemask_epi8(eqa);

        if mask != 0 {

            return at + forward_pos(mask);

        at += VECTOR_SIZE;

        let mask = _mm256_movemask_epi8(eqb);

        if mask != 0 {

            return at + forward_pos(mask);

        at += VECTOR_SIZE;

        let mask = _mm256_movemask_epi8(eqc);

        if mask != 0 {

            return at + forward_pos(mask);

        at += VECTOR_SIZE;

        let mask = _mm256_movemask_epi8(eqd);

        debug_assert!(mask != 0);

        at + forward_pos(mask)

    let start_ptr = haystack.as_ptr();

    let end_ptr = start_ptr.add(haystack.len());

    let mut ptr = start_ptr;

    if haystack.len() < VECTOR_SIZE {

        // For small haystacks, defer to the SSE2 implementation. Codegen

        // suggests this completely avoids touching the AVX vectors.

        return sse2::memchr(n1, haystack);

    let vn1 = _mm256_set1_epi8(n1 as i8);

    let loop_size = cmp::min(LOOP_SIZE, haystack.len());

    if let Some(i) = forward_search1(start_ptr, end_ptr, ptr, vn1) {

        return Some(i);

    ptr = ptr.add(VECTOR_SIZE - (start_ptr as usize & VECTOR_ALIGN));

    debug_assert!(ptr > start_ptr && end_ptr.sub(VECTOR_SIZE) >= start_ptr);

    while loop_size == LOOP_SIZE && ptr <= end_ptr.sub(loop_size) {

        debug_assert_eq!(0, (ptr as usize) % VECTOR_SIZE);

        let a = _mm256_load_si256(ptr as *const __m256i);

        let b = _mm256_load_si256(ptr.add(VECTOR_SIZE) as *const __m256i);

        let c = _mm256_load_si256(ptr.add(2 * VECTOR_SIZE) as *const __m256i);

        let d = _mm256_load_si256(ptr.add(3 * VECTOR_SIZE) as *const __m256i);

        let eqa = _mm256_cmpeq_epi8(vn1, a);

        let eqb = _mm256_cmpeq_epi8(vn1, b);

        let eqc = _mm256_cmpeq_epi8(vn1, c);

        let eqd = _mm256_cmpeq_epi8(vn1, d);

        let or1 = _mm256_or_si256(eqa, eqb);

        let or2 = _mm256_or_si256(eqc, eqd);

        let or3 = _mm256_or_si256(or1, or2);

        if _mm256_movemask_epi8(or3) != 0 {

            return Some(matched(start_ptr, ptr, eqa, eqb, eqc, eqd));

        ptr = ptr.add(loop_size);

    while ptr <= end_ptr.sub(VECTOR_SIZE) {

        debug_assert!(sub(end_ptr, ptr) >= VECTOR_SIZE);

        if let Some(i) = forward_search1(start_ptr, end_ptr, ptr, vn1) {

            return Some(i);

        ptr = ptr.add(VECTOR_SIZE);

    if ptr < end_ptr {

        debug_assert!(sub(end_ptr, ptr) < VECTOR_SIZE);

        ptr = ptr.sub(VECTOR_SIZE - sub(end_ptr, ptr));

        debug_assert_eq!(sub(end_ptr, ptr), VECTOR_SIZE);

        return forward_search1(start_ptr, end_ptr, ptr, vn1);

    None

#[target_feature(enable = "avx2")]

pub unsafe fn memchr2(n1: u8, n2: u8, haystack: &[u8]) -> Option<usize> {

    #[cold]

    #[inline(never)]

    #[target_feature(enable = "avx2")]

    unsafe fn matched(

        start_ptr: *const u8,

        ptr: *const u8,

        eqa1: __m256i,

        eqa2: __m256i,

        eqb1: __m256i,

        eqb2: __m256i,

    ) -> usize {

        let mut at = sub(ptr, start_ptr);

        let mask1 = _mm256_movemask_epi8(eqa1);

        let mask2 = _mm256_movemask_epi8(eqa2);

        if mask1 != 0 || mask2 != 0 {

            return at + forward_pos2(mask1, mask2);

        at += VECTOR_SIZE;

        let mask1 = _mm256_movemask_epi8(eqb1);

        let mask2 = _mm256_movemask_epi8(eqb2);

        at + forward_pos2(mask1, mask2)

    let vn1 = _mm256_set1_epi8(n1 as i8);

    let vn2 = _mm256_set1_epi8(n2 as i8);

    let len = haystack.len();

    let loop_size = cmp::min(LOOP_SIZE2, len);

    let start_ptr = haystack.as_ptr();

    let end_ptr = start_ptr.add(haystack.len());

    let mut ptr = start_ptr;

    if haystack.len() < VECTOR_SIZE {

        while ptr < end_ptr {

            if *ptr == n1 || *ptr == n2 {

                return Some(sub(ptr, start_ptr));

            ptr = ptr.offset(1);

        return None;

    if let Some(i) = forward_search2(start_ptr, end_ptr, ptr, vn1, vn2) {

        return Some(i);

    ptr = ptr.add(VECTOR_SIZE - (start_ptr as usize & VECTOR_ALIGN));

    debug_assert!(ptr > start_ptr && end_ptr.sub(VECTOR_SIZE) >= start_ptr);

    while loop_size == LOOP_SIZE2 && ptr <= end_ptr.sub(loop_size) {

        debug_assert_eq!(0, (ptr as usize) % VECTOR_SIZE);

        let a = _mm256_load_si256(ptr as *const __m256i);

        let b = _mm256_load_si256(ptr.add(VECTOR_SIZE) as *const __m256i);

        let eqa1 = _mm256_cmpeq_epi8(vn1, a);

        let eqb1 = _mm256_cmpeq_epi8(vn1, b);

        let eqa2 = _mm256_cmpeq_epi8(vn2, a);

        let eqb2 = _mm256_cmpeq_epi8(vn2, b);

        let or1 = _mm256_or_si256(eqa1, eqb1);

        let or2 = _mm256_or_si256(eqa2, eqb2);

        let or3 = _mm256_or_si256(or1, or2);

        if _mm256_movemask_epi8(or3) != 0 {

            return Some(matched(start_ptr, ptr, eqa1, eqa2, eqb1, eqb2));

        ptr = ptr.add(loop_size);

    while ptr <= end_ptr.sub(VECTOR_SIZE) {

        if let Some(i) = forward_search2(start_ptr, end_ptr, ptr, vn1, vn2) {

            return Some(i);

        ptr = ptr.add(VECTOR_SIZE);

    if ptr < end_ptr {

        debug_assert!(sub(end_ptr, ptr) < VECTOR_SIZE);

        ptr = ptr.sub(VECTOR_SIZE - sub(end_ptr, ptr));

        debug_assert_eq!(sub(end_ptr, ptr), VECTOR_SIZE);

        return forward_search2(start_ptr, end_ptr, ptr, vn1, vn2);

    None

#[target_feature(enable = "avx2")]

pub unsafe fn memchr3(

    n1: u8,

    n2: u8,

    n3: u8,

    haystack: &[u8],

) -> Option<usize> {

    #[cold]

    #[inline(never)]

    #[target_feature(enable = "avx2")]

    unsafe fn matched(

        start_ptr: *const u8,

        ptr: *const u8,

        eqa1: __m256i,

        eqa2: __m256i,

        eqa3: __m256i,

        eqb1: __m256i,

        eqb2: __m256i,

        eqb3: __m256i,

    ) -> usize {

        let mut at = sub(ptr, start_ptr);

        let mask1 = _mm256_movemask_epi8(eqa1);

        let mask2 = _mm256_movemask_epi8(eqa2);

        let mask3 = _mm256_movemask_epi8(eqa3);

        if mask1 != 0 || mask2 != 0 || mask3 != 0 {

            return at + forward_pos3(mask1, mask2, mask3);

        at += VECTOR_SIZE;

        let mask1 = _mm256_movemask_epi8(eqb1);

        let mask2 = _mm256_movemask_epi8(eqb2);

        let mask3 = _mm256_movemask_epi8(eqb3);

        at + forward_pos3(mask1, mask2, mask3)

    let vn1 = _mm256_set1_epi8(n1 as i8);

    let vn2 = _mm256_set1_epi8(n2 as i8);

    let vn3 = _mm256_set1_epi8(n3 as i8);

    let len = haystack.len();

    let loop_size = cmp::min(LOOP_SIZE2, len);

    let start_ptr = haystack.as_ptr();

    let end_ptr = start_ptr.add(haystack.len());

    let mut ptr = start_ptr;

    if haystack.len() < VECTOR_SIZE {

        while ptr < end_ptr {

            if *ptr == n1 || *ptr == n2 || *ptr == n3 {

                return Some(sub(ptr, start_ptr));

            ptr = ptr.offset(1);

        return None;

    if let Some(i) = forward_search3(start_ptr, end_ptr, ptr, vn1, vn2, vn3) {

        return Some(i);

    ptr = ptr.add(VECTOR_SIZE - (start_ptr as usize & VECTOR_ALIGN));

    debug_assert!(ptr > start_ptr && end_ptr.sub(VECTOR_SIZE) >= start_ptr);

    while loop_size == LOOP_SIZE2 && ptr <= end_ptr.sub(loop_size) {

        debug_assert_eq!(0, (ptr as usize) % VECTOR_SIZE);

        let a = _mm256_load_si256(ptr as *const __m256i);

        let b = _mm256_load_si256(ptr.add(VECTOR_SIZE) as *const __m256i);

        let eqa1 = _mm256_cmpeq_epi8(vn1, a);

        let eqb1 = _mm256_cmpeq_epi8(vn1, b);

        let eqa2 = _mm256_cmpeq_epi8(vn2, a);

        let eqb2 = _mm256_cmpeq_epi8(vn2, b);

        let eqa3 = _mm256_cmpeq_epi8(vn3, a);

        let eqb3 = _mm256_cmpeq_epi8(vn3, b);

        let or1 = _mm256_or_si256(eqa1, eqb1);

        let or2 = _mm256_or_si256(eqa2, eqb2);

        let or3 = _mm256_or_si256(eqa3, eqb3);

        let or4 = _mm256_or_si256(or1, or2);

        let or5 = _mm256_or_si256(or3, or4);

        if _mm256_movemask_epi8(or5) != 0 {

            return Some(matched(

                start_ptr, ptr, eqa1, eqa2, eqa3, eqb1, eqb2, eqb3,

));

        ptr = ptr.add(loop_size);

    while ptr <= end_ptr.sub(VECTOR_SIZE) {

        if let Some(i) =

            forward_search3(start_ptr, end_ptr, ptr, vn1, vn2, vn3)

            return Some(i);

        ptr = ptr.add(VECTOR_SIZE);

    if ptr < end_ptr {

        debug_assert!(sub(end_ptr, ptr) < VECTOR_SIZE);

        ptr = ptr.sub(VECTOR_SIZE - sub(end_ptr, ptr));

        debug_assert_eq!(sub(end_ptr, ptr), VECTOR_SIZE);

        return forward_search3(start_ptr, end_ptr, ptr, vn1, vn2, vn3);

    None

#[target_feature(enable = "avx2")]

pub unsafe fn memrchr(n1: u8, haystack: &[u8]) -> Option<usize> {

    let vn1 = _mm256_set1_epi8(n1 as i8);

    let len = haystack.len();

    let loop_size = cmp::min(LOOP_SIZE, len);

    let start_ptr = haystack.as_ptr();

    let end_ptr = start_ptr.add(haystack.len());

    let mut ptr = end_ptr;

    if haystack.len() < VECTOR_SIZE {

        while ptr > start_ptr {

            ptr = ptr.offset(-1);

            if *ptr == n1 {

                return Some(sub(ptr, start_ptr));

        return None;

    ptr = ptr.sub(VECTOR_SIZE);

    if let Some(i) = reverse_search1(start_ptr, end_ptr, ptr, vn1) {

        return Some(i);

    ptr = (end_ptr as usize & !VECTOR_ALIGN) as *const u8;

    debug_assert!(start_ptr <= ptr && ptr <= end_ptr);

    while loop_size == LOOP_SIZE && ptr >= start_ptr.add(loop_size) {

        debug_assert_eq!(0, (ptr as usize) % VECTOR_SIZE);

        ptr = ptr.sub(loop_size);

        let a = _mm256_load_si256(ptr as *const __m256i);

        let b = _mm256_load_si256(ptr.add(VECTOR_SIZE) as *const __m256i);

        let c = _mm256_load_si256(ptr.add(2 * VECTOR_SIZE) as *const __m256i);

        let d = _mm256_load_si256(ptr.add(3 * VECTOR_SIZE) as *const __m256i);

        let eqa = _mm256_cmpeq_epi8(vn1, a);

        let eqb = _mm256_cmpeq_epi8(vn1, b);

        let eqc = _mm256_cmpeq_epi8(vn1, c);

        let eqd = _mm256_cmpeq_epi8(vn1, d);

        let or1 = _mm256_or_si256(eqa, eqb);

        let or2 = _mm256_or_si256(eqc, eqd);

        let or3 = _mm256_or_si256(or1, or2);

        if _mm256_movemask_epi8(or3) != 0 {

            let mut at = sub(ptr.add(3 * VECTOR_SIZE), start_ptr);

            let mask = _mm256_movemask_epi8(eqd);

            if mask != 0 {

                return Some(at + reverse_pos(mask));

            at -= VECTOR_SIZE;

            let mask = _mm256_movemask_epi8(eqc);

            if mask != 0 {

                return Some(at + reverse_pos(mask));

            at -= VECTOR_SIZE;

            let mask = _mm256_movemask_epi8(eqb);

            if mask != 0 {

                return Some(at + reverse_pos(mask));

            at -= VECTOR_SIZE;

            let mask = _mm256_movemask_epi8(eqa);

            debug_assert!(mask != 0);

            return Some(at + reverse_pos(mask));

    while ptr >= start_ptr.add(VECTOR_SIZE) {

        ptr = ptr.sub(VECTOR_SIZE);

        if let Some(i) = reverse_search1(start_ptr, end_ptr, ptr, vn1) {

            return Some(i);

    if ptr > start_ptr {

        debug_assert!(sub(ptr, start_ptr) < VECTOR_SIZE);

        return reverse_search1(start_ptr, end_ptr, start_ptr, vn1);

    None

#[target_feature(enable = "avx2")]

pub unsafe fn memrchr2(n1: u8, n2: u8, haystack: &[u8]) -> Option<usize> {

    let vn1 = _mm256_set1_epi8(n1 as i8);

    let vn2 = _mm256_set1_epi8(n2 as i8);

    let len = haystack.len();

    let loop_size = cmp::min(LOOP_SIZE2, len);

    let start_ptr = haystack.as_ptr();

    let end_ptr = start_ptr.add(haystack.len());

    let mut ptr = end_ptr;

    if haystack.len() < VECTOR_SIZE {

        while ptr > start_ptr {

            ptr = ptr.offset(-1);

            if *ptr == n1 || *ptr == n2 {

                return Some(sub(ptr, start_ptr));

        return None;

    ptr = ptr.sub(VECTOR_SIZE);

    if let Some(i) = reverse_search2(start_ptr, end_ptr, ptr, vn1, vn2) {

        return Some(i);

    ptr = (end_ptr as usize & !VECTOR_ALIGN) as *const u8;

    debug_assert!(start_ptr <= ptr && ptr <= end_ptr);

    while loop_size == LOOP_SIZE2 && ptr >= start_ptr.add(loop_size) {

        debug_assert_eq!(0, (ptr as usize) % VECTOR_SIZE);

        ptr = ptr.sub(loop_size);

        let a = _mm256_load_si256(ptr as *const __m256i);

        let b = _mm256_load_si256(ptr.add(VECTOR_SIZE) as *const __m256i);

        let eqa1 = _mm256_cmpeq_epi8(vn1, a);

        let eqb1 = _mm256_cmpeq_epi8(vn1, b);

        let eqa2 = _mm256_cmpeq_epi8(vn2, a);

        let eqb2 = _mm256_cmpeq_epi8(vn2, b);

        let or1 = _mm256_or_si256(eqa1, eqb1);

        let or2 = _mm256_or_si256(eqa2, eqb2);

        let or3 = _mm256_or_si256(or1, or2);

        if _mm256_movemask_epi8(or3) != 0 {

            let mut at = sub(ptr.add(VECTOR_SIZE), start_ptr);

            let mask1 = _mm256_movemask_epi8(eqb1);

            let mask2 = _mm256_movemask_epi8(eqb2);

            if mask1 != 0 || mask2 != 0 {

                return Some(at + reverse_pos2(mask1, mask2));

            at -= VECTOR_SIZE;

            let mask1 = _mm256_movemask_epi8(eqa1);

            let mask2 = _mm256_movemask_epi8(eqa2);

            return Some(at + reverse_pos2(mask1, mask2));

    while ptr >= start_ptr.add(VECTOR_SIZE) {

        ptr = ptr.sub(VECTOR_SIZE);

        if let Some(i) = reverse_search2(start_ptr, end_ptr, ptr, vn1, vn2) {

            return Some(i);

    if ptr > start_ptr {

        debug_assert!(sub(ptr, start_ptr) < VECTOR_SIZE);

        return reverse_search2(start_ptr, end_ptr, start_ptr, vn1, vn2);

    None

#[target_feature(enable = "avx2")]

pub unsafe fn memrchr3(

    n1: u8,

    n2: u8,

    n3: u8,

    haystack: &[u8],

) -> Option<usize> {

    let vn1 = _mm256_set1_epi8(n1 as i8);

    let vn2 = _mm256_set1_epi8(n2 as i8);

    let vn3 = _mm256_set1_epi8(n3 as i8);

    let len = haystack.len();

    let loop_size = cmp::min(LOOP_SIZE2, len);

    let start_ptr = haystack.as_ptr();

    let end_ptr = start_ptr.add(haystack.len());

    let mut ptr = end_ptr;

    if haystack.len() < VECTOR_SIZE {

        while ptr > start_ptr {

            ptr = ptr.offset(-1);

            if *ptr == n1 || *ptr == n2 || *ptr == n3 {

                return Some(sub(ptr, start_ptr));

        return None;

    ptr = ptr.sub(VECTOR_SIZE);

    if let Some(i) = reverse_search3(start_ptr, end_ptr, ptr, vn1, vn2, vn3) {

        return Some(i);

    ptr = (end_ptr as usize & !VECTOR_ALIGN) as *const u8;

    debug_assert!(start_ptr <= ptr && ptr <= end_ptr);

    while loop_size == LOOP_SIZE2 && ptr >= start_ptr.add(loop_size) {

        debug_assert_eq!(0, (ptr as usize) % VECTOR_SIZE);

        ptr = ptr.sub(loop_size);

        let a = _mm256_load_si256(ptr as *const __m256i);

        let b = _mm256_load_si256(ptr.add(VECTOR_SIZE) as *const __m256i);

        let eqa1 = _mm256_cmpeq_epi8(vn1, a);

        let eqb1 = _mm256_cmpeq_epi8(vn1, b);

        let eqa2 = _mm256_cmpeq_epi8(vn2, a);

        let eqb2 = _mm256_cmpeq_epi8(vn2, b);

        let eqa3 = _mm256_cmpeq_epi8(vn3, a);

        let eqb3 = _mm256_cmpeq_epi8(vn3, b);

        let or1 = _mm256_or_si256(eqa1, eqb1);

        let or2 = _mm256_or_si256(eqa2, eqb2);

        let or3 = _mm256_or_si256(eqa3, eqb3);

        let or4 = _mm256_or_si256(or1, or2);

        let or5 = _mm256_or_si256(or3, or4);

        if _mm256_movemask_epi8(or5) != 0 {

            let mut at = sub(ptr.add(VECTOR_SIZE), start_ptr);

            let mask1 = _mm256_movemask_epi8(eqb1);

            let mask2 = _mm256_movemask_epi8(eqb2);

            let mask3 = _mm256_movemask_epi8(eqb3);

            if mask1 != 0 || mask2 != 0 || mask3 != 0 {

                return Some(at + reverse_pos3(mask1, mask2, mask3));

            at -= VECTOR_SIZE;

            let mask1 = _mm256_movemask_epi8(eqa1);

            let mask2 = _mm256_movemask_epi8(eqa2);

            let mask3 = _mm256_movemask_epi8(eqa3);

            return Some(at + reverse_pos3(mask1, mask2, mask3));

    while ptr >= start_ptr.add(VECTOR_SIZE) {

        ptr = ptr.sub(VECTOR_SIZE);

        if let Some(i) =

            reverse_search3(start_ptr, end_ptr, ptr, vn1, vn2, vn3)

            return Some(i);

    if ptr > start_ptr {

        debug_assert!(sub(ptr, start_ptr) < VECTOR_SIZE);

        return reverse_search3(start_ptr, end_ptr, start_ptr, vn1, vn2, vn3);

    None

#[target_feature(enable = "avx2")]

unsafe fn forward_search1(

    start_ptr: *const u8,

    end_ptr: *const u8,

    ptr: *const u8,

    vn1: __m256i,

) -> Option<usize> {

    debug_assert!(sub(end_ptr, start_ptr) >= VECTOR_SIZE);

    debug_assert!(start_ptr <= ptr);

    debug_assert!(ptr <= end_ptr.sub(VECTOR_SIZE));

    let chunk = _mm256_loadu_si256(ptr as *const __m256i);

    let mask = _mm256_movemask_epi8(_mm256_cmpeq_epi8(chunk, vn1));

    if mask != 0 {

        Some(sub(ptr, start_ptr) + forward_pos(mask))

    } else {

        None

#[target_feature(enable = "avx2")]

unsafe fn forward_search2(

    start_ptr: *const u8,

    end_ptr: *const u8,

    ptr: *const u8,

    vn1: __m256i,

    vn2: __m256i,

) -> Option<usize> {

    debug_assert!(sub(end_ptr, start_ptr) >= VECTOR_SIZE);

    debug_assert!(start_ptr <= ptr);

    debug_assert!(ptr <= end_ptr.sub(VECTOR_SIZE));

    let chunk = _mm256_loadu_si256(ptr as *const __m256i);

    let eq1 = _mm256_cmpeq_epi8(chunk, vn1);

    let eq2 = _mm256_cmpeq_epi8(chunk, vn2);

    if _mm256_movemask_epi8(_mm256_or_si256(eq1, eq2)) != 0 {

        let mask1 = _mm256_movemask_epi8(eq1);

        let mask2 = _mm256_movemask_epi8(eq2);

        Some(sub(ptr, start_ptr) + forward_pos2(mask1, mask2))

    } else {

        None

#[target_feature(enable = "avx2")]

unsafe fn forward_search3(

    start_ptr: *const u8,

    end_ptr: *const u8,

    ptr: *const u8,

    vn1: __m256i,

    vn2: __m256i,

    vn3: __m256i,

) -> Option<usize> {

    debug_assert!(sub(end_ptr, start_ptr) >= VECTOR_SIZE);

    debug_assert!(start_ptr <= ptr);

    debug_assert!(ptr <= end_ptr.sub(VECTOR_SIZE));

    let chunk = _mm256_loadu_si256(ptr as *const __m256i);

    let eq1 = _mm256_cmpeq_epi8(chunk, vn1);

    let eq2 = _mm256_cmpeq_epi8(chunk, vn2);

    let eq3 = _mm256_cmpeq_epi8(chunk, vn3);

    let or = _mm256_or_si256(eq1, eq2);

    if _mm256_movemask_epi8(_mm256_or_si256(or, eq3)) != 0 {

        let mask1 = _mm256_movemask_epi8(eq1);

        let mask2 = _mm256_movemask_epi8(eq2);

        let mask3 = _mm256_movemask_epi8(eq3);

        Some(sub(ptr, start_ptr) + forward_pos3(mask1, mask2, mask3))

    } else {

        None

#[target_feature(enable = "avx2")]

unsafe fn reverse_search1(

    start_ptr: *const u8,

    end_ptr: *const u8,

    ptr: *const u8,

    vn1: __m256i,

) -> Option<usize> {

    debug_assert!(sub(end_ptr, start_ptr) >= VECTOR_SIZE);

    debug_assert!(start_ptr <= ptr);

    debug_assert!(ptr <= end_ptr.sub(VECTOR_SIZE));

    let chunk = _mm256_loadu_si256(ptr as *const __m256i);

    let mask = _mm256_movemask_epi8(_mm256_cmpeq_epi8(vn1, chunk));

    if mask != 0 {

        Some(sub(ptr, start_ptr) + reverse_pos(mask))

    } else {

        None

#[target_feature(enable = "avx2")]

unsafe fn reverse_search2(

    start_ptr: *const u8,

    end_ptr: *const u8,

    ptr: *const u8,

    vn1: __m256i,

    vn2: __m256i,

) -> Option<usize> {

    debug_assert!(sub(end_ptr, start_ptr) >= VECTOR_SIZE);

    debug_assert!(start_ptr <= ptr);

    debug_assert!(ptr <= end_ptr.sub(VECTOR_SIZE));

    let chunk = _mm256_loadu_si256(ptr as *const __m256i);

    let eq1 = _mm256_cmpeq_epi8(chunk, vn1);

    let eq2 = _mm256_cmpeq_epi8(chunk, vn2);

    if _mm256_movemask_epi8(_mm256_or_si256(eq1, eq2)) != 0 {

        let mask1 = _mm256_movemask_epi8(eq1);

        let mask2 = _mm256_movemask_epi8(eq2);

        Some(sub(ptr, start_ptr) + reverse_pos2(mask1, mask2))

    } else {

        None

#[target_feature(enable = "avx2")]

unsafe fn reverse_search3(

    start_ptr: *const u8,

    end_ptr: *const u8,

    ptr: *const u8,

    vn1: __m256i,

    vn2: __m256i,

    vn3: __m256i,

) -> Option<usize> {

    debug_assert!(sub(end_ptr, start_ptr) >= VECTOR_SIZE);

    debug_assert!(start_ptr <= ptr);

    debug_assert!(ptr <= end_ptr.sub(VECTOR_SIZE));

    let chunk = _mm256_loadu_si256(ptr as *const __m256i);

    let eq1 = _mm256_cmpeq_epi8(chunk, vn1);

    let eq2 = _mm256_cmpeq_epi8(chunk, vn2);

    let eq3 = _mm256_cmpeq_epi8(chunk, vn3);

    let or = _mm256_or_si256(eq1, eq2);

    if _mm256_movemask_epi8(_mm256_or_si256(or, eq3)) != 0 {

        let mask1 = _mm256_movemask_epi8(eq1);

        let mask2 = _mm256_movemask_epi8(eq2);

        let mask3 = _mm256_movemask_epi8(eq3);

        Some(sub(ptr, start_ptr) + reverse_pos3(mask1, mask2, mask3))

    } else {

        None

/// Compute the position of the first matching byte from the given mask. The

/// position returned is always in the range [0, 31].

///

/// The mask given is expected to be the result of _mm256_movemask_epi8.

fn forward_pos(mask: i32) -> usize {

    // We are dealing with little endian here, where the most significant byte

    // is at a higher address. That means the least significant bit that is set

    // corresponds to the position of our first matching byte. That position

    // corresponds to the number of zeros after the least significant bit.

    mask.trailing_zeros() as usize

/// Compute the position of the first matching byte from the given masks. The

/// position returned is always in the range [0, 31]. Each mask corresponds to

/// the equality comparison of a single byte.

///

/// The masks given are expected to be the result of _mm256_movemask_epi8,

/// where at least one of the masks is non-zero (i.e., indicates a match).

fn forward_pos2(mask1: i32, mask2: i32) -> usize {

    debug_assert!(mask1 != 0 || mask2 != 0);

    forward_pos(mask1 | mask2)

/// Compute the position of the first matching byte from the given masks. The

/// position returned is always in the range [0, 31]. Each mask corresponds to

/// the equality comparison of a single byte.

///

/// The masks given are expected to be the result of _mm256_movemask_epi8,

/// where at least one of the masks is non-zero (i.e., indicates a match).

fn forward_pos3(mask1: i32, mask2: i32, mask3: i32) -> usize {

    debug_assert!(mask1 != 0 || mask2 != 0 || mask3 != 0);

    forward_pos(mask1 | mask2 | mask3)

/// Compute the position of the last matching byte from the given mask. The

/// position returned is always in the range [0, 31].

///

/// The mask given is expected to be the result of _mm256_movemask_epi8.

fn reverse_pos(mask: i32) -> usize {

    // We are dealing with little endian here, where the most significant byte

    // is at a higher address. That means the most significant bit that is set

    // corresponds to the position of our last matching byte. The position from

    // the end of the mask is therefore the number of leading zeros in a 32

    // bit integer, and the position from the start of the mask is therefore

    // 32 - (leading zeros) - 1.

    VECTOR_SIZE - (mask as u32).leading_zeros() as usize - 1

/// Compute the position of the last matching byte from the given masks. The

/// position returned is always in the range [0, 31]. Each mask corresponds to

/// the equality comparison of a single byte.

///

/// The masks given are expected to be the result of _mm256_movemask_epi8,

/// where at least one of the masks is non-zero (i.e., indicates a match).

fn reverse_pos2(mask1: i32, mask2: i32) -> usize {

    debug_assert!(mask1 != 0 || mask2 != 0);

    reverse_pos(mask1 | mask2)

/// Compute the position of the last matching byte from the given masks. The

/// position returned is always in the range [0, 31]. Each mask corresponds to

/// the equality comparison of a single byte.

///

/// The masks given are expected to be the result of _mm256_movemask_epi8,

/// where at least one of the masks is non-zero (i.e., indicates a match).

fn reverse_pos3(mask1: i32, mask2: i32, mask3: i32) -> usize {

    debug_assert!(mask1 != 0 || mask2 != 0 || mask3 != 0);

    reverse_pos(mask1 | mask2 | mask3)

/// Subtract `b` from `a` and return the difference. `a` should be greater than

/// or equal to `b`.

fn sub(a: *const u8, b: *const u8) -> usize {

    debug_assert!(a >= b);

    (a as usize) - (b as usize)