lexer.rs - mozsearch

comm-central/third_party/rust/xml-rs/src/reader/lexer.rs

Enable keyboard shortcuts

Revision control

Copy as Markdown

Other Tools

HG Web

//! Contains simple lexer for XML documents.

//!

//! This module is for internal use. Use `xml::pull` module to do parsing.

use std::fmt;

use std::collections::VecDeque;

use std::io::Read;

use std::result;

use std::borrow::Cow;

use common::{Position, TextPosition, is_whitespace_char, is_name_char};

use reader::Error;

use util;

/// `Token` represents a single lexeme of an XML document. These lexemes

/// are used to perform actual parsing.

#[derive(Copy, Clone, PartialEq, Eq, Debug)]

pub enum Token {

    /// `<?`

    ProcessingInstructionStart,

    /// `?>`

    ProcessingInstructionEnd,

    /// `<!DOCTYPE

    DoctypeStart,

    /// `<`

    OpeningTagStart,

    /// `</`

    ClosingTagStart,

    /// `>`

    TagEnd,

    /// `/>`

    EmptyTagEnd,

    /// `<!--`

    CommentStart,

    /// `-->`

    CommentEnd,

    /// A chunk of characters, used for errors recovery.

    Chunk(&'static str),

    /// Any non-special character except whitespace.

    Character(char),

    /// Whitespace character.

    Whitespace(char),

    /// `=`

    EqualsSign,

    /// `'`

    SingleQuote,

    /// `"`

    DoubleQuote,

    /// `<![CDATA[`

    CDataStart,

    /// `]]>`

    CDataEnd,

    /// `&`

    ReferenceStart,

    /// `;`

    ReferenceEnd,

impl fmt::Display for Token {

    fn fmt(&self, f: &mut fmt::Formatter) -> fmt::Result {

        match *self {

            Token::Chunk(s)                            => write!(f, "{}", s),

            Token::Character(c) | Token::Whitespace(c) => write!(f, "{}", c),

            other => write!(f, "{}", match other {

                Token::OpeningTagStart            => "<",

                Token::ProcessingInstructionStart => "<?",

                Token::DoctypeStart               => "<!DOCTYPE",

                Token::ClosingTagStart            => "</",

                Token::CommentStart               => "<!--",

                Token::CDataStart                 => "<![CDATA[",

                Token::TagEnd                     => ">",

                Token::EmptyTagEnd                => "/>",

                Token::ProcessingInstructionEnd   => "?>",

                Token::CommentEnd                 => "-->",

                Token::CDataEnd                   => "]]>",

                Token::ReferenceStart             => "&",

                Token::ReferenceEnd               => ";",

                Token::EqualsSign                 => "=",

                Token::SingleQuote                => "'",

                Token::DoubleQuote                => "\"",

                _                          => unreachable!()

})

impl Token {

    pub fn as_static_str(&self) -> Option<&'static str> {

        match *self {

            Token::OpeningTagStart            => Some("<"),

            Token::ProcessingInstructionStart => Some("<?"),

            Token::DoctypeStart               => Some("<!DOCTYPE"),

            Token::ClosingTagStart            => Some("</"),

            Token::CommentStart               => Some("<!--"),

            Token::CDataStart                 => Some("<![CDATA["),

            Token::TagEnd                     => Some(">"),

            Token::EmptyTagEnd                => Some("/>"),

            Token::ProcessingInstructionEnd   => Some("?>"),

            Token::CommentEnd                 => Some("-->"),

            Token::CDataEnd                   => Some("]]>"),

            Token::ReferenceStart             => Some("&"),

            Token::ReferenceEnd               => Some(";"),

            Token::EqualsSign                 => Some("="),

            Token::SingleQuote                => Some("'"),

            Token::DoubleQuote                => Some("\""),

            Token::Chunk(s)                   => Some(s),

            _                                 => None

    // using String.push_str(token.to_string()) is simply way too slow

    pub fn push_to_string(&self, target: &mut String) {

        match self.as_static_str() {

            Some(s) => { target.push_str(s); }

            None => {

                match *self {

                    Token::Character(c) | Token::Whitespace(c) => target.push(c),

                    _ => unreachable!()

    /// Returns `true` if this token contains data that can be interpreted

    /// as a part of the text. Surprisingly, this also means '>' and '=' and '"' and "'" and '-->'.

    #[inline]

    pub fn contains_char_data(&self) -> bool {

        match *self {

            Token::Whitespace(_) | Token::Chunk(_) | Token::Character(_) | Token::CommentEnd |

            Token::TagEnd | Token::EqualsSign | Token::DoubleQuote | Token::SingleQuote | Token::CDataEnd |

            Token::ProcessingInstructionEnd | Token::EmptyTagEnd => true,

            _ => false

    /// Returns `true` if this token corresponds to a white space character.

    #[inline]

    pub fn is_whitespace(&self) -> bool {

        match *self {

            Token::Whitespace(_) => true,

            _ => false

enum State {

    /// Triggered on '<'

    TagStarted,

    /// Triggered on '<!'

    CommentOrCDataOrDoctypeStarted,

    /// Triggered on '<!-'

    CommentStarted,

    /// Triggered on '<!D' up to '<!DOCTYPE'

    DoctypeStarted(DoctypeStartedSubstate),

    /// Triggered after DoctypeStarted to handle sub elements

    DoctypeFinishing(u8),

    /// Triggered on '<![' up to '<![CDATA'

    CDataStarted(CDataStartedSubstate),

    /// Triggered on '?'

    ProcessingInstructionClosing,

    /// Triggered on '/'

    EmptyTagClosing,

    /// Triggered on '-' up to '--'

    CommentClosing(ClosingSubstate),

    /// Triggered on ']' up to ']]'

    CDataClosing(ClosingSubstate),

    /// Default state

    Normal

#[derive(Copy, Clone)]

enum ClosingSubstate {

    First, Second

#[derive(Copy, Clone)]

enum DoctypeStartedSubstate {

    D, DO, DOC, DOCT, DOCTY, DOCTYP

#[derive(Copy, Clone)]

enum CDataStartedSubstate {

    E, C, CD, CDA, CDAT, CDATA

/// `Result` represents lexing result. It is either a token or an error message.

pub type Result = result::Result<Option<Token>, Error>;

/// Helps to set up a dispatch table for lexing large unambigous tokens like

/// `<![CDATA[` or `<!DOCTYPE `.

macro_rules! dispatch_on_enum_state(

    ($_self:ident, $s:expr, $c:expr, $is:expr,

     $($st:ident; $stc:expr ; $next_st:ident ; $chunk:expr),+;

     $end_st:ident ; $end_c:expr ; $end_chunk:expr ; $e:expr) => (

        match $s {

$(

            $st => match $c {

                $stc => $_self.move_to($is($next_st)),

                _  => $_self.handle_error($chunk, $c)

},

)+

            $end_st => match $c {

                $end_c => $e,

                _      => $_self.handle_error($end_chunk, $c)

);

/// `Lexer` is a lexer for XML documents, which implements pull API.

///

/// Main method is `next_token` which accepts an `std::io::Read` instance and

/// tries to read the next lexeme from it.

///

/// When `skip_errors` flag is set, invalid lexemes will be returned as `Chunk`s.

/// When it is not set, errors will be reported as `Err` objects with a string message.

/// By default this flag is not set. Use `enable_errors` and `disable_errors` methods

/// to toggle the behavior.

pub struct Lexer {

    pos: TextPosition,

    head_pos: TextPosition,

    char_queue: VecDeque<char>,

    st: State,

    skip_errors: bool,

    inside_comment: bool,

    inside_token: bool,

    eof_handled: bool

impl Position for Lexer {

    #[inline]

    /// Returns the position of the last token produced by the lexer

    fn position(&self) -> TextPosition { self.pos }

impl Lexer {

    /// Returns a new lexer with default state.

    pub fn new() -> Lexer {

        Lexer {

            pos: TextPosition::new(),

            head_pos: TextPosition::new(),

            char_queue: VecDeque::with_capacity(4),  // TODO: check size

            st: State::Normal,

            skip_errors: false,

            inside_comment: false,

            inside_token: false,

            eof_handled: false

    /// Enables error handling so `next_token` will return `Some(Err(..))`

    /// upon invalid lexeme.

    #[inline]

    pub fn enable_errors(&mut self) { self.skip_errors = false; }

    /// Disables error handling so `next_token` will return `Some(Chunk(..))`

    /// upon invalid lexeme with this lexeme content.

    #[inline]

    pub fn disable_errors(&mut self) { self.skip_errors = true; }

    /// Enables special handling of some lexemes which should be done when we're parsing comment

    /// internals.

    #[inline]

    pub fn inside_comment(&mut self) { self.inside_comment = true; }

    /// Disables the effect of `inside_comment()` method.

    #[inline]

    pub fn outside_comment(&mut self) { self.inside_comment = false; }

    /// Reset the eof handled flag of the lexer.

    #[inline]

    pub fn reset_eof_handled(&mut self) { self.eof_handled = false; }

    /// Tries to read the next token from the buffer.

///

    /// It is possible to pass different instaces of `BufReader` each time

    /// this method is called, but the resulting behavior is undefined in this case.

///

    /// Return value:

    /// * `Err(reason) where reason: reader::Error` - when an error occurs;

    /// * `Ok(None)` - upon end of stream is reached;

    /// * `Ok(Some(token)) where token: Token` - in case a complete-token has been read from the stream.

    pub fn next_token<B: Read>(&mut self, b: &mut B) -> Result {

        // Already reached end of buffer

        if self.eof_handled {

            return Ok(None);

        if !self.inside_token {

            self.pos = self.head_pos;

            self.inside_token = true;

        // Check if we have saved a char or two for ourselves

        while let Some(c) = self.char_queue.pop_front() {

            match try!(self.read_next_token(c)) {

                Some(t) => {

                    self.inside_token = false;

                    return Ok(Some(t));

                None => {}  // continue

        loop {

            // TODO: this should handle multiple encodings

            let c = match try!(util::next_char_from(b)) {

                Some(c) => c,   // got next char

                None => break,  // nothing to read left

};

            match try!(self.read_next_token(c)) {

                Some(t) => {

                    self.inside_token = false;

                    return Ok(Some(t));

                None => {

                    // continue

        // Handle end of stream

        self.eof_handled = true;

        self.pos = self.head_pos;

        match self.st {

            State::TagStarted | State::CommentOrCDataOrDoctypeStarted |

            State::CommentStarted | State::CDataStarted(_)| State::DoctypeStarted(_) |

            State::CommentClosing(ClosingSubstate::Second) |

            State::DoctypeFinishing(_) =>

                Err(self.error("Unexpected end of stream")),

            State::ProcessingInstructionClosing =>

                Ok(Some(Token::Character('?'))),

            State::EmptyTagClosing =>

                Ok(Some(Token::Character('/'))),

            State::CommentClosing(ClosingSubstate::First) =>

                Ok(Some(Token::Character('-'))),

            State::CDataClosing(ClosingSubstate::First) =>

                Ok(Some(Token::Character(']'))),

            State::CDataClosing(ClosingSubstate::Second) =>

                Ok(Some(Token::Chunk("]]"))),

            State::Normal =>

                Ok(None)

    #[inline]

    fn error<M: Into<Cow<'static, str>>>(&self, msg: M) -> Error {

        (self, msg).into()

    #[inline]

    fn read_next_token(&mut self, c: char) -> Result {

        let res = self.dispatch_char(c);

        if self.char_queue.is_empty() {

            if c == '\n' {

                self.head_pos.new_line();

            } else {

                self.head_pos.advance(1);

res

    fn dispatch_char(&mut self, c: char) -> Result {

        match self.st {

            State::Normal                         => self.normal(c),

            State::TagStarted                     => self.tag_opened(c),

            State::CommentOrCDataOrDoctypeStarted => self.comment_or_cdata_or_doctype_started(c),

            State::CommentStarted                 => self.comment_started(c),

            State::CDataStarted(s)                => self.cdata_started(c, s),

            State::DoctypeStarted(s)              => self.doctype_started(c, s),

            State::DoctypeFinishing(d)            => self.doctype_finishing(c, d),

            State::ProcessingInstructionClosing   => self.processing_instruction_closing(c),

            State::EmptyTagClosing                => self.empty_element_closing(c),

            State::CommentClosing(s)              => self.comment_closing(c, s),

            State::CDataClosing(s)                => self.cdata_closing(c, s)

    #[inline]

    fn move_to(&mut self, st: State) -> Result {

        self.st = st;

        Ok(None)

    #[inline]

    fn move_to_with(&mut self, st: State, token: Token) -> Result {

        self.st = st;

        Ok(Some(token))

    #[inline]

    fn move_to_with_unread(&mut self, st: State, cs: &[char], token: Token) -> Result {

        self.char_queue.extend(cs.iter().cloned());

        self.move_to_with(st, token)

    fn handle_error(&mut self, chunk: &'static str, c: char) -> Result {

        self.char_queue.push_back(c);

        if self.skip_errors || (self.inside_comment && chunk != "--") {  // FIXME: looks hacky

            self.move_to_with(State::Normal, Token::Chunk(chunk))

        } else {

            Err(self.error(format!("Unexpected token '{}' before '{}'", chunk, c)))

    /// Encountered a char

    fn normal(&mut self, c: char) -> Result {

        match c {

            '<'                        => self.move_to(State::TagStarted),

            '>'                        => Ok(Some(Token::TagEnd)),

            '/'                        => self.move_to(State::EmptyTagClosing),

            '='                        => Ok(Some(Token::EqualsSign)),

            '"'                        => Ok(Some(Token::DoubleQuote)),

            '\''                       => Ok(Some(Token::SingleQuote)),

            '?'                        => self.move_to(State::ProcessingInstructionClosing),

            '-'                        => self.move_to(State::CommentClosing(ClosingSubstate::First)),

            ']'                        => self.move_to(State::CDataClosing(ClosingSubstate::First)),

            '&'                        => Ok(Some(Token::ReferenceStart)),

            ';'                        => Ok(Some(Token::ReferenceEnd)),

            _ if is_whitespace_char(c) => Ok(Some(Token::Whitespace(c))),

            _                          => Ok(Some(Token::Character(c)))

    /// Encountered '<'

    fn tag_opened(&mut self, c: char) -> Result {

        match c {

            '?'                        => self.move_to_with(State::Normal, Token::ProcessingInstructionStart),

            '/'                        => self.move_to_with(State::Normal, Token::ClosingTagStart),

            '!'                        => self.move_to(State::CommentOrCDataOrDoctypeStarted),

            _ if is_whitespace_char(c) => self.move_to_with_unread(State::Normal, &[c], Token::OpeningTagStart),

            _ if is_name_char(c)       => self.move_to_with_unread(State::Normal, &[c], Token::OpeningTagStart),

            _                          => self.handle_error("<", c)

    /// Encountered '<!'

    fn comment_or_cdata_or_doctype_started(&mut self, c: char) -> Result {

        match c {

            '-' => self.move_to(State::CommentStarted),

            '[' => self.move_to(State::CDataStarted(CDataStartedSubstate::E)),

            'D' => self.move_to(State::DoctypeStarted(DoctypeStartedSubstate::D)),

            _   => self.handle_error("<!", c)

    /// Encountered '<!-'

    fn comment_started(&mut self, c: char) -> Result {

        match c {

            '-' => self.move_to_with(State::Normal, Token::CommentStart),

            _   => self.handle_error("<!-", c)

    /// Encountered '<!['

    fn cdata_started(&mut self, c: char, s: CDataStartedSubstate) -> Result {

        use self::CDataStartedSubstate::{E, C, CD, CDA, CDAT, CDATA};

        dispatch_on_enum_state!(self, s, c, State::CDataStarted,

            E     ; 'C' ; C     ; "<![",

            C     ; 'D' ; CD    ; "<![C",

            CD    ; 'A' ; CDA   ; "<![CD",

            CDA   ; 'T' ; CDAT  ; "<![CDA",

            CDAT  ; 'A' ; CDATA ; "<![CDAT";

            CDATA ; '[' ; "<![CDATA" ; self.move_to_with(State::Normal, Token::CDataStart)

    /// Encountered '<!D'

    fn doctype_started(&mut self, c: char, s: DoctypeStartedSubstate) -> Result {

        use self::DoctypeStartedSubstate::{D, DO, DOC, DOCT, DOCTY, DOCTYP};

        dispatch_on_enum_state!(self, s, c, State::DoctypeStarted,

            D      ; 'O' ; DO     ; "<!D",

            DO     ; 'C' ; DOC    ; "<!DO",

            DOC    ; 'T' ; DOCT   ; "<!DOC",

            DOCT   ; 'Y' ; DOCTY  ; "<!DOCT",

            DOCTY  ; 'P' ; DOCTYP ; "<!DOCTY";

            DOCTYP ; 'E' ; "<!DOCTYP" ; self.move_to_with(State::DoctypeFinishing(1), Token::DoctypeStart)

    /// State used while awaiting the closing bracket for the <!DOCTYPE tag

    fn doctype_finishing(&mut self, c: char, d: u8) -> Result {

        match c {

            '<' => self.move_to(State::DoctypeFinishing(d + 1)),

            '>' if d == 1 => self.move_to_with(State::Normal, Token::TagEnd),

            '>' => self.move_to(State::DoctypeFinishing(d - 1)),

            _ => Ok(None),

    /// Encountered '?'

    fn processing_instruction_closing(&mut self, c: char) -> Result {

        match c {

            '>' => self.move_to_with(State::Normal, Token::ProcessingInstructionEnd),

            _   => self.move_to_with_unread(State::Normal, &[c], Token::Character('?')),

    /// Encountered '/'

    fn empty_element_closing(&mut self, c: char) -> Result {

        match c {

            '>' => self.move_to_with(State::Normal, Token::EmptyTagEnd),

            _   => self.move_to_with_unread(State::Normal, &[c], Token::Character('/')),

    /// Encountered '-'

    fn comment_closing(&mut self, c: char, s: ClosingSubstate) -> Result {

        match s {

            ClosingSubstate::First => match c {

                '-' => self.move_to(State::CommentClosing(ClosingSubstate::Second)),

                _   => self.move_to_with_unread(State::Normal, &[c], Token::Character('-'))

},

            ClosingSubstate::Second => match c {

                '>'                      => self.move_to_with(State::Normal, Token::CommentEnd),

                // double dash not followed by a greater-than is a hard error inside comment

                _ if self.inside_comment => self.handle_error("--", c),

                // nothing else except comment closing starts with a double dash, and comment

                // closing can never be after another dash, and also we're outside of a comment,

                // therefore it is safe to push only the last read character to the list of unread

                // characters and pass the double dash directly to the output

                _                        => self.move_to_with_unread(State::Normal, &[c], Token::Chunk("--"))

    /// Encountered ']'

    fn cdata_closing(&mut self, c: char, s: ClosingSubstate) -> Result {

        match s {

            ClosingSubstate::First => match c {

                ']' => self.move_to(State::CDataClosing(ClosingSubstate::Second)),

                _   => self.move_to_with_unread(State::Normal, &[c], Token::Character(']'))

},

            ClosingSubstate::Second => match c {

                '>' => self.move_to_with(State::Normal, Token::CDataEnd),

                _   => self.move_to_with_unread(State::Normal, &[']', c], Token::Character(']'))

#[cfg(test)]

mod tests {

    use common::{Position};

    use std::io::{BufReader, Cursor};

    use super::{Lexer, Token};

    macro_rules! assert_oks(

        (for $lex:ident and $buf:ident ; $($e:expr)+) => ({

$(

                assert_eq!(Ok(Some($e)), $lex.next_token(&mut $buf));

)+

})

);

    macro_rules! assert_err(

        (for $lex:ident and $buf:ident expect row $r:expr ; $c:expr, $s:expr) => ({

            let err = $lex.next_token(&mut $buf);

            assert!(err.is_err());

            let err = err.unwrap_err();

            assert_eq!($r as u64, err.position().row);

            assert_eq!($c as u64, err.position().column);

            assert_eq!($s, err.msg());

})

);

    macro_rules! assert_none(

        (for $lex:ident and $buf:ident) => (

            assert_eq!(Ok(None), $lex.next_token(&mut $buf));

);

    fn make_lex_and_buf(s: &str) -> (Lexer, BufReader<Cursor<Vec<u8>>>) {

        (Lexer::new(), BufReader::new(Cursor::new(s.to_owned().into_bytes())))

    #[test]

    fn simple_lexer_test() {

        let (mut lex, mut buf) = make_lex_and_buf(

            r#"<a p='q'> x<b z="y">d	</b></a><p/> <?nm ?> <!-- a c --> &nbsp;"#

);

        assert_oks!(for lex and buf ;

            Token::OpeningTagStart

            Token::Character('a')

            Token::Whitespace(' ')

            Token::Character('p')

            Token::EqualsSign

            Token::SingleQuote

            Token::Character('q')

            Token::SingleQuote

            Token::TagEnd

            Token::Whitespace(' ')

            Token::Character('x')

            Token::OpeningTagStart

            Token::Character('b')

            Token::Whitespace(' ')

            Token::Character('z')

            Token::EqualsSign

            Token::DoubleQuote

            Token::Character('y')

            Token::DoubleQuote

            Token::TagEnd

            Token::Character('d')

            Token::Whitespace('\t')

            Token::ClosingTagStart

            Token::Character('b')

            Token::TagEnd

            Token::ClosingTagStart

            Token::Character('a')

            Token::TagEnd

            Token::OpeningTagStart

            Token::Character('p')

            Token::EmptyTagEnd

            Token::Whitespace(' ')

            Token::ProcessingInstructionStart

            Token::Character('n')

            Token::Character('m')

            Token::Whitespace(' ')

            Token::ProcessingInstructionEnd

            Token::Whitespace(' ')

            Token::CommentStart

            Token::Whitespace(' ')

            Token::Character('a')

            Token::Whitespace(' ')

            Token::Character('c')

            Token::Whitespace(' ')

            Token::CommentEnd

            Token::Whitespace(' ')

            Token::ReferenceStart

            Token::Character('n')

            Token::Character('b')

            Token::Character('s')

            Token::Character('p')

            Token::ReferenceEnd

);

        assert_none!(for lex and buf);

    #[test]

    fn special_chars_test() {

        let (mut lex, mut buf) = make_lex_and_buf(

            r#"?x!+ // -| ]z]]"#

);

        assert_oks!(for lex and buf ;

            Token::Character('?')

            Token::Character('x')

            Token::Character('!')

            Token::Character('+')

            Token::Whitespace(' ')

            Token::Character('/')

            Token::Character('/')

            Token::Whitespace(' ')

            Token::Character('-')

            Token::Character('|')

            Token::Whitespace(' ')

            Token::Character(']')

            Token::Character('z')

            Token::Chunk("]]")

);

        assert_none!(for lex and buf);

    #[test]

    fn cdata_test() {

        let (mut lex, mut buf) = make_lex_and_buf(

            r#"<a><![CDATA[x y ?]]> </a>"#

);

        assert_oks!(for lex and buf ;

            Token::OpeningTagStart

            Token::Character('a')

            Token::TagEnd

            Token::CDataStart

            Token::Character('x')

            Token::Whitespace(' ')

            Token::Character('y')

            Token::Whitespace(' ')

            Token::Character('?')

            Token::CDataEnd

            Token::Whitespace(' ')

            Token::ClosingTagStart

            Token::Character('a')

            Token::TagEnd

);

        assert_none!(for lex and buf);

    #[test]

    fn doctype_test() {

        let (mut lex, mut buf) = make_lex_and_buf(

            r#"<a><!DOCTYPE ab xx z> "#

);

        assert_oks!(for lex and buf ;

            Token::OpeningTagStart

            Token::Character('a')

            Token::TagEnd

            Token::DoctypeStart

            Token::TagEnd

            Token::Whitespace(' ')

);

        assert_none!(for lex and buf)

    #[test]

    fn doctype_with_internal_subset_test() {

        let (mut lex, mut buf) = make_lex_and_buf(

            r#"<a><!DOCTYPE ab[<!ELEMENT ba> ]> "#

);

        assert_oks!(for lex and buf ;

            Token::OpeningTagStart

            Token::Character('a')

            Token::TagEnd

            Token::DoctypeStart

            Token::TagEnd

            Token::Whitespace(' ')

);

        assert_none!(for lex and buf)

    #[test]

    fn end_of_stream_handling_ok() {

        macro_rules! eof_check(

            ($data:expr ; $token:expr) => ({

                let (mut lex, mut buf) = make_lex_and_buf($data);

                assert_oks!(for lex and buf ; $token);

                assert_none!(for lex and buf);

})

);

        eof_check!("?"  ; Token::Character('?'));

        eof_check!("/"  ; Token::Character('/'));

        eof_check!("-"  ; Token::Character('-'));

        eof_check!("]"  ; Token::Character(']'));

        eof_check!("]]" ; Token::Chunk("]]"));

    #[test]

    fn end_of_stream_handling_error() {

        macro_rules! eof_check(

            ($data:expr; $r:expr, $c:expr) => ({

                let (mut lex, mut buf) = make_lex_and_buf($data);

                assert_err!(for lex and buf expect row $r ; $c, "Unexpected end of stream");

                assert_none!(for lex and buf);

})

);

        eof_check!("<"        ; 0, 1);

        eof_check!("<!"       ; 0, 2);

        eof_check!("<!-"      ; 0, 3);

        eof_check!("<!["      ; 0, 3);

        eof_check!("<![C"     ; 0, 4);

        eof_check!("<![CD"    ; 0, 5);

        eof_check!("<![CDA"   ; 0, 6);

        eof_check!("<![CDAT"  ; 0, 7);

        eof_check!("<![CDATA" ; 0, 8);

        eof_check!("--"       ; 0, 2);

    #[test]

    fn error_in_comment_or_cdata_prefix() {

        let (mut lex, mut buf) = make_lex_and_buf("<!x");

        assert_err!(for lex and buf expect row 0 ; 0,

            "Unexpected token '<!' before 'x'"

);

        let (mut lex, mut buf) = make_lex_and_buf("<!x");

        lex.disable_errors();

        assert_oks!(for lex and buf ;

            Token::Chunk("<!")

            Token::Character('x')

);

        assert_none!(for lex and buf);

    #[test]

    fn error_in_comment_started() {

        let (mut lex, mut buf) = make_lex_and_buf("<!-\t");

        assert_err!(for lex and buf expect row 0 ; 0,

            "Unexpected token '<!-' before '\t'"

);

        let (mut lex, mut buf) = make_lex_and_buf("<!-\t");

        lex.disable_errors();

        assert_oks!(for lex and buf ;

            Token::Chunk("<!-")

            Token::Whitespace('\t')

);

        assert_none!(for lex and buf);

    #[test]

    fn error_in_comment_two_dashes_not_at_end() {

        let (mut lex, mut buf) = make_lex_and_buf("--x");

        lex.inside_comment();

        assert_err!(for lex and buf expect row 0; 0,

            "Unexpected token '--' before 'x'"

);

        let (mut lex, mut buf) = make_lex_and_buf("--x");

        assert_oks!(for lex and buf ;

            Token::Chunk("--")

            Token::Character('x')

);

    macro_rules! check_case(

        ($chunk:expr, $app:expr; $data:expr; $r:expr, $c:expr, $s:expr) => ({

            let (mut lex, mut buf) = make_lex_and_buf($data);

            assert_err!(for lex and buf expect row $r ; $c, $s);

            let (mut lex, mut buf) = make_lex_and_buf($data);

            lex.disable_errors();

            assert_oks!(for lex and buf ;

                Token::Chunk($chunk)

                Token::Character($app)

);

            assert_none!(for lex and buf);

})

);

    #[test]

    fn error_in_cdata_started() {

        check_case!("<![",      '['; "<![["      ; 0, 0, "Unexpected token '<![' before '['");

        check_case!("<![C",     '['; "<![C["     ; 0, 0, "Unexpected token '<![C' before '['");

        check_case!("<![CD",    '['; "<![CD["    ; 0, 0, "Unexpected token '<![CD' before '['");

        check_case!("<![CDA",   '['; "<![CDA["   ; 0, 0, "Unexpected token '<![CDA' before '['");

        check_case!("<![CDAT",  '['; "<![CDAT["  ; 0, 0, "Unexpected token '<![CDAT' before '['");

        check_case!("<![CDATA", '|'; "<![CDATA|" ; 0, 0, "Unexpected token '<![CDATA' before '|'");

    #[test]

    fn error_in_doctype_started() {

        check_case!("<!D",      'a'; "<!Da"      ; 0, 0, "Unexpected token '<!D' before 'a'");

        check_case!("<!DO",     'b'; "<!DOb"     ; 0, 0, "Unexpected token '<!DO' before 'b'");

        check_case!("<!DOC",    'c'; "<!DOCc"    ; 0, 0, "Unexpected token '<!DOC' before 'c'");

        check_case!("<!DOCT",   'd'; "<!DOCTd"   ; 0, 0, "Unexpected token '<!DOCT' before 'd'");

        check_case!("<!DOCTY",  'e'; "<!DOCTYe"  ; 0, 0, "Unexpected token '<!DOCTY' before 'e'");

        check_case!("<!DOCTYP", 'f'; "<!DOCTYPf" ; 0, 0, "Unexpected token '<!DOCTYP' before 'f'");

    #[test]

    fn issue_98_cdata_ending_with_right_bracket() {

        let (mut lex, mut buf) = make_lex_and_buf(

            r#"<![CDATA[Foo [Bar]]]>"#

);

        assert_oks!(for lex and buf ;

            Token::CDataStart

            Token::Character('F')

            Token::Character('o')

            Token::Character('o')

            Token::Whitespace(' ')

            Token::Character('[')

            Token::Character('B')

            Token::Character('a')

            Token::Character('r')

            Token::Character(']')

            Token::CDataEnd

);

        assert_none!(for lex and buf);