langlab.core.characters documentation

langlab.core.characters

Module contains string utilities operating on characters.

This includes, e.g., diacritics removal, vowel groups detection, character counting, non-BMP characters removal, etc.

Part of this module functionality can be also replaced by regular expression matching with Unicode support: http://www.regular-expressions.info/unicode.html

General convention is that all contains-* functions return false on empty string.

contains-digits-only?

(contains-digits-only? s)

Checks if s contains only digits according to Character.isDigit(cp).

view source

contains-digits?

(contains-digits? s)

Checks if s contains any digits according to Character.isDigit(cp).

view source

contains-letters-only?

(contains-letters-only? s)

Checks if s contains only letters according to Character.isLetter(cp).

view source

contains-letters-or-digits-only?

(contains-letters-or-digits-only? s)

Checks if s contains only letters and digits according to Character.isLetterOrDigit(cp).

view source

contains-letters-or-digits?

(contains-letters-or-digits? s)

Checks if s contains any letters or any digits according to Character.isLetterOrDigit(cp).

view source

contains-letters?

(contains-letters? s)

Checks if s contains any letters according to Character.isLetter(cp).

view source

contains-non-bmp?

(contains-non-bmp? s)

Checks if s contains non-bmp characters according to !Character.isBmpCodePoint(cp).

view source

contains-punct-only?

(contains-punct-only? s)

Checks if s contains only punctuation according to Character.getType(cp) equal to *_PUNCTUATION classes.

view source

contains-punct?

(contains-punct? s)

Checks if s contains punctuation according to Character.getType(cp) equal to *_PUNCTUATION classes.

view source

contains-whitespace-only?

(contains-whitespace-only? s)

Checks if s contains only whitespace according to Character.isWhitespace(cp). Be warned that some intuitively whitespace characters from Unicode are excluded (e.g., hard spaces). See tests.

view source

contains-whitespace?

(contains-whitespace? s)

Checks if s contains whitespace according to Character.isWhitespace(cp). Some intuitively whitespace characters from Unicode are excluded (e.g., hard spaces). See tests.

view source