tikh_email_parser

Розширений парсер електронних адрес з підтримкою коментарів та спеціальних символів за допомогою pest. Цей парсер розбирає складні електронні адреси та витягує локальну частину і домен.

Crate: https://crates.io/crates/tikh_email_parser Docs: https://docs.rs/tikh_email_parser/0.1.0/tikh_email_parser/

Опис

Парсер використовує pest для розбору електронних адрес на основі розширеної граматики. Він підтримує формати електронних адрес з коментарями, спеціальними символами та може перевіряти і витягувати компоненти з електронних адрес.

Технічний опис процесу парсингу

Парсер аналізує рядок електронної адреси, розбиваючи його на локальну частину та домен за допомогою символу @. Локальна частина та домен можуть містити спеціальні символи та коментарі. Парсер використовує розширену граматику, яка підтримує:

Коментарі: Текст, обмежений дужками ( та ), який може з'являтися в різних місцях адреси.
Кавички: Локальна частина може бути взята в подвійні лапки " ", щоб дозволити спеціальні символи.
Спеціальні символи: Такі як ! # $ % & ' * + - / = ? ^ _ { | } ~.

Процес парсингу виконується наступним чином:

Видалення коментарів: Коментарі ігноруються або обробляються окремо.
Розбір локальної частини: Може бути простим текстом або взятою в лапки.
Розбір домену: Складається з піддоменів, розділених крапками.
Валідація: Перевірка відповідності адреси розширеній граматиці.
Витягування компонентів: Повернення структури з локальною частиною та доменом.

Використання

Щоб використовувати парсер, запустіть CLI-додаток і надайте файл, що містить електронні адреси для розбору.

cargo run -- parse emails.txt

Щоб відобразити інформацію про автора:

cargo run -- credits

Граматика

Парсер використовує наступну граматику:

WHITESPACE = { " " | "\t" } email = { cfws? ~ local_part ~ "@" ~ domain ~ cfws? }
local_part = { dot_atom | quoted_string }
domain = { dot_atom }
dot_atom = { dot_atom_text ~ ("." ~ dot_atom_text)* }
dot_atom_text = { [a-zA-Z0-9!#$%&'*+/=?^`{|}~-]+ }
quoted_string = { """ ~ qcontent* ~ """ }
qcontent = { qtext | quoted_pair }
qtext = { !["\] ~ ANY }
quoted_pair = { "\" ~ ANY }
cfws = { (comment | FWS)+ }
comment = { "(" ~ (ctext | quoted_pair | comment)* ~ ")" }
ctext = { ![()\] ~ ANY }
FWS = { (WSP* ~ CRLF)? ~ WSP+ }
WSP = _{ " " | "\t" }
CRLF = _{ "\r\n" | "\n" }

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
src		src
tests		tests
.gitignore		.gitignore
Cargo.lock		Cargo.lock
Cargo.toml		Cargo.toml
Makefile		Makefile
Readme.md		Readme.md
emails.txt		emails.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

tikh_email_parser

Опис

Технічний опис процесу парсингу

Використання

Граматика

About

Releases

Packages

Languages

tikhonishchenko/tikh_email_parser

Folders and files

Latest commit

History

Repository files navigation

tikh_email_parser

Опис

Технічний опис процесу парсингу

Використання

Граматика

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages