The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Выпуск генератора лексических анализаторов re2c 4.0"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Выпуск генератора лексических анализаторов re2c 4.0"  +/
Сообщение от opennews (??), 21-Ноя-24, 04:24 
Опубликован релиз re2c 4.0 - генератора лексических анализаторов (он же компилятор регулярных выражений в код на целевом языке программирования). Re2c специализируется на генерации быстрых и легко встраиваемых лексеров и отличается от более известного аналога Flex гибким интерфейсом, генерацией оптимизированных нетабличных лексеров и поддержкой захватов (submatch extraction) на основе детерминированных конечных автоматов с тэгами (TDFA). re2c используется в проектах, где важна скорость работы лексера, например в Ninja и в PHP...

Подробнее: https://www.opennet.ru/opennews/art.shtml?num=62267

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по времени | RSS]


1. "Выпуск генератора лексических анализаторов re2c 4.0"  +/
Сообщение от Аноним (1), 21-Ноя-24, 04:24 
Чем он лучше Boost::Spirit?
Ответить | Правка | Наверх | Cообщить модератору

3. "Выпуск генератора лексических анализаторов re2c 4.0"  +1 +/
Сообщение от Аноним (3), 21-Ноя-24, 04:29 
Возможно, тем, что он не сдох как спирит в 2014?
Ответить | Правка | Наверх | Cообщить модератору

11. "Выпуск генератора лексических анализаторов re2c 4.0"  +/
Сообщение от Аноним (11), 21-Ноя-24, 10:07 
вопрос к сообщению про то что спирит сдox в 14 году, я его использовал активно в 18-19. вполне успешно и живой он был
Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору

13. "Выпуск генератора лексических анализаторов re2c 4.0"  –1 +/
Сообщение от Аноним (11), 21-Ноя-24, 10:20 
посмотрел что там у спирита на сайте буста. действительно не развивается давно. последняя верся .78
Ответить | Правка | Наверх | Cообщить модератору

12. "Выпуск генератора лексических анализаторов re2c 4.0"  –1 +/
Сообщение от skvadrik (ok), 21-Ноя-24, 10:18 
А Boost::Spirit во время компиляции строит и оптимизирует конечный автомат?
Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору

14. "Выпуск генератора лексических анализаторов re2c 4.0"  +/
Сообщение от Аноним (11), 21-Ноя-24, 10:24 
наврятли он что-то оптимизирует. это все шаблонной магией делается. Вся формальная спецификация задается как шаблонный код, те код парсера получается через инстанцирование шаблонного кода в момент компиляции
Ответить | Правка | Наверх | Cообщить модератору

17. "Выпуск генератора лексических анализаторов re2c 4.0"  +1 +/
Сообщение от skvadrik (ok), 21-Ноя-24, 11:28 
У re2c ещё есть то преимущество по сравнению с другими компиляторами регулярных выражений, что он использует конечные автоматы с тэгами (https://en.wikipedia.org/wiki/Tagged_Deterministic_Finite_Au...), что позволяет ему делать не просто распознавание, но и захват (submatch extraction). Обычно или компилируется (и тогда нет захвата), или а рантайме матчится (и тогда захват есть, но не так быстро).
Ответить | Правка | Наверх | Cообщить модератору

23. "Выпуск генератора лексических анализаторов re2c 4.0"  +/
Сообщение от qq (??), 21-Ноя-24, 15:35 
Tagged Deterministic Finite Automaton),

The article that you're looking for doesn't exist.

Ответить | Правка | Наверх | Cообщить модератору

25. "Выпуск генератора лексических анализаторов re2c 4.0"  +/
Сообщение от Уля (?), 21-Ноя-24, 15:43 
https://en.m.wikipedia.org/wiki/Tagged_Deterministic_Finite_...
Ответить | Правка | К родителю #17 | Наверх | Cообщить модератору

26. "Выпуск генератора лексических анализаторов re2c 4.0"  +/
Сообщение от Аноним (26), 21-Ноя-24, 16:37 
такого в спирите нет, там никакого рантайма. все скомпилено из шаблонов и прибито
Ответить | Правка | К родителю #17 | Наверх | Cообщить модератору

2. "Выпуск генератора лексических анализаторов re2c 4.0"  +1 +/
Сообщение от Аноним (3), 21-Ноя-24, 04:27 
Сложные (по неоднозначностям) языки типа C++ - на нём можно написать?
Ответить | Правка | Наверх | Cообщить модератору

5. "Выпуск генератора лексических анализаторов re2c 4.0"  –1 +/
Сообщение от Аноним (5), 21-Ноя-24, 08:43 
>уже поддерживаемым (C/C++, Go, Rust)
Ответить | Правка | Наверх | Cообщить модератору

6. "Выпуск генератора лексических анализаторов re2c 4.0"  +2 +/
Сообщение от Аноним (6), 21-Ноя-24, 09:04 
🤦‍

Поддерживается генерация кода на этих языках, а не их разбор.

Ответить | Правка | Наверх | Cообщить модератору

9. "Выпуск генератора лексических анализаторов re2c 4.0"  +/
Сообщение от skvadrik (ok), 21-Ноя-24, 10:01 
Лексический анализатор конечно можно, но судя по вопросу о неоднозначностях речь о синтаксическом разборе -- тогда нет конечно, re2c для регулярных грамматик.
Ответить | Правка | К родителю #2 | Наверх | Cообщить модератору

16. "Выпуск генератора лексических анализаторов re2c 4.0"  +1 +/
Сообщение от ijuij (?), 21-Ноя-24, 11:17 
Сохранил в закладки. Будет любопытно заюзать инструменты для (code sanitizers, fuzzing, static program analysis) и поискать уязвимости и баги. 😈🐛

Ответить | Правка | Наверх | Cообщить модератору

18. "Выпуск генератора лексических анализаторов re2c 4.0"  +/
Сообщение от Аноним (18), 21-Ноя-24, 11:48 
А ассемблер поддерживается?
Ответить | Правка | Наверх | Cообщить модератору

19. "Выпуск генератора лексических анализаторов re2c 4.0"  +1 +/
Сообщение от skvadrik (ok), 21-Ноя-24, 12:03 
Нет, и пока в планах этого нет. Для компилируемых языков обычно оптимизирующий компилятор решают эту задачу, и лезть туда надо только если заведомо есть что ускорить (т.е. по какой-то причине компилятор не умеет генерить эффективный код именно для такого типа исходников, и нельзя его пофиксить). В re2c можно проводить более высокоуровневые оптимизации (например, читать и матчить по нескольку байт за раз -- но даже тут много проблем с выравниванием и т.д.).

А какой ассемблер вас интересует? Для каких задач/сред это может пригодиться, где С тулчейн не подойдёт?

Ответить | Правка | Наверх | Cообщить модератору

20. "Выпуск генератора лексических анализаторов re2c 4.0"  +/
Сообщение от Аноним (20), 21-Ноя-24, 12:08 
Осталось понять, зачем для окамла или хаскеля брать этот инструмент, а не их родные.
Ответить | Правка | Наверх | Cообщить модератору

21. "Выпуск генератора лексических анализаторов re2c 4.0"  +1 +/
Сообщение от skvadrik (ok), 21-Ноя-24, 12:25 
Для окамла пользователи попросили: https://github.com/skvadrik/re2c/issues/449, для хаскеля он может оказаться быстрее чем alex (это ещё надо потестировать), но вообще было полезно добавить поддержку просто чтобы убедиться в том, что синтаксические файлы достаточно гибкие для чистого функционального ЯП.
Ответить | Правка | Наверх | Cообщить модератору

31. "Выпуск генератора лексических анализаторов re2c 4.0"  +/
Сообщение от Аноним (20), 21-Ноя-24, 19:06 
Что скажите по сравнению с menhir(lr генератор для ocaml) и tree-sitter (glr, с восстановлением после ошибки, с кучей биндингов, у окамла есть типизированный биндинг)? В частности по поводу восстановления после ошибок, с возвратом частично построенного дерева типа такого
for (var i = 1;
    console.log(i);
Ответить | Правка | Наверх | Cообщить модератору

32. "Выпуск генератора лексических анализаторов re2c 4.0"  +/
Сообщение от skvadrik (ok), 21-Ноя-24, 19:26 
Это же генераторы парсеров, а не лексеров. Они для другого типа грамматик: re2c для регулярных, а menhir и tree-sitter для контекстно-свободных. Эти задачи решаются разными алгоритмами (можно, конечно, GLR парсером распознавать регулярные грамматики, но это неэффективно и неудобно). Часто генератор лексеров и парсеров работают в связке.
Ответить | Правка | Наверх | Cообщить модератору

36. "Выпуск генератора лексических анализаторов re2c 4.0"  +/
Сообщение от Аноним (20), 22-Ноя-24, 12:16 
Как-то пропустил, что это только лексер
Ответить | Правка | Наверх | Cообщить модератору

34. "Выпуск генератора лексических анализаторов re2c 4.0"  +/
Сообщение от skvadrik (ok), 21-Ноя-24, 19:31 
Вот тут параллель проводили с ocamllex и sedlex: https://github.com/skvadrik/re2c/issues/449#issuecomment-160....
Ответить | Правка | К родителю #31 | Наверх | Cообщить модератору

22. "Выпуск генератора лексических анализаторов re2c 4.0"  +3 +/
Сообщение от Аноним (6), 21-Ноя-24, 13:55 
Уля, спасибо что не бросаете. Отдельная благодарность за Zig и за внешнюю конфигурацию синтаксиса в целом. Традиционно, привет Серёже. =)

p.s. В Gentoo пока всё ещё 3.1.

Ответить | Правка | Наверх | Cообщить модератору

30. "Выпуск генератора лексических анализаторов re2c 4.0"  +/
Сообщение от skvadrik (ok), 21-Ноя-24, 18:52 
Спасибо за обратную связь. :)
Ответить | Правка | Наверх | Cообщить модератору

35. "Выпуск генератора лексических анализаторов re2c 4.0"  +/
Сообщение от erthink_erthink (?), 21-Ноя-24, 22:31 
Присоединяюсь.

Спасибо за лучший инструмент.

Ответить | Правка | К родителю #22 | Наверх | Cообщить модератору

27. "Выпуск генератора лексических анализаторов re2c 4.0"  +/
Сообщение от Аноним (27), 21-Ноя-24, 17:43 
Ничего не понял. Что этот анализатор лексических генераторов делает?
Ответить | Правка | Наверх | Cообщить модератору

28. "Выпуск генератора лексических анализаторов re2c 4.0"  +2 +/
Сообщение от Аноним (6), 21-Ноя-24, 17:51 
Генерит по описанию лексики исходник на выбранном языке, являющийся специализированным быстрым парсером этой лексики. Из подобного — Flex, Bison и т.д.
Ответить | Правка | Наверх | Cообщить модератору

33. "Выпуск генератора лексических анализаторов re2c 4.0"  +/
Сообщение от skvadrik (ok), 21-Ноя-24, 19:28 
Может из примеров станет понятнее: http://re2c.org/playground
Ответить | Правка | Наверх | Cообщить модератору

37. "Выпуск генератора лексических анализаторов re2c 4.0"  +1 +/
Сообщение от Аноним (20), 22-Ноя-24, 12:18 
Лексер преобразует строку в поток токенов, а парсер из этих токенов стрит синтаксическое дело. Нужно, если вы хотите как-то обработать исходный код, например, скомпилировать, изменить, или проверить на ошибки
Ответить | Правка | К родителю #27 | Наверх | Cообщить модератору

38. "Выпуск генератора лексических анализаторов re2c 4.0"  +1 +/
Сообщение от skvadrik (ok), 22-Ноя-24, 12:39 
Применений много и помимо разбора исходного кода: разбор логов / конфигов / URL адресов / email адресов / аргументов командной строки / поиск сигнатур в бинарных файлах -- в общем, всё, что не выходит за рамки регулярных грамматик (в частности, не содержит вложенных стуктур и скобочных выражений -- например, HTML регулярными выражениями парсить нельзя: https://stackoverflow.com/questions/1732348/regex-match-open...).
Ответить | Правка | Наверх | Cообщить модератору

39. "Выпуск генератора лексических анализаторов re2c 4.0"  +/
Сообщение от Аноним (39), 22-Ноя-24, 22:21 
Классическими регулярками нельзя, расширенными, как в Perl/PCRE, умеющими в рекурсию - можно, но там другая проблема - непредсказуемость вычислительной сложности.
Ответить | Правка | Наверх | Cообщить модератору

40. "Выпуск генератора лексических анализаторов re2c 4.0"  +/
Сообщение от skvadrik (ok), 22-Ноя-24, 23:04 
Это заблуждение. Для распознавания вложенных структур (простейший пример - скобчных выражений) не годятся ни обычные, ни Perl регулярные выражения. Нету такого способа выразить в регулярном выражении "сматчить N открывающих скобок, потом что-то ещё, а потом N закрывающих" - вот это вот N, что оно оба раза одно и то же, никак не выразить, для этого нужны как минимум контекстно-свободные грамматики. Если вы считаете, что можно, приведите пример регулярного выражения, которое матчит сбалансированные скобочные выражения.

[Upd]

Оказывается, это я заблуждалась и Perl действительно такое умеет, вот пример: https://stackoverflow.com/a/18653648 . Тут используется синтаксис (?R) чтобы рекурсивно сматчить опять всё выражение.

Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру