The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

Новая версия интерпретатора GNU Awk 5.1 , opennews (??), 18-Апр-20, (0) [смотреть все]

Сообщения [Сортировка по времени | RSS]


86. "Новая версия интерпретатора GNU Awk 5.1 "  +1 +/
Сообщение от Аноним (85), 18-Апр-20, 20:16 
> Awk неплох, но только на csv или tsv файлах.

Вы же в курсе что по стандарту CSV вот это тоже валидный CSV из одной записи и пяти колонок:
1,2,"foo ""3""
bar",4,5

?

Как вы это на awk парсите, можно посмотреть?

Ответить | Правка | К родителю #53 | Наверх | Cообщить модератору

96. "Новая версия интерпретатора GNU Awk 5.1 "  –1 +/
Сообщение от Аноним (57), 18-Апр-20, 21:21 
Это microsoft-овский csv, его придумывали не очень умные люди.
Формат вида /etc/passwd с единственным способом экранирования разделителя намного более практичен.
Ответить | Правка | Наверх | Cообщить модератору

130. "Новая версия интерпретатора GNU Awk 5.1 "  +/
Сообщение от Аноним (130), 19-Апр-20, 15:22 
> Это microsoft-овский csv

Кто вам сказал такую чушь?

Это https://www.ietf.org/rfc/rfc4180.txt к microsoft никакого отношения не имеет и более того microsoft не поддерживал его в своём excel (починили сейчас или нет, не знаю).

Ответить | Правка | Наверх | Cообщить модератору

138. "Новая версия интерпретатора GNU Awk 5.1 "  –1 +/
Сообщение от Аноним (57), 19-Апр-20, 23:40 
Этот rfc написан в 2005 году и лишь фиксирует статус кво.
CSV в виде "строка с разделителем" существовал, конечно, еще со времен перфокарт. А вот с кавычками и их удваиванием придумали в Microsoft, еще в самых ранних версиях Excel.
Ответить | Правка | Наверх | Cообщить модератору

100. "Новая версия интерпретатора GNU Awk 5.1 "  +1 +/
Сообщение от Аноним (57), 18-Апр-20, 21:35 
В Gnu AWK есть FPAT, с ним все парсится легко.

https://www.gnu.org/software/gawk/manual/html_node/Splitting...

Ответить | Правка | К родителю #86 | Наверх | Cообщить модератору

131. "Новая версия интерпретатора GNU Awk 5.1 "  +/
Сообщение от Аноним (130), 19-Апр-20, 17:21 
Увы, нет, по вашей же ссылке написано:

NOTE: Some programs export CSV data that contains embedded newlines between the double quotes. gawk provides no way to deal with this. Even though a formal specification for CSV data exists, there isn’t much more to be done; the FPAT mechanism provides an elegant solution for the majority of cases, and the gawk developers are satisfied with that.

Стандартный RFCшный CSV даже на gawk не распарсить.

Ответить | Правка | Наверх | Cообщить модератору

137. "Новая версия интерпретатора GNU Awk 5.1 "  +/
Сообщение от Аноним (57), 19-Апр-20, 23:36 
Очевидно, что при построчном чтении распарсить случай с CRLF внутри кавычек не получится.

Если очень уж хочется поддерживать этот кейс, никто не запрещает считать кавычки и конкатенировать со следующей строкой и так далее, пока не получится полная csv-строка.

Ответить | Правка | Наверх | Cообщить модератору

108. "Новая версия интерпретатора GNU Awk 5.1 "  –2 +/
Сообщение от Аноним (53), 18-Апр-20, 23:50 
Никак. Я awk не пользуюсь, ибо не понимаю, зачем мучить себе мозг упоротыми конструкциями 70 летней давности. Тогда это было круто, и более не было ничего, но сейчас-то у нас есть перл и питон.
Ответить | Правка | К родителю #86 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру