1.2, InuYasha (??), 12:32, 30/11/2020 [ответить] [﹢﹢﹢] [ · · · ]
| –4 +/– |
На ленты можно будет накатить. Хотя, там уже сами LTO-приводы, вроде, делают своё сжатие.
| |
|
2.3, blzz (?), 12:51, 30/11/2020 [^] [^^] [^^^] [ответить]
| +1 +/– |
не представляю как можно сжимать для устройства с линейным доступом, кроме как gzip/bzip2/xz или аналогов, ну в общем блок потока. ведь что-то выиграть на дедупликации внеблока нельзя, а это и есть самое выгодное для файловой системы.
| |
|
3.4, Аноним (4), 13:00, 30/11/2020 [^] [^^] [^^^] [ответить]
| –6 +/– |
Вот кстати единственный архиватор, который занимается дедупликацией (помимо того что позволяет выбрать эффективные фдля контента фильтры, мог бы и сам озаботиться конечно) это zpaq. Больше никто дидуплекацию не делает — у тебя в файле будет несколько копий одних и тех же данных в итоге. Даже если файлы совершенно идентичные, архиваторы недостаточно умные, чтобы угадать идентичность по хэшам. Про потоковые и говорить нечего, конечно.
| |
|
4.5, Аноним (4), 13:02, 30/11/2020 [^] [^^] [^^^] [ответить]
| –2 +/– |
Squashfs вроде обещала дедупликацию, но я её не заметил что-то совершенно.
| |
|
5.14, Аноним (14), 14:56, 30/11/2020 [^] [^^] [^^^] [ответить]
| +2 +/– |
Пофайловая есть. Одинааовые файлы сгребает еще до отправки на сжатие, можешь чекать статистику в клнце mksquashfs
| |
|
6.26, Аноним (4), 16:02, 30/11/2020 [^] [^^] [^^^] [ответить]
| –2 +/– |
Не знаю, я сжимал 2 копии одинаковых файлов лежащих рядом (они не рядом с точки зрения архиватора, файлов было много) и ни архиваторы ни squash и приблизиться не смогли к zpaq (по времени у того сравнимо с 7z, примерно одинаково даже).
| |
|
7.27, Аноним (4), 16:03, 30/11/2020 [^] [^^] [^^^] [ответить]
| –3 +/– |
7z кстати при этом сжал почему-то лучше squashfs (там xz компрессором был).
| |
7.39, Аноним (39), 17:19, 30/11/2020 [^] [^^] [^^^] [ответить]
| +/– |
Можно перед mksquashfs прогнать любой дедупликатор, заменяющий копии на симлинки
| |
7.49, Led (ok), 21:20, 30/11/2020 [^] [^^] [^^^] [ответить]
| +2 +/– |
>архиваторы
При чём тут архиваторы? Архиваторы архивирут, а не сжимают.
| |
|
8.50, Аноним (4), 21:22, 30/11/2020 [^] [^^] [^^^] [ответить] | –4 +/– | Так и мне нужна ДЕДУПЛЕКАЦИЯ, а не СЖАТИЕ Это задача АРХИВАТОРА, а не КОМПРЕССО... текст свёрнут, показать | |
|
|
|
|
4.6, Аноним (6), 13:05, 30/11/2020 [^] [^^] [^^^] [ответить]
| +4 +/– |
> архиватор, который занимается дедупликацией
Use Unix way, Luke.
fdupes; tar
Каждый при своём деле.
| |
|
5.7, Аноним (4), 13:21, 30/11/2020 [^] [^^] [^^^] [ответить]
| –1 +/– |
А если мне нужны несколько копий повторяющихся данных? Допустим, медиафайлы (и даже бинарники) одинаковые, а скрипты и переводы могут отличаться. Я конечно использую hardlink, но он просто выкидывает мета-информацию о файлах и если perl-hardlink позволял выбрать по дате или размеру какой файл оставить, то utillinux-hardlink выбирает самостоятельно и случайно? Ну, зато работает быстрее. А если файлы отличаются на пару байт (очень типичная ситуация), то он уже не дедуплицируются. По этой причине я хочу попробовать дедупликацию в btrfs для решения данной задачи, но btrfs до сих пор не поддерживает case-insensitive флаг (а значит только ext4 и вроде f2fs).
| |
|
6.11, Anon_noXX (?), 14:49, 30/11/2020 [^] [^^] [^^^] [ответить]
| –1 +/– |
Чьёрт подъери. "case-insensitive флаг" только ввели, а это стало киллер-фичей. На винду дуй, там это нормой является. Не нужно hardlink использовать, есть --reflink=(auto|always) опция для cp, mc умеет. Кстати, не только btrfs, ext4/xfs/что-там-еще-что-я-не-видел-никогда.
"А если файлы отличаются на пару байт (очень типичная ситуация), то он уже не дедуплицируются." - это к окулисту, он до 19 работает. Если ПО не умеет в ioctl_ficlonerange/ioctl_ficlone, то дедап должен выполняться сторонними средствами, к коим и ФС относится.
| |
|
7.12, Аноним (4), 14:53, 30/11/2020 [^] [^^] [^^^] [ответить]
| +/– |
>На винду дуй
А что мне ещё сделать?
>Не нужно hardlink использовать, есть --reflink=(auto|always) опция для cp, mc умеет
Но ведь мне не нужно копировать файлы, мне нужно их удалять. Алло.
>Если ПО не умеет в ioctl_ficlonerange/ioctl_ficlone
Какое ещё ПО, вот у меня 2 файла с песенками, отличается только дата тагирования, всё. Дальше что?
| |
|
|
|
4.8, Anon_noXX (?), 14:38, 30/11/2020 [^] [^^] [^^^] [ответить]
| –1 +/– |
Не совсем, дедупликацию еще как минимум rar5 умеет, со своими тараканами, куда без этого. А так-то, если в словарь(в общем, не придираться) все вмещается, любой архиватор эффективно с дублями борется.
| |
|
5.9, Аноним (4), 14:46, 30/11/2020 [^] [^^] [^^^] [ответить]
| –2 +/– |
>rar5
что-то не заметил (а ведь перебрал наверно все комбинации ключей), да и в целом в 5 раз хуже 7z жмёт.
>словарь
а это не выход, словарь делать больше суммарного объёма данных не вариант когда у тебя гигабайты (пусть и повторяющихся данных).
У zpaq на дублирующихся данных реально в разы меньше конкурентов файл вышел.
| |
|
6.13, Anon_noXX (?), 14:55, 30/11/2020 [^] [^^] [^^^] [ответить]
| –1 +/– |
Пардон, на работе только оффтопик и русский. Впрочем, читать документацию - это же не тру уних вей, да?
"· Сохранять идентичные файлы как ссылки
Если выбран этот параметр, то перед началом архивирования выполняется анализ содержимого файлов. Если обнаруживаются несколько идентичных файлов размером более 64 КБ, первый файл из набора сохраняется как обычный файл, а все остальные — как ссылки на этот первый файл. Это позволяет уменьшить размер архива, но накладывает некоторые ограничения на результирующий архив. Первый файл из набора идентичных файлов в созданном архиве нельзя удалять или переименовывать, потому что это сделает невозможным извлечение остальных ссылающихся на него файлов. Если изменить содержимое первого файла, то при извлечении изменёнными будут и все остальные ссылающиеся на него файлы. Команда извлечения должна применяться сначала к первому файлу, чтобы остальные файлы могли быть успешно созданы.
Данный параметр рекомендуется применять только при сжатии большого количества идентичных файлов и если архив в дальнейшем не предполагается изменять, а распаковывать его вы будете полностью, без необходимости извлекать или пропускать отдельные файлы. Если все идентичные файлы достаточно малы, чтобы уместиться в словаре сжатия, то более гибкое решение, нежели данный параметр, даёт непрерывное (solid) архивирование.
Поддерживается только в архивах RAR5.
"
Кстати, 7z вполне себе поддерживает, как думаете, что такое "solid block size"?
| |
|
7.19, Аноним (4), 15:04, 30/11/2020 [^] [^^] [^^^] [ответить]
| +/– |
Почему ты такой теоретик? Давай сделай запрошенное, потом приходи и рассказывай, как кто-то там не умеет читать справку, угумс? Только убедись хорошенько, что заявленная "дедупликация" работает, хотя бы со словарём ну там допустим 256мб и датасетом в несколько гигабайт с дублированными данными где-то на гигабайт-полтора. Я вот знаю результат заранее.
| |
|
|
9.23, Аноним (4), 15:31, 30/11/2020 [^] [^^] [^^^] [ответить] | –1 +/– | Ни к чему выпендрёж У меня было аж несколько различных кейсов, где размер файла... большой текст свёрнут, показать | |
|
10.24, Аноним (4), 15:35, 30/11/2020 [^] [^^] [^^^] [ответить] | –1 +/– | Вообще, это забавно, когда сильно сжатые данные занимают места больше чем почти ... текст свёрнут, показать | |
|
|
|
7.45, phrippy (ok), 19:14, 30/11/2020 [^] [^^] [^^^] [ответить]
| +/– |
> Если изменить содержимое первого файла, то при извлечении изменёнными будут и все остальные ссылающиеся на него файлы.
Что за мамкин программист прорабатывал эту логику? CoW - не, не слышал?
| |
|
|
|
|
5.38, Аноним84701 (ok), 17:10, 30/11/2020 [^] [^^] [^^^] [ответить]
| +/– |
> exdupe еще есть (http://www.quicklz.com/exdupe/), заявляется как самый быстрый дедупликатор,
> но это экзотика, разработка встала. То ли вылизали идеально, то ли заброшен проект...
Если из "заброшенного" (но вполне рабочего), то тогда уж zbackup, дает хорошую дедупликацию, неплохо конфигурируется (размер окна, сжатие), можно монтировать как ФС на чтение, можно отключить встроенное сжатие и сжимать результат. И лицензия более подходящая для форка, а не мутные "restricted and non-permissive terms".
Есть еще rdedup (на том самом ЯП, который-нельзя-называть, начинается на r, кончается на ust). По эффективности пожалуй лучше zbackup будет (тыкал где-то год назад, но у меня все упирается в IO) и на мой вкус слишком комбайнист -- встроили шифрование, поддержку облаков и прочее. Впрочем, zbackup этим (шифрование) тоже грешит.
| |
|
4.29, Аноним (32), 16:21, 30/11/2020 [^] [^^] [^^^] [ответить]
| –2 +/– |
winrar умеет в дедупликацию одинаковых файлов, нужные опции можно в мане посмотреть)
| |
|
5.31, Аноним (4), 16:27, 30/11/2020 [^] [^^] [^^^] [ответить]
| +/– |
> winrar умеет в дедупликацию одинаковых файлов, нужные опции можно в мане посмотреть)
Это проприетарная программа, возможно в бесплатной версии это не работает. Или в линуксовой версии это не работает. Или баг.
| |
|
4.72, Аноним (4), 22:55, 02/12/2020 [^] [^^] [^^^] [ответить] | +/– | Да, zpaq хорош, даже - дефолтный и памяти почти не использовал Я уверен, можно... большой текст свёрнут, показать | |
|
5.73, Аноним (4), 23:20, 02/12/2020 [^] [^^] [^^^] [ответить] | +/– | 7z 2016 года правда со словарём в половину объёма данных как раз влезет целик... большой текст свёрнут, показать | |
|
|
|
|
1.10, user90 (?), 14:46, 30/11/2020 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
B cразу ФС городить)
С точки зрения пользователя - не интересно / "критикуешь - предлагай?" - пжалуста: ddar.
| |
|
2.17, Аноним (14), 14:59, 30/11/2020 [^] [^^] [^^^] [ответить]
| +/– |
Ссылку бы хоть оставил, а то такую имбу предложил что аж не найти
| |
|
1.16, Аноним (16), 14:56, 30/11/2020 [ответить] [﹢﹢﹢] [ · · · ]
| +1 +/– |
>1139 различных установок Perl, в которых встречается 284 релизов Perl
а зачем столько версий? в перле совместимость часто ломают?
| |
1.22, Аноним (-), 15:30, 30/11/2020 [ответить] [﹢﹢﹢] [ · · · ]
| +7 +/– |
>Код написан на С++ и распространяется под лицензией GPLv3.
Маркус правильный пацан.
| |
|
2.74, Аноним (-), 12:59, 03/12/2020 [^] [^^] [^^^] [ответить]
| +/– |
Да какой же правильный? С C++ и фузом он будет тормозной и squashfs при всем желании не заменит.
| |
|
1.28, Онанимус (?), 16:09, 30/11/2020 [ответить] [﹢﹢﹢] [ · · · ]
| +7 +/– |
> В этом году автор нашёл время для доведению кода до публичного релиза и написание документации.
Что ковид животворящий делает!!! Вот не было бы локдауна - так мир бы и не узнал.
| |
1.37, Аноним (37), 17:08, 30/11/2020 [ответить] [﹢﹢﹢] [ · · · ]
| +3 +/– |
Нигде и никогда еще в мире не собиралось столько специалистов по дедупликации в одном месте.
| |
1.42, Аноним (42), 17:35, 30/11/2020 [ответить] [﹢﹢﹢] [ · · · ]
| –2 +/– |
название он выбрал не самое удачное. В гугле фиг найдёшь по не хоть что-то, всё дварфы попадаются и игры с ними...
| |
|
2.43, rvs2016 (ok), 18:17, 30/11/2020 [^] [^^] [^^^] [ответить]
| +/– |
> название он выбрал не самое удачное. В гугле фиг найдёшь по не хоть что-то
Ну после такого бурного обсуждения на Опеннете теперь можно будет нагуглить уже не фиг, полтора фига!
| |
|
|
2.54, Аноним (54), 22:31, 30/11/2020 [^] [^^] [^^^] [ответить]
| +/– |
Уже давно есть всепланетная файловая ситсема, так что не нужен уже торрент.
| |
|
1.48, Аноним (48), 20:49, 30/11/2020 [ответить] [﹢﹢﹢] [ · · · ]
| –5 +/– |
> использует механизм FUSE и работает в пространстве пользователя
> повышение эффективности использования процессорного кэша
> очень высокий уровень сжатия
> LZ4
Ненужнометр перешёл красную отметку и напоминающе звенит.
| |
|
|
3.76, Аноним (76), 13:04, 03/12/2020 [^] [^^] [^^^] [ответить]
| –1 +/– |
> Про LZ4HC что-то слышал, ламерок?
еще lz4ultra вспомните, блин... а таки сколько LZ4 не жми, LZMA он не станет
| |
|
|
|
2.56, Дмитрий Ю.Карпов (?), 02:13, 01/12/2020 [^] [^^] [^^^] [ответить]
| +/– |
Зависит от того, где OpenWrt хранит изменяемые настройки.
Хотя можно сделать сжатую файловую систему для базовых файлов; и поверх неё смонтировать UnionFS для изменяемых файлов.
| |
|
1.57, Аноним (57), 04:34, 01/12/2020 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
а "кластеризация похожих данных" не будет усложнять запаковку больших объемов данных в геометрической зависимости от их размера?
| |
1.66, Аноним (66), 14:53, 01/12/2020 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
Я тут не давно только для себя открыл SquashFS - очень хорошо подходит для всяких скриптов кторых очень уж много в одной папка(директории). Директория node_modules в 600Мб - запаковалась в 32 Мб, и если пакеты не меняются то очень удобно ее монтировать , а тут бац и еще одна ФС появилась.....
| |
|
2.69, Аноним (4), 20:00, 01/12/2020 [^] [^^] [^^^] [ответить]
| +/– |
Она очень медленная и жрёт процессор, лагает. Я наоборот пришёл к тому, что все использующиеся данные должны быть несжатыми. Это экономит и время и процессор например на ссд, на нжмд чтение могло быть заметно медленным и там это ещё оправдано -- чем меньше файлы, тем лучше.
| |
|
3.75, Аноним (76), 13:02, 03/12/2020 [^] [^^] [^^^] [ответить]
| +1 +/– |
Так жмите LZO каким или LZ4, тогда может даже ускориться - за счет того что читать меньше. Они распаковываются со скоростью сотни мегов а то и гигабайты в секунду, и при том скрипты неплохо сожмут, раза в 2-3 запросто.
На SSD это оправдано экономией места, которое стоит денег, при том не особо мало, особенно на хорошем SSD а на бросовой сыпучке TLC.
| |
|
|
1.77, bOOster (ok), 09:57, 08/12/2020 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
Скорость формирования образа тут зачем?? Скорость и уровень сжатия всегда идут в компромиссе.
И в решении 1 раз сжал - миллион раз используй - как бы вообще скорость смысла не имеет.
| |
|
2.78, Аноним (78), 19:14, 08/12/2020 [^] [^^] [^^^] [ответить]
| +/– |
Это вы просто не видели компрессоров которые пакуют 100 килобайтов порядка часа на core i7.
| |
|
|