Организация Apache Software Foundation анонсировала релиз распределённой БД Apache Cassandra 1.0, относящейся к классу noSQL-систем и рассчитанной на создание высокомасштабируемых и надёжных хранилищ огромных массивов данных, представленных в виде хэша. Изначально проект был разработан в недрах Facebook и в 2009 году передан под покровительство фонда Apache. Промышленные решения на базе Cassandra развернуты для обеспечения сервисов таких компаний, как Cisco, IBM, Cloudkick, Reddit, Digg, Rackspace и Twitter. Наиболее крупный кластер серверов, обслуживающих единую БД Cassandra, размер данных в которой превышает 300 Тб, насчитывает более 400 машин.
БД Cassandra написана на языке Java и объединяет в себе полностью распределённую hash-систему Dynamo, обеспечивающую практически линейную масштабируемость при увеличении объема данных. Cassandra использует модель хранения данных на базе семейства столбцов (ColumnFamily), отличающуюся от систем подобных memcachedb, которые хранят данные только в связке ключ/значение, возможностью организовать хранение хэшей с несколькими уровнями вложенности. Cassandra относится к категории хранилищ повышенно устойчивых к сбоям: помещаемые в БД данные автоматически реплицируются на несколько узлов распределённой сети или даже равномерно распределяются по нескольким дата-центрам. При сбое узла, его функции на лету подхватываются другими узлами. Добавление новых узлов в кластер и обновление версии Cassandra производится на лету, без дополнительного ручного вмешательства и переконфигурирования других узлов.
Для упрощения взаимодействия с БД поддерживается язык формирования структурированных запросов CQL (Cassandra Query Language), на первый взгляд напоминающий SQL, но существенно урезанный по функциональности. Например, можно выполнять только простейшие запросы SELECT с выборкой по определённому условию, но без поддержки сортировки и группировки. Добавление и обновление данных производится через единое выражение UPDATE, операция INSERT отсутствует (если записи нет, при выполнении UPDATE она создаётся). Из возможностей можно отметить поддержку пространств имён и семейств столбцов, создание индексов через выражение "CREATE INDEX". Драйверы с поддержкой CQL подготовлены для языков Python, Java (JDBC/DBAPI2) и JavaScript (Node.js).
Ключевые новшества Cassandra 1.0:
- Поддержка хранения файлов с данными (SSTables) в сжатом виде с добавлением контрольных сумм для слежения за сохранением целостности сжатых блоков;
- Улучшение системы управления памятью, включая новые виды кэшей и реализацию системы автоматического тюнинга, что позволяет минимизировать остановки в процессе работы сборщика мусора и обеспечить более предсказуемую производительность;
- Улучшение средств обслуживания дискового пространства: более надёжное слежение за размером лога коммитов и обеспечение безотлагательного удаления устаревших файлов с данными;
- Новая, поддерживающая разделения на уровни, стратегия упаковки данных, основанная на идеях LevelDB и позволяющая обеспечить более предсказуемый размер файлов на диске и однородную производительность. Особенность нового алгоритма в том, что для упаковки необходимо наличие нескольких мегабайт свободного места, а не до 50% как раньше;
- Возможность использования нескольких нитей в процессе одной операции упаковки (multithreaded_compaction);
- Добавлена поддержка нового типа данных "decimal";
- Реализация сервиса для платформы Windows.
|