Databricks открыл большую языковую модель DBRX, опережающую в тестах GPT-3.5

02.04.2024 19:44

Компания Databricks объявила об открытии большой языковой модели DBRX, которая может применяться для создания чат-ботов, отвечающих на вопросы на естественном языке, решающих предложенные математические задачи, способных генерировать контент на заданную тему и создавать код на различных языках программирования. Модель разработана компанией Mosaic ML, которая была куплена Databricks за 1.3 млрд долларов. Для обучения использовался кластер из 3072 GPU NVIDIA H100 Tensor Core. Для запуска готовой модели рекомендуется 320GB памяти.

При обучении модели применялась архитектура MoE (Mixture of experts), позволяющая получить более точную экспертную оценку, и коллекция текстов и кода, размером 12 Tb. Размер учитываемого моделью DBRX контекста составляет 32 тысяч токенов (число токенов, которые модель может обработать и запомнить при генерации текста). Для сравнения размер контекста у моделей Google Gemini и OpenAI GPT-4 составляет 32 тысячи токенов, Google Gemma - 8 тысяч, а у модели GPT-4 Turbo - 128 тысяч.

Модель охватывает 132 миллиарда параметров и разделена на 16 экспертных сетей, из которых при обработке запроса могут использоваться не более 4 (охват не более 36 млрд параметров для каждого токена). Для сравнения модель GPT-4 предположительно включает 1.76 триллиона параметров, недавно открытая X/Twitter модель Grok (X/Twitter) - 314 млрд, GPT-3.5 - 175 млрд, YaLM (Yandex) - 100 млрд, LLaMA (Meta) - 65 млрд, GigaChat (Sber) - 29 млрд, Gemma (Google) - 7 млрд.

Модель и связанные с ней компоненты распространяются под лицензией Databricks Open Model License, позволяющей использовать, воспроизводить, копировать, изменять и создавать производные продукты, но с некоторыми ограничениями. Например, лицензия запрещает использовать DBRX, производные модели и любой вывод на их основе для улучшения других языковых моделей, отличных от DBRX. Лицензия также запрещает использовать модель в областях, нарушающих законы и нормативные акты. Производные модели должны распространяться под той же лицензией. При использовании в продуктах и сервисах, которыми пользуются более 700 млн пользователей в месяц, требуется получение отдельного разрешения.

По заявлению создателей модели, по своим характеристикам и возможностям DBRX превосходит модели GPT-3.5 от компании OpenAI и Grok-1 от Twitter и может конкурировать с моделью Gemini 1.0 Pro при тестировании степени понимания языка, возможностей написания кода на языках программирования и решения математических задач. В некоторых применениях, например, при генерации SQL-запросов, DBRX приближается по эффективности к модели GPT-4 Turbo, которая лидирует на рынке. Кроме того, модель отличается от конкурирующих сервисов очень быстрой работой и позволяет формировать ответ почти мгновенно. В частности, DBRX может генерировать текст со скоростью до 150 токенов в секунду на одного пользователя, что примерно в два раза быстрее модели LLaMA2-70B.

Дополнительно можно отметить публикацию технического описания открытой большой языковой модели InternLM2, которая распространяется под лицензией Apache 2.0, доступна в вариантах с 20, 7 и 1.8 миллиардами параметров. Модель развивается шанхайской лабораторией искусственного интеллекта при участии нескольких китайских университетов и примечательна учётом до 200K токенов контекста и поддержкой не только английского, но и китайского языка. Во многих тестах модель близка к GPT-4.

Кроме того, сообщается о разработке 84 новых ядра умножения матриц для инструментария llamafile, развиваемого Mozilla и позволяющего создавать универсальные исполняемые файлы для запуска больших языковых моделей машинного обучения (LLM). Изменения позволили значительно ускорить работу моделей в llamafile при выполнении на CPU. Например, выполнение моделей при использовании llamafile теперь быстрее, чем при использовании llama.cpp от 30% до 500% в зависимости от окружения, а по сравнению с библиотекой MKL матричные операции, которые умещаются в кэш L2, в новой реализации выполняются в два раза быстрее.

исправить +17 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/60911-databricks

Ключевые слова: databricks, llm, internlm2, llamafile

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (62)

1.1, Аноним (1), 20:07, 02/04/2024 [ответить] [﹢﹢﹢] [ · · · ]	+3 +/–
>кластер из 3072 GPU NVIDIA H100 Вот откуда +133% https://omdia.tech.informa.com/-/media/tech/omdia/marketing/pr/2024/mar/semico

1.4, ИмяХ (ok), 21:49, 02/04/2024 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ] [к модератору]	+3 +/–

1.5, Аноним (5), 23:48, 02/04/2024 [ответить] [﹢﹢﹢] [ · · · ]	+13 +/–
Что ни новая модель, то на 150% лучше всех остальных. А как попросишь ее что-нибудь накодить, то получаешь какую-то дичь с синтаксическими ошибками...

2.7, mister_0 (?), 00:21, 03/04/2024 [^] [^^] [^^^] [ответить]	–3 +/–
а ты задумывался, почему великий ИИ генерит в языках высокого уровня, желательно без типов, а не сразу в машинных кодах. Зачем все эти промежуточные этапы? а как определить великое произведение от посредственного, есть формальные критерии

3.34, EuPhobos (ok), 12:32, 03/04/2024 [^] [^^] [^^^] [ответить]	+6 +/–
ИИ не существует, есть нейронные сетки и языковые модели - думаю ответ стал очевиден на твой вопрос?

4.43, Пряник (?), 14:46, 03/04/2024 [^] [^^] [^^^] [ответить]	+1 +/–
Он не должен узнать!

3.48, kusb (?), 18:33, 03/04/2024 [^] [^^] [^^^] [ответить]	+/–
Потому что это не сильный ИИ. Вы путаете виды искусственного интеллекта. Асм может оказаться сложнее и оптимизировать ему труднее, он далёк от полного понимания что он делает и удерживания этого внутри. У людей частично одинаковые проблемы, поэтому мы придумали языки высокого уровня.

2.11, Аноним (11), 00:47, 03/04/2024 [^] [^^] [^^^] [ответить]	+/–
Это ещё что, они однотонное изображение выдать не могут (не говоря уж добавить в него альфа канал) https://www.reddit.com/r/ChatGPT/comments/17hbx8f/prompt_challenge_can_you_get

3.36, anonymmmeer (?), 12:59, 03/04/2024 [^] [^^] [^^^] [ответить]	–2 +/–
А ещё можно поробовать чаты гпт просто молчать. Чтобы он не отвечал на твои сообщения. у меня не получилось так сделать.

4.69, s (?), 00:52, 11/04/2024 [^] [^^] [^^^] [ответить]	+/–
ClosedAI обучили свои модели ВСЕГДА генерировать текст в ответе. Всякие Ламы и Мистрали - нет, и зачастую позволяют такое. Буквально, модель сходу выдает EOS-токен как один из наиболее вероятных (или единственный вероятный, Mixtral и такое умеет), он семплируется, и генерация затыкается. Пользователь же в норме не видит EOS-токен и получает пустой ответ. А что касатется белого цвета - ну так из шума диффузия идёт! Модели чисто статистически тяжело вытянуть однородную заливку из псевдослучайной каши. Возьмите более светлую опорную картинку, и получите изображение в высоком ключе, и наоборот. А для однородной заливки, уж извините, проще ткнуть мышкой в фотошопе - не вижу тут прикладного смысла.

2.24, КО (?), 08:55, 03/04/2024 [^] [^^] [^^^] [ответить]	+4 +/–
Что ты хотел от рандомного мусора из соцсетей

3.42, Аноним (42), 14:46, 03/04/2024 [^] [^^] [^^^] [ответить]	+/–
Никто не создаёт модель на основе всего подряд, подготовка датасета — важная часть процесса.

2.47, Аноним (47), 17:57, 03/04/2024 [^] [^^] [^^^] [ответить]	+/–
Цепочка деградации источника знаний: учёный — научный журналист — журналист-новостник — Маша из Инстраграмма — нейросеть, обученная на машах-из-инстаграмма.

1.6, Вы забыли заполнить поле Name (?), 00:19, 03/04/2024 [ответить] [﹢﹢﹢] [ · · · ]	+10 +/–
Астрологи объявили увеличение времени для подключения живого оператора голосовым помощником.

1.8, Аноним (8), 00:22, 03/04/2024 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
Доказать, что другие модели тюнились с помощью этой - невозможно С другой сторо... большой текст свёрнут, показать

2.9, голос из леса (?), 00:36, 03/04/2024 [^] [^^] [^^^] [ответить]

+1 +/–

>> Доказать, что другие модели тюнились с помощью этой - невозможно

Любая лицензия регулируется местным законодательством. Например в Китае на нее забьют. В Европе - нет.

+ В некоторых юрисдикциях сотрудники предпочитают не покрывать работодателя. А в других никто и не спросит.

3.27, Аноним (27), 09:22, 03/04/2024 [^] [^^] [^^^] [ответить]	+/–
Не думаю, что в Китае это используется. Ну хотя бы введите в поиске neural network differential operator и посмотрите Китайские источники. По имеющейся открытой информации, весьма скудной, кстати, им удалось в сотни тысяч раз (!) увеличить быстродействие и снизить требования к скорости процессорной группировки и дисковой памяти за счет совершенствования структуры нейронной сети и алгоритмов ее обучения. Что подтверждается и нашими выкладками и расчетами.

2.28, Дмитрий (??), 09:52, 03/04/2024 [^] [^^] [^^^] [ответить]	+/–
С чего это ты решил нельзя доказать?

3.39, Аноним (39), 13:33, 03/04/2024 [^] [^^] [^^^] [ответить]	+/–
В Весёлой Башне доказать можно что угодно. А для доказательства, что выхлоп сети был использован для тренировки, придётся сначала предоставить входы и дополнения. Входов - огромное множество, и доказывальщикам придётся угадать нужные, и при этом доказать, что с высокой вероятностью совпадение неслучайно. Конечно, можно потребовать от авторов любой конкурирующей сети доказательств, что их сеть не тренирована на основе выхлопа DBRX. Но для этого доказательства придётся перетренировать сеть. Это абсолютно неадекватное требование, дескриминирует всех ответчиков, и если с таким требованием прийти в суд, то любой небасманный суд тавой иса отклонит.

1.10, Аноним (8), 00:43, 03/04/2024 [ответить] [﹢﹢﹢] [ · · · ]

+/–

KYC-маразм в HuggingFace прогрессирует

>You need to share contact information with Databricks to access this model
>The information you provide will be collected, stored, processed, and shared in accordance with Databricks Privacy Notice.

Погуглил - магнет для Gemma не ищется. Как и IPFS-ссылка. Странно. Неужели никто не перезалил до сих пор, лицензия ведь позволяет?

2.13, Аноним (42), 05:15, 03/04/2024 [^] [^^] [^^^] [ответить]	+2 +/–
Ну ты вот не перезалил же.

2.31, onanim (?), 11:01, 03/04/2024 [^] [^^] [^^^] [ответить]	+/–
ждём https://huggingface.co/TheBloke?search_models=dbrx

1.12, Ананоним (?), 04:11, 03/04/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
У кого-то дома есть 320GB ОЗУ?

2.14, Roman (??), 06:21, 03/04/2024 [^] [^^] [^^^] [ответить]

+6 +/–

> У кого-то дома есть 320GB ОЗУ?

Ну, если во всём доме, то...

2.17, Аноним (27), 06:50, 03/04/2024 [^] [^^] [^^^] [ответить]	+/–
У кого-то дома есть оптимизированные алгоритмы (серьезное усложнение структуры нейронов в узлах), что позволило обойтись 1 Гб ОЗУ.

3.23, Аноним (42), 08:32, 03/04/2024 [^] [^^] [^^^] [ответить]	+/–
И кор2дуо!

4.26, Аноним (27), 09:16, 03/04/2024 [^] [^^] [^^^] [ответить]	+/–
Обижаете. G530.

3.64, Аноним (64), 03:07, 05/04/2024 [^] [^^] [^^^] [ответить]	+/–
Не поверишь, но ещё в 2000-х в универе мы писали код для распознавания капчи на основе нейронок. Обойтись можно было парой мегабайт. Так что, твои алгоритмы вряд ли что-то более сложное, чем обыкновенный перцептрон.

2.25, Аноним (11), 08:56, 03/04/2024 [^] [^^] [^^^] [ответить]	+/–
Ну, в принципе, 1 планка памяти до 512 сейчас, 256 уже есть. Но тут наверно 4 видеокарты требуется.

2.35, vitektm (?), 12:38, 03/04/2024 [^] [^^] [^^^] [ответить]	+1 +/–
пара компов с 128Гб и пара по 32Гб Раньше десктопные больше 128Гб не поддерживали ну так что 256/512Гб дома думаю реально, через пару лет. Ну или сейчас но старые процы с али. Ну и это вообще за недорого.

3.41, Аноним (42), 14:31, 03/04/2024 [^] [^^] [^^^] [ответить]	+/–
AMD TRX50 держит терабайт оперативки, и материнки не сказать чтобы космически стоят.

4.50, pelmaniac (?), 18:40, 03/04/2024 [^] [^^] [^^^] [ответить]	–1 +/–
>AMD TRX50 держит терабайт оперативки, и материнки не сказать чтобы космически стоят. вы вообще не в теме. речь про VRAM. ты в эту материну 8 тесл засунешь с 80 ГБ? если нет, то щвaбоден ;)

5.58, а што не так (?), 10:09, 04/04/2024 [^] [^^] [^^^] [ответить]	+/–
Нет, нейросеть запускается на CPU и речь про RAM. Про видеопамять ничего на гитхабе не сказано.

6.61, Аноним (61), 13:53, 04/04/2024 [^] [^^] [^^^] [ответить]	+/–
> Нет, нейросеть запускается на CPU и речь про RAM. Да, вполне работает на CPU. Только чем больше модель тем медленнее она будет щевелится. Уже 70B модель на восьмиядерном процессоре работает как пошаговая стратегия: написал письмо и ждешь ответа. Сами попробйте покрутить разные модели в LM Studio или Coboldcpp. Во всем наглядно убедитесь. Видеокарта дает хороший буст в скорости (если в нее хотя бы половина слоев модели влезает).

2.49, pelmaniac (?), 18:38, 03/04/2024 [^] [^^] [^^^] [ответить]

–3 +/–

>У кого-то дома есть 320GB ОЗУ?

ты не поверишь, но речь про 320ГБ ВИДЕОПАМЯТИ! в селектеле такие дедики 3-5 лимонов в месяц стоят.

а 320 ГБ рамы это попса, тыщ 30 и оно твоё.

БЯМ для богатых пацанов...

3.54, Аноним (54), 20:11, 03/04/2024 [^] [^^] [^^^] [ответить]	+2 +/–
> 320ГБ ВИДЕОПАМЯТИ! Взаимозаменяемо с небольшой потерей производительности. Так что не в теме тут именно ВЫ.

4.56, pelmaniac (?), 21:46, 03/04/2024 [^] [^^] [^^^] [ответить]	–2 +/–
>с небольшой потерей производительности вот дурачьё-то, покупают/арендуют кластеры с GPU, а эксперты опеннета всё на проце считают и тухлой оперативке )

5.62, Аноним (61), 14:39, 04/04/2024 [^] [^^] [^^^] [ответить]	+/–
> вот дурачьё-то, покупают/арендуют кластеры с GPU, а эксперты опеннета всё на проце считают и тухлой оперативке ) Зависит от целей и задач. Если на этом деньги зарабатываешь, то и вложиться в аренду мощностей не грех. А чтоб из любопытства палочкой потыкать, то и на тухлом CPU модели крутить можно.

6.65, Аноним (65), 15:16, 06/04/2024 [^] [^^] [^^^] [ответить]	+/–
Только CPU не умеет в float16 считать, нужно приводить к стандартной плавучке одинарной точности. Так что 640 ГБ RAM и расчёты существенно медленнее.

7.66, s (?), 00:23, 11/04/2024 [^] [^^] [^^^] [ответить]	+/–
А зачем тебе FP16? Чем INT8 не устраивает?

5.63, Аноним (64), 03:00, 05/04/2024 [^] [^^] [^^^] [ответить]	+1 +/–
> покупают/арендуют кластеры с GPU И снова газификация луж. Объясняю: кластеры арендуют либо для бизнес-задач, коммерции, либо для обучения. Ты уж если не в теме, то... кхм, скажу словами классика: "молчать и слушать, молчать и слушать, что вам говорят".

2.57, Дмитрий (??), 09:55, 04/04/2024 [^] [^^] [^^^] [ответить]	+/–
Если нужно можно недорого купить https://video.simplex-software.ru/w/jezYPKBYPWDrwDaLqJs1UC

1.15, Аноним (15), 06:24, 03/04/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
> По заявлению создателей модели, по своим характеристикам и возможностям DBRX превосходит модели GPT-3.5 от компании OpenAI и Grok-1 от Twitter, и может конкурировать с моделью Gemini 1.0 Pro при тестировании степени понимания языка, возможностей написания кода на языках программирования и решения математических задач. В современном бизнесе людей больше интересует сколько (американских) людей и денег в это вложилось. От этого и реклама в американских соцсетях будет плясать парадоксально укрепляя узнаваемость продукта. Думаете у Майкрософт в своё время не было конкурентов? Да были аналоги того же офиса, их сервисов получше этой конторки. Только об этом мало кто знал и хотел пользоваться потому что не популярно, ну в итоге эти продукты загнулись а мелкомягкие всё ещё на плаву.

2.16, Аноним (15), 06:27, 03/04/2024 [^] [^^] [^^^] [ответить]	+1 +/–
Да и добавлю тот факт что Эпл, Майкрософт, Гугл достаточно хорошо узнаваемые конторы, тем не менее не самые богатые и не самые инновационные, но всего-то монополия основанная на узнаваемости их делает технологичными.

2.18, Аноним (27), 06:52, 03/04/2024 [^] [^^] [^^^] [ответить]	+1 +/–
> В современном бизнесе людей больше интересует сколько (американских) людей и денег в это вложилось. В это? В этот пузырь, хотите сказать?

2.19, Аноним (27), 06:53, 03/04/2024 [^] [^^] [^^^] [ответить]	+/–
> Думаете у Майкрософт в своё время не было конкурентов? На судьбу Гэри Килдалла намекаете?

3.21, Андрей (??), 08:08, 03/04/2024 Скрыто ботом-модератором [к модератору]	+1 +/–

1.22, Аноним (22), 08:20, 03/04/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
У меня как раз 100500 терабайт оперативы без дела валяются, ну а где прямая или магнет-ссылка на загрузку? Что за регистрация? Уберите новость, никакая это не открытая модель.

2.29, Аноним (27), 09:52, 03/04/2024 [^] [^^] [^^^] [ответить]	+/–
А зачем загрузка? Нужно писать самим. Есть такой термин - "троянское обучение". Это когда вам подкидывают тему, на самом деле бесперспективную, на которую вы будете тратить все свои технологические ресурсы, но никогда не добьетесь результатов. Как пример, типа искусственного интеллекта из миллиардов персептронов, да еще на языке Python, который при прочих равных условиях медленнее С в 65 тысяч раз. Это мы еще об убогой предлагаемой архитектуре сети не говорили.

3.30, economist (?), 10:25, 03/04/2024 [^] [^^] [^^^] [ответить]	+/–
Толсто. На чистом Python только учебные задачи, а прод - на Python c либами на других языках. Дискомофорта DS-ты не испытывают от слова вообще, неважно на чем либа написана, важно что логика в файле .py (чаще в .ipynb). Все big-data платформы, внезапно, тоже используют Pytjhon, конвейеры, оркестраторы итд - все на нем кодится, но либы на С++/С/Fortran/Rust и всем таком типа быстром.

3.52, Аноним (54), 19:13, 03/04/2024 [^] [^^] [^^^] [ответить]	+1 +/–
> Это когда вам подкидывают тему, на самом деле бесперспективную, на которую вы будете тратить все свои технологические ресурсы, но никогда не добьетесь результатов. Ярчайший пример, это попытки "торговать" на биржах роботами. Сам этой теме почти 6 лет жизни посветил, благо за зарплату. Итог ожидаемо нулевой - хаос нельзя предсказать (:

1.32, bOOster (ok), 11:26, 03/04/2024 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Опять решение математических задач? У лжеИИ??? То есть если мы уберем способ решения теоремы Пифагора из обученной системы полностью - и дадим вводные которые были у самого Пифагора - решит эта система задачу? Выведет "теорему Пифагора" самостоятельно?

2.37, anonymmmeer (?), 13:07, 03/04/2024 [^] [^^] [^^^] [ответить]

+1 +/–

у неё нет системы вывода логического, зато есть память на миллиард ячеек.

поэтому она может хорошо действовать по паттернам... ну как хорошо, надо хреналиард похожих ситуаций прогонять.

вывести она ничего не может, а попытаться угадать по контексту запросто... угодать, всмысле генерить случайный бред, пока ты, как наблюдатель, не решишь, что это норм ответ.

3.38, bOOster (ok), 13:17, 03/04/2024 [^] [^^] [^^^] [ответить]	+/–
Ну и причем тут тогда Интеллект? То что ты описал - это алгоритм и не больше этого.

4.44, _oleg_ (ok), 14:50, 03/04/2024 [^] [^^] [^^^] [ответить]	+1 +/–
А кто тебе сказал, что это интеллект? Маркетологи :-)?..

4.45, anonymmmeer (?), 15:08, 03/04/2024 [^] [^^] [^^^] [ответить]

–1 +/–

Любой современный процессор(графический или ещё какой) + программа это машина Тьюринга по вычислительной мощности (с конечной лентой конечно же).

все эти LLM по вычислительной мощности - машины Тьюринга или просто алгоритм, можно называть и так.

увелечение числа параметров модели = увеличение длины ленты.

Но даже машина Тьюринга с бесконечной лентой не может решить проблему останова.

подумай над этим.

2.46, Alexey V. Pautov (?), 15:14, 03/04/2024 [^] [^^] [^^^] [ответить]	+/–
Интересный вопрос, кстати. Возможно, что и да, сформулирует. Смотря какой ИИ и на чем специализирован. Вообще, сейчас все это пока ни о чем. Лет через 10 будет тема.

1.33, Аноним (33), 12:05, 03/04/2024 [ответить] [﹢﹢﹢] [ · · · ]

+3 +/–

Родни Брукс в интервью высказал мысль что впереди еще одна зима искуственного интеллекта🤷, а также стагнация всей ИТ отрасли.

"Относительно отрасли ИИ, ученый отметил, что несмотря на беспрецедентный уровень успеха, индустрия "следует заезженным циклом ажиотажа, который мы видели снова и снова на протяжении более чем 60-летней истории ИИ"."

POST: PREDICTIONS SCORECARD, 2024 JANUARY 01

2.53, Аноним (54), 19:17, 03/04/2024 [^] [^^] [^^^] [ответить]	+1 +/–
> еще одна зима искуственного интеллекта Ожидаемо. Ибо недостаточны ещё вычислительные ресурсы для следующего скачка. Ведь вся идея нынешних LLM была заложена ВНЕЗАПНО в 50-х годах (а кое что и ранее), и только сейчас благодаря производительности GPU смогли приоткрыть завесу.

3.67, s (?), 00:31, 11/04/2024 [^] [^^] [^^^] [ответить]	+/–
С тем же успехом вы могли бы сказать, что идея была заложена в 50-х годах XVIII века. Примерно тогда была заложена база матричных вычислений и дифференциальных уравнений. (а кое что и ранее) ;D

1.51, Аноним (54), 19:08, 03/04/2024 [ответить] [﹢﹢﹢] [ · · · ]	+2 +/–
Все эти тесты - средняя температура по больнице. По факту, из опенсорсных решений, даже близко никто не приблизился к gpt-3.5. Вообще, кроме claude 3 opus и gpt-4 остальное - игрушки.

2.68, s (?), 00:37, 11/04/2024 [^] [^^] [^^^] [ответить]	+/–
Всё зависит от того, какую задачу этим решениям поставить. Даже самые маленькие сети начинают демонстрировать очень неплохие результаты, когда применяются по своему прямому назначению - работе с текстом, при условии наличия всех или почти всех необходимых вводных в контексте.

игнорирование участников | лог модерирования

Добавить комментарий

Текст: