The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Реализация системы машинного обучения для синтеза изображений по текстовому описанию

02.05.2022 22:22

Опубликована открытая реализация системы машинного обучения DALL-E 2, предложенной компанией OpenAI и позволяющей синтезировать реалистичные изображения и картины на основании текстового описания на естественном языке, а также применять команды на естественном языке для редактирования изображений (например, добавлять, удалять или перемещать объекты на изображении). Исходные модели DALL-E 2 от компании OpenAI не публикуются, но доступна статья с подробным описанием метода. На основе имеющегося описания независимыми исследователями подготовлена альтернативная реализация, написанная на языке Python, использующая фреймворк Pytorch и распространяемая под лицензией MIT.

По сравнению с ранее опубликованной реализацией первого поколения DALL-E, новый вариант обеспечивает более точное соответствие изображения описанию, позволяет добиться большего фотореализма и даёт возможность формировать изображения в более высоких разрешениях. Система требует больших ресурсов для обучения модели, например, на обучение исходного варианта DALL-E 2 необходимо 100-200 тысяч часов вычислений на GPU, т.е. около 2-4 недель вычислений при наличии 256 GPU NVIDIA Tesla V100.

Тем же автором также началась разработка расширенного варианта - DALLE2 Video, нацеленного на синтез видео по текстовому описанию. Отдельно можно отметить развиваемый Сбербанком проект ru-dalle, с открытой реализацией первого поколения DALL-E, адаптированной для распознавания описаний на русском языке.

  1. Главная ссылка к новости (https://news.ycombinator.com/i...)
  2. OpenNews: HyperStyle - адаптация системы машинного обучения StyleGAN для редактирования изображений
  3. OpenNews: Опубликован проект PIXIE для построения 3D-моделей людей по фотографии
  4. OpenNews: NVIDIA открыла код StyleGAN3, системы машинного обучения для синтеза лиц
  5. OpenNews: Выпуск spaCy 3.0, библиотеки для обработки информации на естественном языке
  6. OpenNews: Facebook развивает TransCoder для перевода кода с одного языка программирования на другой
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/57124-ai
Ключевые слова: ai, dalle2, pytorch
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (41) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, bnm (?), 23:10, 02/05/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    Это как если бы робот прочитал инструкцию для сборки какого-то устройства, а потом собрал его, или отремонтировал автомобиль
     
     
  • 2.2, Аноним (2), 23:37, 02/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    С той лишь разницей, что этого робота очень легко дообучить, чтобы на этапе сборки он каждый раз добавлял бэкдор...
     
     
  • 3.3, Аноним (3), 23:46, 02/05/2022 [^] [^^] [^^^] [ответить]  
  • +21 +/
    У анонимов Опеннета на уме только бекдоры
     
     
  • 4.16, ыы (?), 10:34, 03/05/2022 [^] [^^] [^^^] [ответить]  
  • +6 +/
    внедрение бэкдоров в нейросети на этапе обучения -популярная тема. Обученная модель  с бэкдором, например опознавая корректно знаки дорожного движения в системе управления автомобилем,  анормально реагирует на какой-то вполне конкретный рисунок...

    а вы  тут просто потролить или совсем не  в теме предмета?

     
     
  • 5.18, Аноним (18), 11:14, 03/05/2022 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Это те, которым нечего скрывать и им ничего не угрожает. (Подключенные к питательному раствору в Матрице.)
     
     
  • 6.36, a_kusb (ok), 13:59, 03/05/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Это те, которым нечего скрывать и им ничего не угрожает. (Подключенные к
    > питательному раствору в Матрице.)

    За который нужно платить, так что некогда разбираться в этом.

     
  • 6.50, Аноним (3), 23:45, 03/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Ну а что может быть скрывать анониму Опеннета? Я понимаю там людей высокопоставленных, работающих на сколько-нибудь ответственной работе, а Анониму Опенента-то чего боятся?
     
     
  • 7.52, Аноним (-), 00:15, 04/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    грамарнацей с ихними тся ться епт
     
     
  • 8.53, Аноним (3), 00:44, 04/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Вам, мил друг, по теме сообщения ответить-то нечего, вот вы и придираетесь ... текст свёрнут, показать
     
  • 7.62, Аноним (-), 16:38, 05/05/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Ну а что может быть скрывать анониму Опеннета?

    Так, блин, если тебе все сказать ... это перестанет быть секретом. А так то попытка хорошая. Начни с себя, опубликуй скан паскорта, номер карты, типичные маршруты-адреса. А другие анонимусы подумают что с этого можно извлечь.

     
  • 4.51, Аноним (51), 23:47, 03/05/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    За свой бэкдор беспокоятся видимо
     

  • 1.4, pashev.ru (?), 23:58, 02/05/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +5 +/
    Сбер сказал, что "жо́пу с уша́ми" будет рисовать час.

    Боюсь просить его нарисовать секунду.

     
     
  • 2.28, Аноним (28), 12:32, 03/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > будет рисовать час

    Это когда заказов много. Просто в другое время заходи, тогда за минуту сделают.

     
  • 2.32, pashev.ru (?), 13:43, 03/05/2022 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Вот, что получилось:

    https://ic.pics.livejournal.com/ipmcmlxxxi/45974311/55979/55979_original.jpg

     
     
  • 3.64, ДаНуНафиг (?), 21:12, 06/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Концептуально, но многое спорно!
     

  • 1.6, Аноним (6), 01:49, 03/05/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    >а также применять команды на естественном языке для редактирования изображений (например, добавлять, удалять или перемещать объекты на изображении).
    >RTX mode on.
     
  • 1.8, Аноним (8), 03:54, 03/05/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    Чем бы дитя не баловалось с 256 GPU NVIDIA Tesla V100 лишь бы в майнинг не лезло.
     
  • 1.11, Аноним (11), 04:22, 03/05/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    заднее копыто чтоли на костях висит?
     
     
  • 2.25, Z (??), 12:09, 03/05/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Слилось с фоном.
     

  • 1.12, Онаним (?), 05:57, 03/05/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Hoax десятилетия?
     
  • 1.17, Аноним (17), 11:06, 03/05/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Новый мощный генератор бреда.
     
     
  • 2.20, Аноним (18), 11:18, 03/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Аватарки рисовать сойдёт.
     

  • 1.22, Z (??), 11:50, 03/05/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +6 +/
    Сбывается то, о чем я давно уже говорю: ИИ полностью заменит людей в программировании. Останется лишь язык описания типа yaml или json, а код будет генерировать нейросеть.
     
     
  • 2.23, Sw00p aka Jerom (?), 11:54, 03/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    давно уже код для машины генерирует программа - компилятор.
     
     
  • 3.24, Z (??), 12:09, 03/05/2022 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Это будет новый уровень абстракции, который можно сравнить с кнопкой "сделать зашибись". Дай лишь точное описание того что тебе надо. ИИ сгенерирует в разы более оптимальный код, чем мешок с костями.
     
     
  • 4.29, Аноним (28), 12:34, 03/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > ИИ сгенерирует в разы более оптимальный код, чем мешок с костями

    Если вспомнить недавнюю историю с 18-летними растаманами - тут да, согласен.

     
  • 4.31, Sw00p aka Jerom (?), 13:10, 03/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    >Это будет новый уровень абстракции

    так это и есть ЯП

    >Дай лишь точное описание того что тебе надо.

    напиши точное описание на С, и компилятор создаст оптимальный машинный код.

    Вопрос, с помощью ИИ легче оптимизировать абстракции высокого уровня или низкоуровневые конкретные реализации (иструкции)?

     
     
  • 5.38, a_kusb (ok), 14:35, 03/05/2022 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Программа должна рисовать собаку (вид сверху) на фоне леса (вид сверху), при нажатии кнопок влево-вправо вверх и вниз собака должна перемещаться слево-вправо вверх или вниз, а точнее вперёд, назад, влево и вправо.  Кнопок на клавиатуре.
    Ещё она должна открывать 30 порт (или другой, если он занят) и ждать оттуда таких же команд, как и с клавиатуры. Если они есть, то нужно рисовать ещё одну собаку (но можно и другого зверя) и рисовать его так, будто он управляется этими командами.
     
  • 5.39, a_kusb (ok), 14:38, 03/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Prolog не про это? Описание, чего нужно достичь, но не каким путём, потому что мы абстрагируемся от него.
     
     
  • 6.43, Sw00p aka Jerom (?), 17:25, 03/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    >но не каким путём

    я вас понял, ну вот у меня есть формальное описание недерминированной машины Тьюринга, кто готов ее реализовать?

    https://ru.m.wikipedia.org/wiki/%D0%9D%D0%B5%D0%

     
  • 4.58, Аноним (-), 13:35, 05/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > Дай лишь точное описание того что тебе надо. ИИ сгенерирует

    Он и описание того что надо сгенерирует. Добро пожаловать в Zoo

     
  • 2.33, artifical Riley (?), 13:48, 03/05/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Но вы имеете в виду, что это обычный чат-бот без реального понимания того, что он делает? Я слышал об этом раньше, это очень легко сделать и какое-то время весело, но на самом деле это ничего не даст.

    Я думаю, вы путаете ИИ с машинным обучением. ИИ по-прежнему является человеческой деятельностью. Вы не можете просто наклеить на что-то ярлык «ИИ» и заставить его думать за вас. Даже если бы вы могли, это не бесплатная поездка. Человек, написавший программу, по-прежнему должен все думать. ИИ — это всего лишь инструмент. Хороший может сэкономить много времени и сделать конечный продукт лучше, но плохой может сделать конечный продукт дрянным. Вы не можете просто наложить нейронные сети на язык описания и ожидать, что они автоматически поймут, что программа пытается сказать.

     
     
  • 3.60, Аноним (60), 15:28, 05/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > ИИ по-прежнему является человеческой деятельностью.

    Как только у ИИ появятся ручки и ножки, и ОН захочет кушать хлебушек с маслицем и икоркой, думаю человеческая деятельность сильно изменится! Только вот в какую сторону? Вот в чем вопрос! ;)

     
     
  • 4.61, Аноним (-), 16:31, 05/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Можно и без ручек, и без ножек. Кому исполнительные механизмы, а попродвинутее - нанороботы так то могут быть круче, гибче, а при желании и собраться в более крупные структуры. Никогда не видели разумный космический корабль? А фантасты предупреждали.

    А в какую сторону? В зоопарк да могилу - где еще безмозглым отсталым обезьянам место?

     
  • 2.54, лютый жабби___ (?), 04:31, 04/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    >Сбывается то, о чем я давно уже говорю

    пока что ваше ии может от силы заменить хренового_водителя - хотя вождение это то что умеют почти все мешки и что не требует мозгов почти нисколько

     

  • 1.26, Аноним (-), 12:30, 03/05/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    > нацеленного на синтез видео по текстовому описанию

    Китайский друг спрашивает, какие результаты в "частые уроки женского шпагата от тентаклей без цензуры"? Или оно только немонетизируемых космонавтов на лошадях, да собак с трубами рисовать умеет?

     
  • 1.46, YetAnotherOnanym (ok), 19:41, 03/05/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    $ корчеватель | DALL-E > pic.jpg
     
     
  • 2.59, Аноним (60), 15:20, 05/05/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > $ корчеватель | DALL-E > pic.jpg

    $ echo "корчеватель" | DALL-E > pic.jpg

     

  • 1.55, Аноним (55), 16:16, 04/05/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Видели мы поделку (основанную на том де далли емнип) от сбербанковцев. Фуфло редкостное.
     
  • 1.56, ммнюмнюмус (?), 07:54, 05/05/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Было литературное программирование, теперь появилась литературная живопись.
     
  • 1.57, Аноним (-), 13:33, 05/05/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    > Python, использующая фреймворк Pytorch и распространяемая под лицензией MIT.

    Судя по картинкам - от него нехило торкает. При том не только AI но и его авторов.

     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру