Сбер презентовал генератор изображений «Кандинский»
Автор новости / ньюсмейкер редакция «Сегмент.ру» (segment.ru)
Искусственный интеллект
.jpg)
Сбер представил свою наибольшую модель генерации изображений по описанию.
Cбер представил самую большую на данный момент модель генерации изображений по текстовому описанию на русском языке — Kandinsky. Это улучшенная версия мультимодальной нейросети ruDALL-E, которая генерирует картинки по описанию на русском языке.
Kandinsky пригоден для создания:
- иллюстраций;
- материалов для рекламы;
- архитектурного дизайна;
- промышленного дизайна;
- дизайна в области цифрового искусства.
Мы продолжаем развивать нейронные сети, которые следуют принципам трёх М — мультимодальности, мультизадачности и мультиязычности. Kandinsky — это мощный прорыв в этой сфере. Она способна точнее сравнивать и анализировать различные изображения, чтобы создавать настоящие живописные картины. Автоматическая генерация изображений открывает новые возможности для бизнеса, который и станет одним из главных бенефициаров новой технологии.
В ноябре была выпущена модель ruDALL-E XL, содержащая 1,3 млрд параметров. Её параметры и код были выложены в открытый доступ, и был разработан сервис генерации изображений. За полгода этим сервисом воспользовались 2 млн уникальных пользователей, которые суммарно сгенерировали 125 млн изображений. Также в ноябре анонсировали, а в декабе опубликована в маркетплейсе AI Services платформы SberCloud ML Space эксклюзивная модель ruDALL-E XXL c 12 млрд параметров.
В этом году команды Sber AI и SberDevices смогли существенно улучшить качество работы этой модели, дообучив её на 179 млн изображений, снабжённых текстовыми описаниями, с помощью платформы SberCloud ML Space и суперкомпьютера Christofari Neo.
Дообученная модель Kandinsky умеет:
- генерировать изображения с произвольным соотношением сторон;
- использовать новый способ повышения разрешения сгенерированных картинок на основе диффузионного процесса для изображений с соотношением сторон 1:1 наряду со стандартным подходом с использованием Real-ESRGAN;
- модель значительно лучше справляется с созданием реалистичных изображений, качественно передавая различные текстуры, тени и отражения.
Этапы создания изображений в модели Kandinsky
- Сначала Kandinsky, используя текстовое описание, генерирует заданное число изображений.
- Затем сеть ruCLIP Large выбирает наиболее удачные и максимально соответствующие заданному текстовому описанию картинки.
- Потом третья сеть увеличивает их в размере: доступны диффузионная модель и генеративно-состязательная модель Real-ESRGAN.
- Итогом работы модели является набор сгенерированных изображений высокого качества.
Отличительным преимуществом модели Kandinsky по сравнению с предыдущими версиями является более высокая степень детализации создаваемых изображений.
Модель доступна в мобильном приложении «Салют», на умных устройствах Sber по запросу «Включи художника».
Новости
Все новости ›Фото
Все альбомы ›Видеогалерея
Все альбомы ›ErichKrause на выставке «Мир детства — 2024»
Комментарии (0)
Правила ›