Примерное время чтения: 2 минуты
64

Сбер представил новую версию нейросети Kandinsky 3.0

Уфа, 22 ноября - АиФ - Уфа.

Сбер создал новую версию генеративной модели для творчества — Kandinsky 3.0. Усовершенствованная нейросеть представлена на конференции банка по искусственному интеллекту и машинному обучению AI Journey, которая проходит с 22 по 24 ноября.

Новая версия в сравнении с предыдущими лучше понимает текстовый запрос пользователя. Нейросеть теперь умеет создавать ещё более фотореалистичные изображения, генерировать полноценные художественные картины и арты со скетчами. Модель работает с запросами из широкого списка тем и способна реализовать любой полёт фантазии.

Kandinsky 3.0 лучше предыдущих версий знает элементы отечественного культурного кода. Так, значительно улучшилось качество генерации российских и советских известных личностей и персонажей, архитектурных достопримечательностей, объектов культуры и элементов народного искусства России, например гжельской росписи. Кроме того, у новой модели усовершенствована функция редактирования изображений и возможность их дорисовки в режиме бесконечного полотна (inpainting и outpainting).

Нейросеть создаёт изображения с высоким разрешением — 1024 х 1024 пикселей, — при этом может синтезировать картинки с выбранным соотношением сторон. Для обучения разработчики использовали обновлённый датасет в размере 1,5 млрд пар «текст — изображение», содержащий данные, которые прошли многоэтапные процедуры фильтрации, что в итоге привело к заметному повышению качества генераций.

Пользователи также могут создавать видеоролики по текстовому описанию в режиме анимации. По одному запросу генерируется видео длиной в четыре секунды c выбранным эффектом анимации, с частотой 24 кадра в секунду и разрешением 640 x 640 пикселей. Синтез одной секунды видео в среднем занимает около 20 секунд. Для расширения возможностей базовой модели были реализованы разные виды анимации изображений, что позволило перемещать объекты, приближать и отдалять их, оживлять статику всеми возможными способами. В основе режимов анимации лежит функция перерисовки изображения по текстовому описанию (image2image).

Нейросеть понимает запросы более чем на 100 языках, а пользователи могут создавать изображения в неограниченном количестве стилей. Модель разработали и обучили исследователи Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI.

Оценить возможности нейросети можно на платформе fusionbrain.ai, в Telegram- и в VK-ботах, на сайте rudalle.ru. Модель работает в сервисе GigaChat, доступна в мобильных приложениях банка, а также на умных устройствах по голосовой команде «Запусти художника». Сгенерировать анимационные видеоролики можно в Telegram-боте — для этого нужно оставить заявку на доступ.

Фото: "Сбер"
Оцените материал
Оставить комментарий (0)

Также вам может быть интересно



Топ 5 читаемых

Самое интересное в регионах