Представленная программа является значительным прорывом в области искусственного интеллекта, позволяющий анимировать людей в полный рост с естественными жестами и движениями, синхронизированными с речью или музыкой.
В Китае была представлена инновационная модель генерации видео, способная преобразовывать обычные фотографии в динамичные видеоролики.
Новый искусственный интеллект от ByteDance, называемый OmniHuman, позволяет создавать чрезвычайно реалистичные видео, где люди не только говорят, но и поют, двигаются и жестикулируют. Эта технология значительно превосходит предыдущие разработки, которые ограничивались анимацией только лиц или верхней части тела.OmniHuman использует 18 700 часов видеоданных для тренировки и может генерировать видеоролики в полный рост. В отличие от прошлых моделей, этот ИИ анализирует сразу несколько типов данных: текст, аудио и движения тела. Это позволяет добиться поразительных результатов, таких как точное синхронизированное движение с речью и естественные жесты.
Исследователи ByteDance отмечают, что в последние годы технологии сквозной анимации человека значительно улучшились, но существующие методы все еще не обладают достаточной масштабируемостью для создания универсальных моделей генерации видео. Новая система, обученная на более разнообразных и масштабных наборах данных, решает эту проблему и открывает новые горизонты для применения ИИ в медиа. От создания видеороликов с речью до изображений людей, играющих на музыкальных инструментах — возможности технологии огромны. В ходе тестов OmniHuman превзошел существующие решения по качеству анимации и синхронизации, что ставит его на передний план среди других систем видеоискусственного интеллекта.
ByteDance продолжает совершенствовать технологии, и в будущем подобные разработки могут серьезно изменить индустрию цифровых развлечений и коммуникаций.
Свежие комментарии