Компания Disney разработала технологию автоматического переозвучивания видео
24.04.2015 00:56
ИСТОРИИ КОТОРЫЕ ПРИШЛИ.
Английские и американские ученые вместе с разработчиками компании Disney создали алгоритм для автоматического переозвучивания видео.
Алгоритм анализирует изменения в мимике говорящего и подбирает текст, при произнесении которого будут использованы те же движения мышц лица. Работа будет опубликована на конференции ICASSP 2015, сейчас ее можно найти
В основу технологии лег анализ «динамических визем» (dynamic visemes) — характерной мимики лица во время речи. Технология покадрово записывает изменения в мимике человека, после чего параметризует их по формальным признакам — координатам разных точек губ, зубов, подбородка и т. д. Всего таких признаков около 50000, они сгруппированы в 150 классов.
Проанализировав базу видеозаписей, на которых люди зачитывают один и тот же текст, ученые для каждого класса динамических визем составили таблицу соответствия. В ней указана степень схожести данного класса визем с той или иной фонемой, после этого изображение сопоставлялось со звуком и наоборот.
Последовательность визем и примеры фраз, которым она соответствует Sarah Taylor et al./ Disney ResearchЗависимость числа подходящих фраз (логарифмическая шкала) от их длины. Зеленый и красный — статические методы, синий — динамический Sarah Taylor et al./ Disney Research
Например, ученые показали, что одна и та же последовательность лицевых движений одинаково хорошо соответствует следующим фразам: «clean swatches», «likes swats», «then swine», «need no pots», «tikes rush» и еще еще тысячам других.
Новизна этой технологии заключается в том, что теперь используются динамические виземы, а не статические, как это делалось раньше. Статические виземы ориентируются на застывшую мимику, а не на движения. Поэтому для одной и той же последовательности выражений лица раньше можно было подобрать гораздо меньше фонем, чем в случае с динамическими виземами.
[video]Для наглядной демонстрации преимуществ новой технологии ее создатели использовали несколько алгоритмов. В двух случаях они пользовались хорошо известными статическими методами, в последнем случае — новым методом с использованием динамических визем. Оказалось, что для коротких фраз новый подход выдает примерно в тысячу раз больше фонем, чем статический. Только для фраз длиной 15 слов и более статический метод «догоняет» динамический.[/video]
Для наглядной демонстрации преимуществ новой технологии ее создатели использовали несколько алгоритмов. В двух случаях они пользовались хорошо известными статическими методами, в последнем случае — новым методом с использованием динамических визем.
Оказалось, что для коротких фраз новый подход выдает примерно в тысячу раз больше фонем, чем статический. Только для фраз длиной 15 слов и более статический метод «догоняет» динамический.