Учёные МГУ предложили новый метод кодирования видеофайлов

Сотрудники факультета ВМК МГУ представили новый метод кодирования видеофайлов. Разработанный алгоритм позволяет прогнозировать лучший вариант параметров кодирования из доступных параметров кодека, что поможет значительно ускорить работу с видео в будущем. Результаты работы были представлены на симпозиуме по кодированию видео в Бристоле. Работа выполнена в рамках научно-образовательной школы МГУ «Мозг, когнитивные системы, искусственный интеллект».

Согласно отчету Ericsson Mobility Report 2020, видео будет потреблять около 76% глобальной пропускной способности беспроводной сети к 2025 году. В настоящее время доля видео в Интернете составляет 63%. Такая огромная доля обусловлена увеличением продолжительности передаваемого контента и развитием новых форматов высокого разрешения. Огромный объем видеоданных стимулирует создание новых стандартов кодирования видео и новых кодеков, а существующие алгоритмы сжатия становятся все более сложными. Современные видеокодеки имеют в настройках более 50 параметров, что безусловно мешает сделать пользователю оптимальный выбор. При этом полный перебор параметров распространенного кодека x264 на одном видео размером 20 секунд на обычном компьютере займет порядка 10¹³ веков или более 500 тысяч возрастов Земли. В 99.9% случаев для сжатия видео выбирают стандартные пресеты.

В рамках исследования было проанализировано более 1 миллиона видео, загруженных пользователями на большинство популярных видео наборов, предназначенных для разработки и тестирования видеокодеков. Для каждого видео была посчитана пространственная и временная сложность и выяснилось, что большинство видео, предназначенных для тестирования видеокодеков, сильно отличаются от видео, которые передаются в сети Интернет.

Используя собранный набор видео, учёные МГУ предложили метод, который путем многочисленных запусков создает по кодеку его модель методами машинного обучения. Это позволяет в итоге прогнозировать более эффективные конфигурации кодирования для нового входного видео.

«Наш метод не зависит от архитектуры и реализации кодека и применим к различным кодекам и стандартам сжатия видео. В результате апробации наш метод позволил сэкономить битрейт на дополнительные 17.8% для популярного кодека x264 и 7.9% для x265 при том же времени кодирования по сравнению со стандартными пресетами», — подчеркнул заведующий лабораторией компьютерной графики и мультимедиа факультета ВМК МГУ Дмитрий Ватолин.

Данный результат, продолжение длительной цепочки совместных проектов, направленных на повышение степени сжатия видео, заинтересовал компанию Intel, а позднее и Huawei. В качестве значимого промежуточного результата стоит отметить «Физтех Лекторий» МФТИ, где благодаря тому, что большая часть видео представлено в формате «говорящей головы», удалось получить двукратное сокращение трафика и затрат на хранение данных при одинаковом качестве и затратах времени на сжатие. Новый результат позволяет получить экономию на более широком спектре входных данных.

Источник