Qu’est ce que le MPEG-4

Le MPEG-4 s’est imposé comme standard de compression pour l’audio et la vidéo, notamment pour faciliter leur diffusion sur Internet et leur stockage. Il vise les applications multimédias interactives, comme les jeux en ligne, la diffusion de la télévision numérique (en streaming vidéo), le téléchargement de longs métrages, via Internet, et la téléphonie mobile de troisième et quatrième génération (3G & 4G).

Par Gérard Kremer – Avril 2002

MPEG4 EncodageLe MPEG-4, est-ce le MP3 de la vidéo ?

La vidéo va-t-elle subir le traitement que les internautes ont infligé à la musique avec le MP3 ? Ce format a en effet servi de détonateur chez les Majors de l’édition musicale, très vite débordés par le succès des systèmes d’échange de fichiers entre particuliers. Phénomène un peu comparable en vidéo : l’engouement touche la capture de films avant leur sortie en salle via le haut débit (l ‘ADSL sur paires téléphoniques ou le câble). Le MPEG-4, ou plus exactement sa déclinaison propriétaire, le DivX (prononcez « divix »), autorise ce visionnage d’un nouveau genre. Le DivX est un format qui réduit la taille des fichiers pour les faire circuler sur le Web et les stocker sur CD-Rom. Plus généralement, le codage MPEG-4 normalisé (standard ISO/IEC), a pour but d’assurer une standardisation technologique à tous les niveaux : production, distribution et diffusion ; elle offre une riche palette de services : l’interactivité, le contrôle d’erreurs dans les environnements difficiles, l’identification et la protection des œuvres, en termes de droits de propriétés intellectuelles des différents contenus. Une sécurité pour les diffuseurs !

MPEG-4, un concept orienté objet

Le MPEG-4 considère la scène comme une combinaison d’éléments hiérarchisés, appelés objets audiovisuels (AVO : Audio Video Objet) , codés séparément d ‘une manière optimisée (format MPEG4BIFS, Binary Format for Scenes), chacun d’eux étant décomposé en paramètres et traité indépendamment. La compression s’opère sur chaque objet dans sa totalité, en choisissant le meilleur système de codage pour chacun d’eux, de façon à l’amener au minimum de débit. Par exemple, les images animées pourront être compressées en MPEG-2, sous forme d’images de type 1, B, P, et les images fixes en faisant appel à la compression par ondelettes. Un décor ou un arrière-plan, peut être transmis une fois pour toutes en début de séquence ou de manière progressive, pour améliorer le taux de compression ; l’élément mobile (personnage) constitue l’objet vidéo en mouvement, indépendant du fond , et s’il est doué de parole, celle-ci constituera l’objet audio. Ce procédé facilite l’accès aux différents éléments de la scène pour les modifier et favorise donc l’interactivité. L’indépendance des objets permet de mélanger des images naturelles (vidéo) et synthétiques (objets graphiques 20 et 30) et d’y associer des liens hypertextes entre les éléments de l’image.

Adaptation du débit

Le MPEG-4 fournit un large éventail d’outils pour le codage des objets audiovisuels, identifiés par une série de profils et de niveaux, comme pour le MPEG-2. L’image est segmentée en couches (video abject layer) autorisant une approche progressive à qualité variable, avec une couche de base (base layer) et plusieurs autres à qualité améliorée (enhancement layer), technique appelée scalability (adaptabilité, graduabilité), un des points forts de la norme. Elle opère, soit par amélioration spatiale en agissant sur la résolution de l’image (multirésolution basée sur le contenu), soit d’une manière temporelle par augmentation du nombre d’images transmises par seconde pour accroître la fluidité ; soit encore par des améliorations spécifiques à un objet ou sur la totalité de l’image. Les informations de base sont systématiquement envoyées, tandis que les données supplémentaires contribuant à améliorer la qualité de l’image, sont transmises en fonction de la capacité du système de transport ; s’il a suffisamment de bande passante, on transmet toutes les couches et si elle est limitée, on n’envoie que la couche de base. Un flux MPEG-4 est donc capable de transiter dans des environnements extrêmement différents en terme de bande passante. En réception, selon la performance du décodeur, on traite une ou plusieurs couches ; c’est lui qui compose l’image en fonction des outils dont il dispose. La qualité restituée dépend donc du réseau et des conditions locales de l’outil utilisé. La souplesse de ce système est intéressante pour afficher des  images vidéo sur un téléphone mobile de troisième ou quatrième génération UMTS (Universal Mobile Telecommunications Services), selon le lieu de réception.

Deux types d’algorithmes de compression

Conçue au début pour des faibles débits, cette norme s’est adaptée à ceux utilisés par les internautes. Pour les bas débits, le Very Law Bit Rate Video (VLBV) intervient de 2 à 64 Kb/s, pour des applications de vidéo-téléphonie ou de commerce électronique. Le High Bit Rate Video (HBV) concerne les débits de 64 Kb/s à 2 Mb/s, pour la télévision numérique interactive ou les transferts de données par câble ou satellite ; récemment une variante réservée aux professionnels (profil « studio ») a été officialisée pour permettre de travailler à des débits allant de 50 Mb/s jusqu’à 1,2 Gb/s.

Interactivité avancée

Le MPEG-4 permet de mettre en œuvre des services interactifs locaux ou distants. Dans le premier cas, l’utilisateur agit directement sur les objets vidéo, et peut, par exemple, les déplacer sur l’écran (translations, rotations) tandis que dans le second cas, l’usager communique avec un serveur, par l’intermédiaire d’un réseau ; par exemple, dans une application de vidéo à la demande, il peut activer les fonctions de Lecture, Arrêt, Pause du serveur audiovisuel auquel il est raccordé.

Web TV

On distingue les applications à contraintes temporelles fortes, dites temps réel, comme la vidéo à la demande (en streaming), et celles dont les données reçues peuvent être stockées chez l’usager pour une utilisation future. Nous avons tous observé que la transmission vidéo en temps réel sur Internet est difficile, car elle est gourmande en bande passante et le réseau utilise la technique du best effort ; elle consiste à rechercher dans chaque noeud du réseau un chemin libre pour atteindre le destinataire ; aussi, la bande passante disponible varie en fonction du trafic et, en cas de congestion, il peut devenir très faible pour atteindre le goutte-à-goutte, dans certains cas. Le codage MPEG-4, bien adapté aux bas débits, trouve sa raison d ‘être dans un tel contexte, notamment pour la vidéo interactive sur Internet. La version 1 de MPEG-4 a été figée en 1999, la version 2 a vu le jour en 2000. L’ère de la Web TV interactive ne fait que commencer !

CV 159