« Capture de mouvement » : différence entre les versions

Un article de Wikipédia, l'encyclopédie libre.
Contenu supprimé Contenu ajouté
Kplouki (discuter | contributions)
Suppression paragraphe mal formulé, contenant un lien internet visible au milieu de l'article
Balises : Modification par mobile Modification par le web mobile Modification sur mobile avancée
mAucun résumé des modifications
 
(47 versions intermédiaires par 28 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
{{Infobox Cinéma (technologie)
[[Fichier:MotionCapture.jpg|thumb|Un danseur portant une combinaison avec des marqueurs passifs réfléchissants, lors d'une capture optique de mouvement.]]
| nom= Capture de mouvement
La '''capture de mouvement''' (''motion capture'' en [[anglais]], parfois abrégé en ''mocap'') est une technique permettant d'enregistrer les positions et rotations d'objets ou de membres d'êtres vivants, pour en contrôler une contrepartie virtuelle sur [[ordinateur]] (caméra, modèle 3d, ou avatar). Une restitution visuelle de ces mouvements en [[3D temps réel|temps réel]] est faite via le moteur de rendu 3D de l'application interfacée avec le matériel utilisé qui peut les stocker dans un fichier d'animation de type BVH pour être traités ultérieurement dans un logiciel 3D classique (Maya, 3dsMax, XSI, Cinema4d, etc.) ; ou bien, via un plugin vers MotionBuilder, logiciel spécialisé dans le traitement, l'édition, le filtrage ou l'exportation de ces animations.
| langue =
| image = MotionCapture.jpg | légende=Un danseur portant une combinaison avec des marqueurs passifs réfléchissants, lors d'une capture optique de mouvement. | alternative=
| acronyme = mocap
| transcription = Motion Capture
| domaine = [[Prise de vues cinématographique]]
| date création = années 1990
| inventeur =
| entreprise =
| premier =
| précédente = chronophotographie
| suivante =
}}


La '''capture de mouvement'''<ref>{{GDT|capture de mouvement|fiche=8383124|consulté le=15 décembre 2019}}.</ref>{{,}}<ref>{{PDF}} [[Commission générale de terminologie et de néologie]], « Vocabulaire de la culture et de la communication (liste de termes, expressions et définitions adoptés) », [[Journal officiel de la République française|''Journal officiel'' de la République française]] {{n°|0241}} du {{date-|16 octobre 2011}}, {{p.|17524}} {{lire en ligne|url=https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT000024668811}}.</ref> (''{{lang|en|motion capture}}'' en [[anglais]], parfois abrégé en ''mocap'') est une technique permettant d'enregistrer les positions et rotations d'objets ou de membres d'êtres vivants, pour en contrôler une contrepartie virtuelle sur [[ordinateur]] (caméra, modèle 3D, ou avatar). Une restitution visuelle de ces mouvements en [[3D temps réel|temps réel]] est faite via le moteur de rendu 3D de l'application interfacée avec le matériel utilisé qui peut les stocker dans un fichier d'animation de type BVH pour être traités ultérieurement dans un logiciel 3D classique (Maya, 3dsMax, XSI, Cinema4d, etc.) ; ou bien, via un plugin vers MotionBuilder, logiciel spécialisé dans le traitement, l'édition, le filtrage ou l'exportation de ces animations.
Les lointaines origines de cette technique peuvent être retrouvées chez [[Étienne-Jules Marey]] sous le nom de chronophotographie<ref>{{article|prénom1 = Étienne-Jules | nom1 = Marey | année= 1891| journal = Revue générale des sciences pures et appliquées|titre = La Chronophotographie : nouvelle méthode pour analyser le mouvement dans les sciences physiques et naturelles | numéro = 2| pages = 689-719 | url = http://www.biusante.parisdescartes.fr/histmed/medica/cote?marey207 | format = PDF}}.</ref> qu'il a initialement développée dans un cadre médical pour analyser ce qu'il appelle poétiquement la ''machine animale''<ref>{{ouvrage |langue=fr |prénom1=Marie-France |nom1=Briselance |lien auteur1=Marie-France Briselance |prénom2=Jean-Claude |nom2=Morin |titre=Grammaire du cinéma |lieu=Paris |éditeur=Nouveau Monde |lien éditeur=Nouveau Monde (éditions) |année=2010 |pages totales=588 |isbn=978-2-84736-458-3 |passage=14 }}</ref>, mais surtout ce sont ses dispositifs pneumatiques qui anticipent sur la capture de mouvement. En effet, il fixe sur des chaussures préparées spécialement à cet effet qu’il appelle des « chaussures exploratrices », des tuyaux qui conduisent la pression exercée sur ces dispositifs jusqu’à un enregistreur à stylet et noir de fumée, porté parfois, lorsque le sujet est en mouvement, directement par lui<ref>{{Ouvrage |langue= |auteur= Étienne-Jules Marey |titre=La Machine animale |sous-titre=Locomotion terrestre et aérienne |éditeur=Germer Baillière |année=1873 |pages totale=299 |isbn=0543945995 |numéro partie=Livre deuxième |numéro chapitre=II |titre chapitre=Locomotion terrestre (bipèdes)|passage=116 à 129 }}</ref>. L'enregistreur détermine ainsi, et enregistre les directions et intensités des mouvements exécutés. <br/> Le clavier et la souris sont les premiers périphériques de capture de mouvement, mais les premiers systèmes sophistiqués ont été développés dans les années 1980 pour l'armée (capteurs pour simulateurs d'aviation), puis pour des analyses physiologiques médicales, scientifiques ou sportives (orthopédie, traumatologie, rééducation, et, plus généralement, biomécanique). Elle est depuis 1990 employée pour produire des films en images de synthèse (TotalRecall), des effets spéciaux pour la télévision, ou des performances artistiques en théâtre ou en danse.Le premier comédien virtuel animé par cette technique date de 1993.


== Histoire ==
Mais son marché principal reste le jeu vidéo. En effet, les mouvements réalistes générés par ces systèmes sont bien adaptés aux jeux sportifs ou guerriers, ce qui n'est pas le cas du dessin animé dont la référence reste les animations exagérées ou expressives traditionnelles de Disney ou de Tex Avery, qui sont toujours réalisées avec les techniques manuelles par images-clés (''{{Lien|keyframing}}'' en anglais).
Les lointaines origines de cette technique peuvent être retrouvées chez [[Étienne-Jules Marey]] sous le nom de chronophotographie<ref>{{article|prénom1 = Étienne-Jules | nom1 = Marey | année= 1891| journal = Revue générale des sciences pures et appliquées|titre = La Chronophotographie : nouvelle méthode pour analyser le mouvement dans les sciences physiques et naturelles | numéro = 2| pages = 689-719 | url = http://www.biusante.parisdescartes.fr/histmed/medica/cote?marey207 | format = PDF}}.</ref> qu'il a initialement développée dans un cadre médical pour analyser ce qu'il appelle poétiquement la ''machine animale''<ref>{{Ouvrage |langue=fr |prénom1=Marie-France |nom1=Briselance |lien auteur1=Marie-France Briselance |prénom2=Jean-Claude |nom2=Morin |titre=Grammaire du cinéma |éditeur=[[Nouveau Monde (éditions)|Nouveau Monde]] |lieu=Paris |année=2010 |pages totales=588 |passage=14 |isbn=978-2-84736-458-3}}.</ref>, mais surtout ce sont ses dispositifs pneumatiques qui anticipent sur la capture de mouvement. En effet, il fixe sur des chaussures préparées spécialement à cet effet qu’il appelle des « chaussures exploratrices », des tuyaux qui conduisent la pression exercée sur ces dispositifs jusqu’à un enregistreur à stylet et noir de fumée, porté parfois, lorsque le sujet est en mouvement, directement par lui<ref>{{Ouvrage |auteur1=Étienne-Jules Marey |titre=La Machine animale |sous-titre=Locomotion terrestre et aérienne |éditeur=Germer Baillière |année=1873 |pages totales=299 |passage=116-129 |isbn=0-543-94599-5 |numéro chapitre=II |titre chapitre=Locomotion terrestre (bipèdes) |partie=Livre deuxième }}.</ref>. L'enregistreur détermine ainsi, et enregistre les directions et intensités des mouvements exécutés.

Le clavier et la souris sont les premiers périphériques de capture de mouvement, mais les premiers systèmes sophistiqués ont été développés dans les années 1980 pour l'armée (capteurs pour simulateurs d'aviation), puis pour des analyses physiologiques médicales, scientifiques ou sportives (orthopédie, traumatologie, rééducation, et, plus généralement, biomécanique). Elle est depuis 1990 employée pour produire des films en images de synthèse (Total Recall), des effets spéciaux pour la télévision, ou des performances artistiques en théâtre ou en danse. Le premier comédien virtuel animé par cette technique date de 1993.

Mais son marché principal reste le jeu vidéo. En effet, les mouvements réalistes générés par ces systèmes sont bien adaptés aux jeux sportifs ou guerriers, ce qui n'est pas le cas du dessin animé dont la référence reste les animations exagérées ou expressives traditionnelles de Disney ou de Tex Avery, qui sont toujours réalisées avec les techniques manuelles par images-clés (''{{Lien|keyframing}}'' en anglais).


Depuis le début des années 2000 s'est développée une technique plus complexe, la capture de jeu (''performance capture'') qui saisit de manière synchronisée les mouvements du corps, les expressions du visage (''{{Lien|facial motion capture}}'' en anglais) et les mouvements des doigts. Auparavant, ces saisies étaient réalisées séparément.
Depuis le début des années 2000 s'est développée une technique plus complexe, la capture de jeu (''performance capture'') qui saisit de manière synchronisée les mouvements du corps, les expressions du visage (''{{Lien|facial motion capture}}'' en anglais) et les mouvements des doigts. Auparavant, ces saisies étaient réalisées séparément.
Ligne 16 : Ligne 33 :
[[Fichier:Homme en combinaison de chronophotographie.jpg|thumb|Une combinaison de chronophotographie inventée par [[Étienne-Jules Marey]] en 1891. On peut voir les marqueurs sur la jambe, le bras et la tête.]]
[[Fichier:Homme en combinaison de chronophotographie.jpg|thumb|Une combinaison de chronophotographie inventée par [[Étienne-Jules Marey]] en 1891. On peut voir les marqueurs sur la jambe, le bras et la tête.]]
[[Fichier:Image chronophotographique d'un coureur.jpg|thumb|Le résultat de la chronophotographie avec la combinaison ci-dessus.]]
[[Fichier:Image chronophotographique d'un coureur.jpg|thumb|Le résultat de la chronophotographie avec la combinaison ci-dessus.]]
Tous les systèmes de capture de mouvement du corps humain sont constitués d'un dispositif matériel (capteurs, caméras USB ou réseau de caméras ethernet) relié à une application serveur dont le rôle est d'extraire les données brutes matérielles pour les traiter (filtrage, calculs géométriques et d'interpolation) puis les stocker ou les transmettre en temps réel à une application cliente universelle de visualisation, généralement MotionBuilder. Ce logiciel (développé à l'origine par la société Kaydara, rachetée aux environs de 2008 par Autodesk) est devenu un standard industriel puisqu'il interface via plugin la quasi-totalité des systèmes professionnels, et que son format FBX (pour FilmBoX, nom originel du logiciel) a été imposé comme standard d'échange et d'animation entre 3dsMax, Maya et XSI.
Tous les systèmes de capture de mouvement du corps humain sont constitués d'un dispositif matériel (capteurs, caméras USB ou réseau de caméras [[ethernet]]) relié à une application serveur dont le rôle est d'extraire les données brutes matérielles pour les traiter (filtrage, calculs géométriques et d'interpolation) puis les stocker ou les transmettre en temps réel à une application cliente universelle de visualisation, généralement MotionBuilder. Ce logiciel (développé à l'origine par la société Kaydara, rachetée aux environs de 2008 par Autodesk) est devenu un standard industriel puisqu'il interface via plugin la quasi-totalité des systèmes professionnels, et que son format FBX (pour FilmBoX, nom originel du logiciel) a été imposé comme standard d'échange et d'animation entre 3dsMax, Maya et XSI.


=== Capture optique ===
=== Capture optique ===
==== Basée sur caméras infrarouges et marqueurs passifs réfléchissants ====
==== Basée sur caméras infrarouges et marqueurs passifs réfléchissants ====
Dans la plupart des systèmes, on pose des marqueurs sur l'acteur à des endroits du corps caractéristiques, généralement près des articulations, et ce sont des images noires et blanches (2 bits) de ces points qui sont captées, et non les images du corps de l'acteur. Les caméras émettent un rayonnement infrarouge, réfléchi par les marqueurs dont la surface est composée d'une matière réfléchissante, puis renvoyé à ces mêmes caméras. Celles-ci ne sont sensibles qu'à un type de longueur d'onde et affichent les marqueurs sous forme de points blancs (ou en niveau de gris pour les caméras plus récentes). Puis, à partir du traitement d'image d'un minimum de 2 caméras, les positions dans le repère spatial des marqueurs sont déduites par triangulation. Le logiciel doit aussi traquer les marqueurs, c'est-à-dire : les inscrire dans une liste de suivi d'identification à partir de la T-pose (position en T initiale de l'acteur) ; gérer les occlusions (quand un membre, ou un autre acteur dans le cas de systèmes à acteurs multiples, vient cacher un marqueur à la vue d'une ou plusieurs caméras) ; enfin gérer le swapping (problème de la confusion ou de l'échange accidentel dans l'identification de deux marqueurs, par exemple deux mains qui passent près l'une de l'autre). Vient ensuite la phase de reconnaissance des corps rigides (''rigid body'') : au moment de l'initialisation de la session de capture par le technicien en charge, celui-ci a réalisé manuellement des groupes de 2 à 4 marqueurs, fixes les uns par rapport aux autres (par exemple, autour du haut du crâne) et qui servent à calculer la rotation d'un membre (en effet, un marqueur en lui-même étant un point, celui-ci ne contient pas d'information de rotation). De trente (pour des systèmes bas de gamme) à deux cent cinquante fois par seconde, cette séquence de traitement est appliquée à un squelette virtuel, c'est-à-dire une hiérarchie d'os dont les positions et rotations sont contrôlés par les corps rigides associés. L'instantané de ce squelette est stocké dans un fichier, soit au format « propriétaire » du système, soit au format du standard industriel BVH (de la société Biovision) ; ou bien envoyé en temps réel via un canal de communication du type TCP/IP au logiciel MotionBuilder. Ce logiciel contient un moteur de rendu 3d temps réel au format OpenGL, capable de déformer un modèle 3D de personnage en associant le squelette de celui-ci aux informations du squelette capté. Le réalisme du mouvement dépend de multiples facteurs : qualité du marker set (nombres de marqueurs et de bones utilisés), vitesse d'échantillonnage (des mouvements rapides de l'acteur génèrent des images floues, et donc des positions de marqueurs moins précises), performance des filtres logiciels permettant de réduire le bruit, etc.
Dans la plupart des systèmes, on pose des marqueurs sur l'acteur à des endroits du corps caractéristiques, généralement près des articulations, et ce sont des images noires et blanches (2 bits) de ces points qui sont captées, et non les images du corps de l'acteur. Les caméras émettent un rayonnement infrarouge, réfléchi par les marqueurs dont la surface est composée d'une matière réfléchissante, puis renvoyé à ces mêmes caméras. Celles-ci ne sont sensibles qu'à un type de longueur d'onde et affichent les marqueurs sous forme de points blancs (ou en niveau de gris pour les caméras plus récentes). Puis, à partir du traitement d'image d'un minimum de 2 caméras, les positions dans le repère spatial des marqueurs sont déduites par triangulation. Le logiciel doit aussi traquer les marqueurs, c'est-à-dire : les inscrire dans une liste de suivi d'identification à partir de la T-pose (position en T initiale de l'acteur) ; gérer les occlusions (quand un membre, ou un autre acteur dans le cas de systèmes à acteurs multiples, vient cacher un marqueur à la vue d'une ou plusieurs caméras) ; enfin gérer le swapping (problème de la confusion ou de l'échange accidentel dans l'identification de deux marqueurs, par exemple deux mains qui passent près l'une de l'autre). Vient ensuite la phase de reconnaissance des corps rigides (''rigid body'') : au moment de l'initialisation de la session de capture par le technicien en charge, celui-ci a réalisé manuellement des groupes de 2 à 4 marqueurs, fixes les uns par rapport aux autres (par exemple, autour du haut du crâne) et qui servent à calculer la rotation d'un membre (en effet, un marqueur en lui-même étant un point, celui-ci ne contient pas d'information de rotation). De trente (pour des systèmes bas de gamme) à deux cent cinquante fois par seconde, cette séquence de traitement est appliquée à un squelette virtuel, c'est-à-dire une hiérarchie d'os dont les positions et rotations sont contrôlés par les corps rigides associés. L'instantané de ce squelette est stocké dans un fichier, soit au format « propriétaire » du système, soit au format du standard industriel BVH (de la société Biovision) ; ou bien envoyé en temps réel via un canal de communication du type TCP/IP au logiciel MotionBuilder. Ce logiciel contient un moteur de rendu 3D temps réel au format [[OpenGL]], capable de déformer un modèle 3D de personnage en associant le squelette de celui-ci aux informations du squelette capté. Le réalisme du mouvement dépend de multiples facteurs : qualité du marker set (nombres de marqueurs et de bones utilisés), vitesse d'échantillonnage (des mouvements rapides de l'acteur génèrent des images floues, et donc des positions de marqueurs moins précises), performance des filtres logiciels permettant de réduire le bruit, etc.


Ces systèmes impliquent également la prise en compte de problèmes optiques complexes comme la [[parallaxe]], la distorsion des lentilles utilisées, etc. Le signal capté subit donc de nombreuses déformations, et la phase d’étalonnage est cruciale pour obtenir une bonne précision des données.
Ces systèmes impliquent également la prise en compte de problèmes optiques complexes comme la [[parallaxe]], la distorsion des lentilles utilisées, etc. Le signal capté subit donc de nombreuses déformations, et la phase d’étalonnage est cruciale pour obtenir une bonne précision des données.
# La société Vicon<ref>[http://www.vicon.com/ Vicon].</ref> est une des plus importantes sur le marché des systèmes optiques haut de gamme.
# La société MotionAnalysis<ref>[http://www.motionanalysis.com/ MotionAnalysis].</ref> est également une des plus importantes sur le marché des systèmes optiques haut de gamme.
# La société NaturalPoint<ref>[http://www.naturalpoint.com/optitrack/ NaturalPoint].</ref> est reconnue sur le marché des systèmes optiques d'entrée de gamme.
# La société Qualisys<ref>{{Lien web|titre = Motion capture – Qualisys Motion Capture Systems|url = http://www.qualisys.com/|site = www.qualisys.com|consulté le = 2015-09-14}}.</ref> fournit à la fois des systèmes optiques de milieu de gamme et de haut de gamme.


Les principaux acteurs sur le marché des systèmes optiques sont: la société Qualisys ([[Suède]]), la société Vicon ([[Grande-Bretagne]]), la société MotionAnalysis ([[États-Unis]]) et la société OptiTrack ([[Chine]]). {{loupe|Match moving}}
{{loupe|Match moving}}


==== Basée sur caméras, sans marqueurs ====
==== Basée sur un réseau de caméras vidéo, sans marqueurs ====
Des dispositifs de capture sans marqueurs, professionnels et de haute qualité, sont développés depuis le milieu des années 2010. Ils s'appuient principalement sur l'analyse automatisée d'images en utilisant sur la technologie du [[Machine learning]] qui leur permet de repérer des points anatomiques de manière automatique, après y avoir été entraînés (par le constructeur de la solution, livrée prête à l'emploi, ou par l'utilisateur, selon les cas).
La technologie sans marqueurs utilise le concept de 'depthmap', une surface à niveaux reconstruite suivant divers procédés optiques, qui n'est pas à proprement parler un modèle 3d classique (fait de sommets, d'arêtes et de polygones) mais de ''Voxel voxels'', objets hybrides entre le pixel et le vecteur, sorte de nuage de cubes de couleur positionnés dans l'espace. Appliquée au corps, on utilise ce volume approximatif pour en extraire une configuration du squelette virtuel. Appliquée à la capture faciale, on la compare à une liste d'expressions d'un modèle 3d de visage (morph target pour 3dsMax ou blend shape pour Maya).

# La société Dynamixyz<ref>[http://dynamixyz.com/ Dynamixyz].</ref> propose un système de capture faciale sans marqueurs.
==== Basée sur caméras, sans marqueurs, à usage facial. ====
La technologie sans marqueurs utilise le concept de 'depthmap', une surface à niveaux reconstruite suivant divers procédés optiques, qui n'est pas à proprement parler un modèle 3D classique (fait de sommets, d'arêtes et de polygones) mais de ''Voxel voxels'', objets hybrides entre le pixel et le vecteur, sorte de nuage de cubes de couleur positionnés dans l'espace. Appliquée au corps, on utilise ce volume approximatif pour en extraire une configuration du squelette virtuel. Appliquée à la capture faciale, on la compare à une liste d'expressions d'un modèle 3D de visage (''morph target'' pour 3dsMax ou ''blend shape'' pour Maya).


===== Basée sur la technologie Kinect =====
===== Basée sur la technologie Kinect =====
La [[Kinect]] est un dispositif de capture dont la technologie sophistiquée est utilisée pour des applications ludiques grand public. Une trame de lumière infrarouge est projetée sur les objets, image que le capteur va traiter pour en reconstituer la profondeur (plus un point infrarouge est gros, plus il est près). À la différence des systèmes optiques traditionnels avec marqueurs, cette technique permet de n'utiliser qu'une seule caméra. Conçue à l'origine pour la Xbox, ce périphérique a très vite été détourné pour fonctionner sur PC, puis officiellement par Microsoft avec Kinect for Windows.
La [[Kinect]] est un dispositif de capture dont la technologie sophistiquée est utilisée pour des applications ludiques grand public. Une trame de lumière infrarouge est projetée sur les objets, image que le capteur va traiter pour en reconstituer la profondeur (plus un point infrarouge est gros, plus il est près). À la différence des systèmes optiques traditionnels avec marqueurs, cette technique permet de n'utiliser qu'une seule caméra. Conçue à l'origine pour la Xbox, ce périphérique a très vite été détourné pour fonctionner sur PC, puis officiellement par Microsoft avec Kinect for Windows.
# La société '''DEM''' ''sas'' commercialise une solution de capture Kinect interfaçée avec son logiciel '''MATVISIO'''<ref>[http://www.matvisio.com/ matvisio].</ref> qui permet de prévenir et réduire les risques de troubles Musculo-squelettiques.
# La société ''DEM'' sas commercialise une solution de capture Kinect interfacée avec son logiciel ''MATVISIO'' qui permet de prévenir et réduire les risques de troubles Musculo-squelettiques.
# Le programmeur Jasper Brekelmans<ref>[http://www.brekel.com/?page_id=155 ''brekel.com''].</ref> offre depuis 2010 une version mono-acteur gratuite avec drivers non officiels, et bientôt une version payante multi-acteurs, interfaçée avec MotionBuilder et développée avec les drivers Microsoft.
# Le programmeur Jasper Brekelmans offre depuis 2010 une version mono-acteur gratuite avec drivers non officiels, et bientôt une version payante multi-acteurs, interfacée avec MotionBuilder et développée avec les drivers Microsoft.
# Le développeur russe iPi<ref>[http://www.ipisoft.com/ iPi].</ref>, connu pour son offre commerciale à très bas coût, commercialise une version de son logiciel sans marqueurs iPi MocapStudio pour la Kinect, webcam ou caméras vidéo Sony rapides. Pas de temps réel, pas de plugin pour MotionBuilder, seulement un export au format BVH.
# Le développeur russe iPi, {{Référence nécessaire|connu pour son offre commerciale à très bas coût|date=janvier 2020}}, commercialise une version de son logiciel sans marqueurs iPi MocapStudio pour la Kinect, webcam ou caméras vidéo Sony rapides. Pas de temps réel, pas de plugin pour MotionBuilder, seulement un export au format BVH.
# La société Reallusion<ref>[http://www.reallusion.com/iclone/iclone_mocap_device.aspx Reallusion].</ref> commercialise une solution de capture Kinect pour son logiciel d'animation grand public IClone.
# La société Reallusion commercialise une solution de capture Kinect pour son logiciel d'animation grand public IClone.
# La société Kinemocap<ref>[http://www.kinemocap.com/ Kinemocap].</ref> commercialise une solution de capture Kinect interfaçée avec le logiciel XSI d'Autodesk.
# La société Kinemocap commercialise une solution de capture Kinect interfacée avec le logiciel XSI d'Autodesk.
# La société FaceShift<ref>[http://www.faceshift.com/ FaceShift].</ref> commercialise une solution de tracking facial de haute qualité pour Kinect interfaçée avec MotionBuilder.
# La société FaceShift commercialise une solution de tracking facial de haute qualité pour Kinect interfacée avec MotionBuilder.

===== Basée sur réseau de caméras vidéo en lumière naturelle =====
La société OrganicMotion<ref>[http://www.organicmotion.com/products/openstage OrganicMotion].</ref> commercialise un dispositif de capture sans marqueurs professionnel de haute qualité utilisant un réseau d'une vingtaine de caméras vidéo rapides. Système temps réel, avec affichage des acteurs en ''Voxel voxels''.


==== Basée sur des cellules photosensibles et marqueurs actifs ====
==== Basée sur des cellules photosensibles et marqueurs actifs ====
Ligne 51 : Ligne 63 :
Cette méthode bien que moins sensible, prend en compte les problèmes optiques complexes comme la [[parallaxe]], mais n'utilise pas de lentilles contrairement aux caméras. Le signal émis par des marqueurs actifs (micro-DEL) est filtré à travers une paroi traitée à cet effet et plate (pas de problème de distorsion d'image) et capté directement par les cellules photosensibles en même temps. Aucun calibrage n'est nécessaire, puisque les trois cellules du système sont fixées d'origine dans une structure rigide puis précalibrées à l'aide d'une batterie de tests dynamiques d'une redoutable précision après assemblage. Cette technique et les précautions qui entourent la mise en service de ces unités de mesure permettent le calcul des coordonnées 3D de chaque émetteur actif ou marqueur actif dans le volume de capture avec une très grande précision.
Cette méthode bien que moins sensible, prend en compte les problèmes optiques complexes comme la [[parallaxe]], mais n'utilise pas de lentilles contrairement aux caméras. Le signal émis par des marqueurs actifs (micro-DEL) est filtré à travers une paroi traitée à cet effet et plate (pas de problème de distorsion d'image) et capté directement par les cellules photosensibles en même temps. Aucun calibrage n'est nécessaire, puisque les trois cellules du système sont fixées d'origine dans une structure rigide puis précalibrées à l'aide d'une batterie de tests dynamiques d'une redoutable précision après assemblage. Cette technique et les précautions qui entourent la mise en service de ces unités de mesure permettent le calcul des coordonnées 3D de chaque émetteur actif ou marqueur actif dans le volume de capture avec une très grande précision.


Le principe de fonctionnement est donc celui « d'émetteur-récepteur » : les marqueurs actifs émettent directement un signal infrarouge captés par les cellules photosensibles. Celles-ci ne sont sensibles qu'à un type de longueur d'onde et identifient les marqueurs actifs en temps réel grâce à une séquence d'émission multicomplexe. Ces marqueurs sont donc identifiés automatiquement et immédiatement en temps réel comme étant des points dynamiques avec des coordonnées 3D dans l'espace virtuel<ref>Voir [http://www.phasespace.com/ PhaseSpace] et [http://www.ptiphoenix.com/ Ptiphoenix].</ref>
Le principe de fonctionnement est donc celui « d'émetteur-récepteur » : les marqueurs actifs émettent directement un signal infrarouge captés par les cellules photosensibles. Celles-ci ne sont sensibles qu'à un type de longueur d'onde et identifient les marqueurs actifs en temps réel grâce à une séquence d'émission multicomplexe. Ces marqueurs sont donc identifiés automatiquement et immédiatement en temps réel comme étant des points dynamiques avec des coordonnées 3D dans l'espace virtuel.


=== Capture mécanique ===
=== Capture mécanique ===
La capture mécanique fonctionne grâce à un [[exosquelette]] construit autour de l'élément à capter, et dont chaque articulation est couplée à un codeur angulaire. La valeur de rotation du codeur est enregistrée par un calculateur. En connaissant la position relative de chaque codeur, un logiciel est capable de reconstituer le mouvement complexe d'un squelette constitué en général de plusieurs articulations. On applique également un décalage pour chaque codeur, car il n'est souvent pas possible de faire coïncider exactement la position du codeur avec celle de l'articulation réelle (surtout dans le cadre d'une capture d'un mouvement d'humain).
La capture mécanique fonctionne grâce à un [[exosquelette]] construit autour de l'élément à capter, et dont chaque articulation est couplée à un codeur angulaire. La valeur de rotation du codeur est enregistrée par un calculateur. En connaissant la position relative de chaque codeur, un logiciel est capable de reconstituer le mouvement complexe d'un squelette constitué en général de plusieurs articulations. On applique également un décalage pour chaque codeur, car il n'est souvent pas possible de faire coïncider exactement la position du codeur avec celle de l'articulation réelle (surtout dans le cadre d'une capture d'un mouvement d'humain).


Si cette technique offre une grande précision et une grande rapidité, elle est cependant limitée par les contraintes mécaniques inhérentes à la mise en place des codeurs et de l'exosquelette. En effet, la liberté de mouvement n'est pas aussi importante qu'avec des systèmes de capture optique à boules réfléchissantes. De plus, ces exosquelettes utilisent souvent des connexions filaires qui relient les codeurs au calculateur. La précision de la reproduction d'un mouvement est de plus conditionnée par celle de la modélisation du squelette, qui résulte directement de la mesure des positions relatives entre chaque codeur.
Si cette technique offre une grande précision et une grande rapidité, elle est cependant limitée par les contraintes mécaniques inhérentes à la mise en place des codeurs et de l'exosquelette. En effet, la liberté de mouvement n'est pas aussi importante qu'avec des systèmes de capture optique à boules réfléchissantes. De plus, ces exosquelettes utilisent souvent des connexions filaires qui relient les codeurs au calculateur. La précision de la reproduction d'un mouvement est de plus conditionnée par celle de la modélisation du squelette, qui résulte directement de la mesure des positions relatives entre chaque codeur.
Ligne 64 : Ligne 76 :
Les avantages de la capture mécanique sont la précision de la mesure (un codeur optique peut comporter plusieurs centaines de milliers de traits par tour), la rapidité du fait de la connexion filaire, et l'insensibilité aux facteurs extérieurs. Elle est cependant peu adaptée à la capture du mouvement humain.
Les avantages de la capture mécanique sont la précision de la mesure (un codeur optique peut comporter plusieurs centaines de milliers de traits par tour), la rapidité du fait de la connexion filaire, et l'insensibilité aux facteurs extérieurs. Elle est cependant peu adaptée à la capture du mouvement humain.


Par contre elle convient bien à des systèmes robotiques, où les éléments mobiles sont rigides, comme des bras robots à multi-axes, ou à des objets dont le rayon d'action est limité (à cause de la contrainte de la connexion filaire)<ref>Voir [http://www.metamotion.com/gypsy/gypsy-motion-capture-system.htm Gypsy].</ref>.
Par contre elle convient bien à des systèmes robotiques, où les éléments mobiles sont rigides, comme des bras robots à multi-axes, ou à des objets dont le rayon d'action est limité (à cause de la contrainte de la connexion filaire).


=== Capture magnétique ===
=== Capture magnétique ===
La capture magnétique repose sur la création d'un champ électromagnétique en un point réel, qui aura pour coordonnées (0,0,0) en x, y et z dans sa représentation virtuelle, et que l'on nomme « antenne », ainsi que sur l'introduction de « capteurs » dans ce champ électromagnétique.
La capture magnétique repose sur la création d'un champ électromagnétique en un point réel, qui aura pour coordonnées (0,0,0) en x, y et z dans sa représentation virtuelle, et que l'on nomme « antenne », ainsi que sur l'introduction de « capteurs » dans ce champ électromagnétique.


Ces capteurs sont en fait des bobines de fils électriques perturbant le champ magnétique, et dont le calcul des différences de potentiel avec l'antenne traduit à la fois leurs positions et leurs orientations.
Ces capteurs sont en fait des bobines de fils électriques perturbant le champ magnétique, et dont le calcul des différences de potentiel avec l'antenne traduit à la fois leurs positions et leurs orientations.


Le principal avantage de cette méthode est que les signaux captés sont très peu interprétés, aucune interpolation n'est effectuée hors du calcul même de la position et de l'orientation des capteurs.
Le principal avantage de cette méthode est que les signaux captés sont très peu interprétés, aucune interpolation n'est effectuée hors du calcul même de la position et de l'orientation des capteurs.

Cependant, tout objet métallique constituant une boucle (''loop'') inclus dans le champ, et plus généralement toute distorsion électromagnétique, conduira à un « [[Gigue (électronique)|tremblement]] » des données captées, les rendant ainsi pratiquement inutilisables. Par contre, ces tremblements peuvent être éliminés assez facilement par l'utilisation de logiciels tels que « MotionBuilder<ref>[http://fr.autodesk.ca/adsk/servlet/item?siteID=9719701&id=9857186 MotionBuilder].</ref> »<ref> Voir [http://www.ascension-tech.com/index.php ''ascension-tech.com''].</ref>.
Cependant, tout objet métallique constituant une boucle (''loop'') inclus dans le champ, et plus généralement toute distorsion électromagnétique, conduira à un « [[Gigue (électronique)|tremblement]] » des données captées, les rendant ainsi pratiquement inutilisables. Par contre, ces tremblements peuvent être éliminés assez facilement par l'utilisation de logiciels tels que « MotionBuilder.


=== Capture par centrales inertielles ===
=== Capture par centrales inertielles ===
La capture par centrales inertielles ou gyroscopiques permet l'acquisition de l'attitude du corps humain en temps réel, par rotation de ses membres, en supprimant les contraintes imposées par les technologies optiques (occlusion et swapping). En effet, ces capteurs continuent à fonctionner même cachés par d'autres acteurs, habits ou accessoires. Par contre, ceux-ci n'enregistrent pas leur position, qui doivent être réalisées avec d'autres capteurs ou par keyframing (un cycle de marche capturé fera donc du sur-place). Systèmes légers et portables, câblés ou sans-fil, ils peuvent cependant perdre de la précision sur de longues captures (accumulation d'erreurs)<ref>Voir [http://www.xsens.com/ Xsens].</ref>{{,}}<ref>{{Lien web|langue=|titre=TEA {{!}} CAPTIV Motion|url=http://teaergo.com/wp/produits-tea/captiv-motion/|site=teaergo.com|date=|consulté le=2016-01-27}}.</ref>.
La capture par centrales inertielles ou gyroscopiques permet l'acquisition de l'attitude du corps humain en temps réel, par rotation de ses membres, en supprimant les contraintes imposées par les technologies optiques (occlusion et swapping). En effet, ces capteurs continuent à fonctionner même cachés par d'autres acteurs, habits ou accessoires. Par contre, ceux-ci n'enregistrent pas leur position, qui doivent être réalisées avec d'autres capteurs ou par keyframing (un cycle de marche capturé fera donc du sur-place). Systèmes légers et portables, câblés ou sans-fil, ils peuvent cependant perdre de la précision sur de longues captures (accumulation d'erreurs).


== ''Facial motion capture'' et capture de jeu ==
== ''Facial motion capture'' et capture de jeu ==
La ''facial motion capture''<ref name="Nofrench">Appellation anglo-saxonne en l'absence actuelle de termes français officiels.</ref>, également appelée ''face tracking'' (litt. « capture d'expressions faciales ») est une évolution de la capture de mouvement. Elle s'inscrit dans une technique plus générale appelée « capture de jeu » (''performance capture''), qui a été développée par le réalisateur [[Robert Zemeckis]] (dont le film ''[[Le Pôle express]] ''sera le premier à être tourné intégralement selon ce procédé). Cette technique permet de prendre en compte, en plus des mouvements corporels généraux, des mouvements plus subtils comme les expressions faciales ou les mouvements des mains.
La ''facial motion capture''<ref name="Nofrench">Appellation anglo-saxonne en l'absence actuelle de termes français officiels.</ref>, également appelée ''face tracking'' (litt. « capture d'expressions faciales ») est une évolution de la capture de mouvement. Elle s'inscrit dans une technique plus générale appelée « capture de jeu » (''performance capture''), qui a été développée par le réalisateur [[Robert Zemeckis]] (dont le film ''[[Le Pôle express]] ''sera le premier à être tourné intégralement selon ce procédé). Cette technique permet de prendre en compte, en plus des mouvements corporels généraux, des mouvements plus subtils comme les expressions faciales ou les mouvements des mains.


Mais ce qui différencie surtout la capture de jeu de la capture de mouvement, c'est que, plus qu'une amélioration technique, il s'agit avant tout d'une méthodologie de travail. L'acteur est en effet placé au cœur de ce procédé qui l'autorise à jouer sans aucune contrainte technique (emplacement, décors, éclairage...). Ce n'est qu'ensuite, et en fonction de la performance ainsi enregistrée, que les différentes étapes de fabrication du film seront exécutées, permettant d'effectuer le montage, de régler les mouvements de caméra ou le cadrage, d'ajuster l'éclairage, de choisir les décors, sans ordre préétabli et sans contrainte. Le réalisateur est ainsi libre de tester une infinité de configurations avant d'opter pour celle qu'il décidera d'inclure dans son film, chose impossible lors d'un tournage classique.
Mais ce qui différencie surtout la capture de jeu de la capture de mouvement, c'est que, plus qu'une amélioration technique, il s'agit avant tout d'une méthode de travail. L'acteur est en effet placé au cœur de ce procédé qui l'autorise à jouer sans aucune contrainte technique (emplacement, décors, éclairage...). Ce n'est qu'ensuite, et en fonction de la performance ainsi enregistrée, que les différentes étapes de fabrication du film seront exécutées, permettant d'effectuer le montage, de régler les mouvements de caméra ou le cadrage, d'ajuster l'éclairage, de choisir les décors, sans ordre préétabli et sans contrainte. Le réalisateur est ainsi libre de tester une infinité de configurations avant d'opter pour celle qu'il décidera d'inclure dans son film, chose impossible lors d'un tournage classique.


Du point de vue de l'acteur, les possibilités sont tout aussi infinies: un acteur peut ainsi interpréter un personnage d'âge ou d’apparence différentes ([[Tom Hanks]] interprète plusieurs rôles dans ''Le Pôle express'', dont celui d'un enfant, et le bedonnant [[Ray Winstone]] interprète un héros au physique athlétique dans ''[[La Légende de Beowulf]]''), voire des personnages non-humains (dans ''La Légende de Beowulf'', Ray Winstone incarne également le dragon symbolisant la culpabilité du héros, et [[Kathleen Turner]] une maison dans ''[[Monster House]]'').
Du point de vue de l'acteur, les possibilités sont tout aussi infinies: un acteur peut ainsi interpréter un personnage d'âge ou d’apparence différentes ([[Tom Hanks]] interprète plusieurs rôles dans ''Le Pôle express'', dont celui d'un enfant, et le bedonnant [[Ray Winstone]] interprète un héros au physique athlétique dans ''[[La Légende de Beowulf]]''), voire des personnages non-humains (dans ''La Légende de Beowulf'', Ray Winstone incarne également le dragon symbolisant la culpabilité du héros, et [[Kathleen Turner]] une maison dans ''[[Monster House]]'').
Ligne 87 : Ligne 100 :
{{Catégorie principale|Film tourné en capture de mouvement}}
{{Catégorie principale|Film tourné en capture de mouvement}}
=== Films intégralement tournés en capture de jeu ===
=== Films intégralement tournés en capture de jeu ===
*'' [[Le Pôle express]]'' (2004)
*''[[Le Pôle express]]'' (2004)
*'' [[Monster House]]'' (2006)
*''[[Monster House]]'' (2006)
*'' [[Renaissance (film)|Renaissance]]'' (2006) (film tourné en capture de mouvement, mais avec une méthodologie de travail identique à la capture de jeu<ref>[http://vimeo.com/12697416 ''Making of'' de ''Renaissance''] sur ''vimeo.com''.</ref>)
*''[[Renaissance (film)|Renaissance]]'' (2006) (film tourné en capture de mouvement, mais avec une méthodologie de travail identique à la capture de jeu<ref>[http://vimeo.com/12697416 ''Making of'' de ''Renaissance''] sur ''vimeo.com''.</ref>)
*'' [[La Légende de Beowulf]] ''(2007)
*''[[La Légende de Beowulf]] ''(2007)
*'' [[Le Drôle de Noël de Scrooge]]'' (2009)
*''[[Le Drôle de Noël de Scrooge]]'' (2009)
*'' [[Milo sur Mars]]'' (2011)
*''[[Milo sur Mars]]'' (2011)
*'' [[Les Aventures de Tintin : Le Secret de La Licorne]]'' (2011)
*''[[Les Aventures de Tintin : Le Secret de La Licorne]]'' (2011)
*[[Pourquoi j'ai pas mangé mon père]] (2015)
*''[[Pourquoi j'ai pas mangé mon père]]'' (2015)


=== [[Films]] utilisant partiellement la capture de jeu ===
=== [[Films]] utilisant partiellement la capture de jeu ===
*'' [[La menace fantôme]]'' (1999)
* ''[[Star Wars, épisode I : La Menace fantôme]]'' (1999)
*'' [[Le Seigneur des anneaux : Les Deux Tours]]'' (2002)
* ''[[La Momie (film, 1999)|La Momie]]'' (1999)
*'' [[Le Seigneur des anneaux : Le Retour du roi]]'' (2003)
* ''[[Le Seigneur des anneaux : Les Deux Tours]]'' (2002)
* [[King Kong (film, 2005)|''King Kong'']]'' ''(2005)
* ''[[Le Seigneur des anneaux : Le Retour du roi]]'' (2003)
* ''[[Immortel, ad vitam]]'' (2004)
* ''[[Pirates des Caraïbes : Le Secret du coffre maudit|Pirates des Caraïbes : le Secret du coffre maudit]] ''(2006)
*'' [[Happy Feet]]'' (2006)
* ''[[King Kong (film, 2005)|King Kong]]'' (2005)
* ''[[Pirates des Caraïbes : Le Secret du coffre maudit]]'' (2006)
* '' [[Happy Feet]]'' (2006)
* ''[[Spider-man 3]] ''(2007)
* ''[[Spider-man 3]] ''(2007)
* ''[[Pirates des Caraïbes : Jusqu'au bout du monde]]'' (2007)
* ''[[Pirates des Caraïbes : Jusqu'au bout du monde]]'' (2007)
* ''[[Les Rois de la glisse]] ''(2007)
* ''[[Les Rois de la glisse]] ''(2007)
* ''[[Terminator Renaissance]]'' (2009)
* ''[[Terminator Renaissance]]'' (2009)
* '' [[Avatar (film, 2009)|Avatar]] ''(2009)
* ''[[Avatar (film, 2009)|Avatar]] ''(2009)
*'' [[La Planète des singes : Les Origines]] ''(2011)
* ''[[La Planète des singes : Les Origines]] ''(2011)
* '' [[John Carter (film)|John Carter]] ''(2012)
* ''[[John Carter (film)|John Carter]] ''(2012)
*'' [[Le Hobbit : Un voyage inattendu]] ''(2012)
* ''[[Le Hobbit : Un voyage inattendu]] ''(2012)
*'' [[Jack le chasseur de géants]] ''(2013)
* ''[[Jack le chasseur de géants]] ''(2013)
* '' [[Gravity (film)|Gravity]]'' (2013)
* ''[[Gravity (film)|Gravity]]'' (2013)
* ''[[Le Hobbit : La Désolation de Smaug|Le Hobbit : la Désolation de Smaug ]]''(2013)
* ''[[Le Hobbit : La Désolation de Smaug]]''(2013)
* ''[[Maléfique (film, 2014)|Maléfique]]'' (2014)
* ''[[Maléfique (film, 2014)|Maléfique]]'' (2014)
* ''[[La Planète des singes : L'Affrontement]]'' (2014)
* ''[[La Planète des singes : L'Affrontement]]'' (2014)
* [[Ninja Turtles (film)|''Ninja Turtles'']] (2014)
* ''[[Ninja Turtles (film)|Ninja Turtles]]'' (2014)
* ''[[Le Hobbit : La Bataille des Cinq Armées]]'' (2014)
* ''[[Le Hobbit : La Bataille des Cinq Armées]]'' (2014)
* ''[[Jurassic World]]'' (2015)
* ''[[Jurassic World]]'' (2015)
Ligne 122 : Ligne 137 :
* ''[[Warcraft : Le Commencement]]'' (2016)
* ''[[Warcraft : Le Commencement]]'' (2016)
* ''[[Star Wars: Rogue One]]'' (2016)
* ''[[Star Wars: Rogue One]]'' (2016)
* [[Le Bon Gros Géant (film)|''Le Bon Gros Géant'']] (2016)
* ''[[Le Bon Gros Géant (film)|Le Bon Gros Géant]]'' (2016)
* ''[[La Planète des singes : Suprématie]]'' (2017)
* ''[[La Planète des singes : Suprématie]]'' (2017)
* ''[[Star Wars, épisode VIII : Les Derniers Jedi]]'' (2017)
* ''[[Star Wars, épisode VIII : Les Derniers Jedi]]'' (2017)
* [[Ready Player One (film)|''Ready Player One'']] (2018)
* ''[[Ready Player One (film)|Ready Player One]]'' (2018)
*''[[Avengers: Infinity War|Avengers : Infinity War]]'' (2018)
* ''[[Avengers: Infinity War]]'' (2018)
* [[L'Appel de la forêt (film, 2020)|L’appel de la forêt]] (2020)


== Notes et références ==
== Notes et références ==
Ligne 132 : Ligne 148 :


== Annexes ==
== Annexes ==
{{Catégorie principale|Film tourné en capture de mouvement}}
=== Articles connexes ===
{{Autres projets|commons=Category:Motion capture|wiktionary=capture de mouvement}}
{{Autres projets|commons=Category:Motion capture|wiktionary=capture de mouvement}}

=== Articles connexes ===
* [[Biovision Hierarchy]], un format de fichier de capture de mouvement,
* [[Biovision Hierarchy]], un format de fichier de capture de mouvement,
* [[Bill l'extraterrestre]], coprésentateur virtuel de télévision animé par capture de mouvement.
* [[Bill l'extraterrestre]], coprésentateur virtuel de télévision animé par capture de mouvement.
Ligne 139 : Ligne 157 :
* [http://www.courte-focale.fr/cinema/dossiers/performance-capture-et-cinema-virtuel/ Dossier sur la capture de jeu]
* [http://www.courte-focale.fr/cinema/dossiers/performance-capture-et-cinema-virtuel/ Dossier sur la capture de jeu]


=== Liens externes ===
{{Palette|Réalité Mixte|}}
{{Liens}}

{{Palette|Réalité Mixte}}
{{Portail|cinéma|animation|jeu vidéo}}
{{Portail|cinéma|animation|jeu vidéo}}



Dernière version du 15 mars 2024 à 10:51

Capture de mouvement
Description de cette image, également commentée ci-après
Un danseur portant une combinaison avec des marqueurs passifs réfléchissants, lors d'une capture optique de mouvement.
Acronyme mocap
Transcription Motion Capture
Domaine d'application Prise de vues cinématographique
Date de création années 1990
Invention parente chronophotographie

La capture de mouvement[1],[2] (motion capture en anglais, parfois abrégé en mocap) est une technique permettant d'enregistrer les positions et rotations d'objets ou de membres d'êtres vivants, pour en contrôler une contrepartie virtuelle sur ordinateur (caméra, modèle 3D, ou avatar). Une restitution visuelle de ces mouvements en temps réel est faite via le moteur de rendu 3D de l'application interfacée avec le matériel utilisé qui peut les stocker dans un fichier d'animation de type BVH pour être traités ultérieurement dans un logiciel 3D classique (Maya, 3dsMax, XSI, Cinema4d, etc.) ; ou bien, via un plugin vers MotionBuilder, logiciel spécialisé dans le traitement, l'édition, le filtrage ou l'exportation de ces animations.

Histoire[modifier | modifier le code]

Les lointaines origines de cette technique peuvent être retrouvées chez Étienne-Jules Marey sous le nom de chronophotographie[3] qu'il a initialement développée dans un cadre médical pour analyser ce qu'il appelle poétiquement la machine animale[4], mais surtout ce sont ses dispositifs pneumatiques qui anticipent sur la capture de mouvement. En effet, il fixe sur des chaussures préparées spécialement à cet effet qu’il appelle des « chaussures exploratrices », des tuyaux qui conduisent la pression exercée sur ces dispositifs jusqu’à un enregistreur à stylet et noir de fumée, porté parfois, lorsque le sujet est en mouvement, directement par lui[5]. L'enregistreur détermine ainsi, et enregistre les directions et intensités des mouvements exécutés.

Le clavier et la souris sont les premiers périphériques de capture de mouvement, mais les premiers systèmes sophistiqués ont été développés dans les années 1980 pour l'armée (capteurs pour simulateurs d'aviation), puis pour des analyses physiologiques médicales, scientifiques ou sportives (orthopédie, traumatologie, rééducation, et, plus généralement, biomécanique). Elle est depuis 1990 employée pour produire des films en images de synthèse (Total Recall), des effets spéciaux pour la télévision, ou des performances artistiques en théâtre ou en danse. Le premier comédien virtuel animé par cette technique date de 1993.

Mais son marché principal reste le jeu vidéo. En effet, les mouvements réalistes générés par ces systèmes sont bien adaptés aux jeux sportifs ou guerriers, ce qui n'est pas le cas du dessin animé dont la référence reste les animations exagérées ou expressives traditionnelles de Disney ou de Tex Avery, qui sont toujours réalisées avec les techniques manuelles par images-clés (keyframing (en) en anglais).

Depuis le début des années 2000 s'est développée une technique plus complexe, la capture de jeu (performance capture) qui saisit de manière synchronisée les mouvements du corps, les expressions du visage (facial motion capture (en) en anglais) et les mouvements des doigts. Auparavant, ces saisies étaient réalisées séparément.

On distingue quatre grands types de technologies pour la capture de mouvement : optiques, mécaniques, magnétiques et gyroscopiques.

Principe[modifier | modifier le code]

Une salle d'enregistrement dédiée à la capture de mouvement, équipée de plateformes sensibles aux pressions et de caméras infrarouge.
Un système de marqueurs actifs de haute résolution fournit en temps réel des positions infra-millimétriques.
Plusieurs marqueurs positionnés sur le visage d'un acteur durant une séance de capture optique de mouvement facial.
Une combinaison de chronophotographie inventée par Étienne-Jules Marey en 1891. On peut voir les marqueurs sur la jambe, le bras et la tête.
Le résultat de la chronophotographie avec la combinaison ci-dessus.

Tous les systèmes de capture de mouvement du corps humain sont constitués d'un dispositif matériel (capteurs, caméras USB ou réseau de caméras ethernet) relié à une application serveur dont le rôle est d'extraire les données brutes matérielles pour les traiter (filtrage, calculs géométriques et d'interpolation) puis les stocker ou les transmettre en temps réel à une application cliente universelle de visualisation, généralement MotionBuilder. Ce logiciel (développé à l'origine par la société Kaydara, rachetée aux environs de 2008 par Autodesk) est devenu un standard industriel puisqu'il interface via plugin la quasi-totalité des systèmes professionnels, et que son format FBX (pour FilmBoX, nom originel du logiciel) a été imposé comme standard d'échange et d'animation entre 3dsMax, Maya et XSI.

Capture optique[modifier | modifier le code]

Basée sur caméras infrarouges et marqueurs passifs réfléchissants[modifier | modifier le code]

Dans la plupart des systèmes, on pose des marqueurs sur l'acteur à des endroits du corps caractéristiques, généralement près des articulations, et ce sont des images noires et blanches (2 bits) de ces points qui sont captées, et non les images du corps de l'acteur. Les caméras émettent un rayonnement infrarouge, réfléchi par les marqueurs dont la surface est composée d'une matière réfléchissante, puis renvoyé à ces mêmes caméras. Celles-ci ne sont sensibles qu'à un type de longueur d'onde et affichent les marqueurs sous forme de points blancs (ou en niveau de gris pour les caméras plus récentes). Puis, à partir du traitement d'image d'un minimum de 2 caméras, les positions dans le repère spatial des marqueurs sont déduites par triangulation. Le logiciel doit aussi traquer les marqueurs, c'est-à-dire : les inscrire dans une liste de suivi d'identification à partir de la T-pose (position en T initiale de l'acteur) ; gérer les occlusions (quand un membre, ou un autre acteur dans le cas de systèmes à acteurs multiples, vient cacher un marqueur à la vue d'une ou plusieurs caméras) ; enfin gérer le swapping (problème de la confusion ou de l'échange accidentel dans l'identification de deux marqueurs, par exemple deux mains qui passent près l'une de l'autre). Vient ensuite la phase de reconnaissance des corps rigides (rigid body) : au moment de l'initialisation de la session de capture par le technicien en charge, celui-ci a réalisé manuellement des groupes de 2 à 4 marqueurs, fixes les uns par rapport aux autres (par exemple, autour du haut du crâne) et qui servent à calculer la rotation d'un membre (en effet, un marqueur en lui-même étant un point, celui-ci ne contient pas d'information de rotation). De trente (pour des systèmes bas de gamme) à deux cent cinquante fois par seconde, cette séquence de traitement est appliquée à un squelette virtuel, c'est-à-dire une hiérarchie d'os dont les positions et rotations sont contrôlés par les corps rigides associés. L'instantané de ce squelette est stocké dans un fichier, soit au format « propriétaire » du système, soit au format du standard industriel BVH (de la société Biovision) ; ou bien envoyé en temps réel via un canal de communication du type TCP/IP au logiciel MotionBuilder. Ce logiciel contient un moteur de rendu 3D temps réel au format OpenGL, capable de déformer un modèle 3D de personnage en associant le squelette de celui-ci aux informations du squelette capté. Le réalisme du mouvement dépend de multiples facteurs : qualité du marker set (nombres de marqueurs et de bones utilisés), vitesse d'échantillonnage (des mouvements rapides de l'acteur génèrent des images floues, et donc des positions de marqueurs moins précises), performance des filtres logiciels permettant de réduire le bruit, etc.

Ces systèmes impliquent également la prise en compte de problèmes optiques complexes comme la parallaxe, la distorsion des lentilles utilisées, etc. Le signal capté subit donc de nombreuses déformations, et la phase d’étalonnage est cruciale pour obtenir une bonne précision des données.

Les principaux acteurs sur le marché des systèmes optiques sont: la société Qualisys (Suède), la société Vicon (Grande-Bretagne), la société MotionAnalysis (États-Unis) et la société OptiTrack (Chine).

Basée sur un réseau de caméras vidéo, sans marqueurs[modifier | modifier le code]

Des dispositifs de capture sans marqueurs, professionnels et de haute qualité, sont développés depuis le milieu des années 2010. Ils s'appuient principalement sur l'analyse automatisée d'images en utilisant sur la technologie du Machine learning qui leur permet de repérer des points anatomiques de manière automatique, après y avoir été entraînés (par le constructeur de la solution, livrée prête à l'emploi, ou par l'utilisateur, selon les cas).

Basée sur caméras, sans marqueurs, à usage facial.[modifier | modifier le code]

La technologie sans marqueurs utilise le concept de 'depthmap', une surface à niveaux reconstruite suivant divers procédés optiques, qui n'est pas à proprement parler un modèle 3D classique (fait de sommets, d'arêtes et de polygones) mais de Voxel voxels, objets hybrides entre le pixel et le vecteur, sorte de nuage de cubes de couleur positionnés dans l'espace. Appliquée au corps, on utilise ce volume approximatif pour en extraire une configuration du squelette virtuel. Appliquée à la capture faciale, on la compare à une liste d'expressions d'un modèle 3D de visage (morph target pour 3dsMax ou blend shape pour Maya).

Basée sur la technologie Kinect[modifier | modifier le code]

La Kinect est un dispositif de capture dont la technologie sophistiquée est utilisée pour des applications ludiques grand public. Une trame de lumière infrarouge est projetée sur les objets, image que le capteur va traiter pour en reconstituer la profondeur (plus un point infrarouge est gros, plus il est près). À la différence des systèmes optiques traditionnels avec marqueurs, cette technique permet de n'utiliser qu'une seule caméra. Conçue à l'origine pour la Xbox, ce périphérique a très vite été détourné pour fonctionner sur PC, puis officiellement par Microsoft avec Kinect for Windows.

  1. La société DEM sas commercialise une solution de capture Kinect interfacée avec son logiciel MATVISIO qui permet de prévenir et réduire les risques de troubles Musculo-squelettiques.
  2. Le programmeur Jasper Brekelmans offre depuis 2010 une version mono-acteur gratuite avec drivers non officiels, et bientôt une version payante multi-acteurs, interfacée avec MotionBuilder et développée avec les drivers Microsoft.
  3. Le développeur russe iPi, connu pour son offre commerciale à très bas coût[réf. nécessaire], commercialise une version de son logiciel sans marqueurs iPi MocapStudio pour la Kinect, webcam ou caméras vidéo Sony rapides. Pas de temps réel, pas de plugin pour MotionBuilder, seulement un export au format BVH.
  4. La société Reallusion commercialise une solution de capture Kinect pour son logiciel d'animation grand public IClone.
  5. La société Kinemocap commercialise une solution de capture Kinect interfacée avec le logiciel XSI d'Autodesk.
  6. La société FaceShift commercialise une solution de tracking facial de haute qualité pour Kinect interfacée avec MotionBuilder.

Basée sur des cellules photosensibles et marqueurs actifs[modifier | modifier le code]

Avec ce type de technologie, la capture optique est basée sur la prise de vue synchronisée de trois cellules photosensibles sur une même unité de mesure. La synthèse des coordonnées (x,y,z) se fait donc immédiatement en temps réel par une seule et même unité dont chaque cellule voit l'objet sous différents angles permettant d'en déduire ses coordonnées (x,y,z).

Cette méthode bien que moins sensible, prend en compte les problèmes optiques complexes comme la parallaxe, mais n'utilise pas de lentilles contrairement aux caméras. Le signal émis par des marqueurs actifs (micro-DEL) est filtré à travers une paroi traitée à cet effet et plate (pas de problème de distorsion d'image) et capté directement par les cellules photosensibles en même temps. Aucun calibrage n'est nécessaire, puisque les trois cellules du système sont fixées d'origine dans une structure rigide puis précalibrées à l'aide d'une batterie de tests dynamiques d'une redoutable précision après assemblage. Cette technique et les précautions qui entourent la mise en service de ces unités de mesure permettent le calcul des coordonnées 3D de chaque émetteur actif ou marqueur actif dans le volume de capture avec une très grande précision.

Le principe de fonctionnement est donc celui « d'émetteur-récepteur » : les marqueurs actifs émettent directement un signal infrarouge captés par les cellules photosensibles. Celles-ci ne sont sensibles qu'à un type de longueur d'onde et identifient les marqueurs actifs en temps réel grâce à une séquence d'émission multicomplexe. Ces marqueurs sont donc identifiés automatiquement et immédiatement en temps réel comme étant des points dynamiques avec des coordonnées 3D dans l'espace virtuel.

Capture mécanique[modifier | modifier le code]

La capture mécanique fonctionne grâce à un exosquelette construit autour de l'élément à capter, et dont chaque articulation est couplée à un codeur angulaire. La valeur de rotation du codeur est enregistrée par un calculateur. En connaissant la position relative de chaque codeur, un logiciel est capable de reconstituer le mouvement complexe d'un squelette constitué en général de plusieurs articulations. On applique également un décalage pour chaque codeur, car il n'est souvent pas possible de faire coïncider exactement la position du codeur avec celle de l'articulation réelle (surtout dans le cadre d'une capture d'un mouvement d'humain).

Si cette technique offre une grande précision et une grande rapidité, elle est cependant limitée par les contraintes mécaniques inhérentes à la mise en place des codeurs et de l'exosquelette. En effet, la liberté de mouvement n'est pas aussi importante qu'avec des systèmes de capture optique à boules réfléchissantes. De plus, ces exosquelettes utilisent souvent des connexions filaires qui relient les codeurs au calculateur. La précision de la reproduction d'un mouvement est de plus conditionnée par celle de la modélisation du squelette, qui résulte directement de la mesure des positions relatives entre chaque codeur.

Il faut d'autre part adapter la taille de l'exosquelette à chaque morphologie. Enfin, un exosquelette pèse en général plus lourd que des boules réfléchissantes. La capture mécanique ne permet de reproduire que des mouvements relatifs entre codeurs, mais ne permet pas de positionner le squelette dans un univers de manière absolue. Il faut utiliser des méthodes de triangulation optique pour placer précisément l'animation dans un univers.

Il faut autant d'exosquelettes de captation que de personnages à animer, et il est peu aisé de capturer les interactions entre plusieurs personnages, ou d'un personnage avec des objets.

Les avantages de la capture mécanique sont la précision de la mesure (un codeur optique peut comporter plusieurs centaines de milliers de traits par tour), la rapidité du fait de la connexion filaire, et l'insensibilité aux facteurs extérieurs. Elle est cependant peu adaptée à la capture du mouvement humain.

Par contre elle convient bien à des systèmes robotiques, où les éléments mobiles sont rigides, comme des bras robots à multi-axes, ou à des objets dont le rayon d'action est limité (à cause de la contrainte de la connexion filaire).

Capture magnétique[modifier | modifier le code]

La capture magnétique repose sur la création d'un champ électromagnétique en un point réel, qui aura pour coordonnées (0,0,0) en x, y et z dans sa représentation virtuelle, et que l'on nomme « antenne », ainsi que sur l'introduction de « capteurs » dans ce champ électromagnétique.

Ces capteurs sont en fait des bobines de fils électriques perturbant le champ magnétique, et dont le calcul des différences de potentiel avec l'antenne traduit à la fois leurs positions et leurs orientations.

Le principal avantage de cette méthode est que les signaux captés sont très peu interprétés, aucune interpolation n'est effectuée hors du calcul même de la position et de l'orientation des capteurs.

Cependant, tout objet métallique constituant une boucle (loop) inclus dans le champ, et plus généralement toute distorsion électromagnétique, conduira à un « tremblement » des données captées, les rendant ainsi pratiquement inutilisables. Par contre, ces tremblements peuvent être éliminés assez facilement par l'utilisation de logiciels tels que « MotionBuilder.

Capture par centrales inertielles[modifier | modifier le code]

La capture par centrales inertielles ou gyroscopiques permet l'acquisition de l'attitude du corps humain en temps réel, par rotation de ses membres, en supprimant les contraintes imposées par les technologies optiques (occlusion et swapping). En effet, ces capteurs continuent à fonctionner même cachés par d'autres acteurs, habits ou accessoires. Par contre, ceux-ci n'enregistrent pas leur position, qui doivent être réalisées avec d'autres capteurs ou par keyframing (un cycle de marche capturé fera donc du sur-place). Systèmes légers et portables, câblés ou sans-fil, ils peuvent cependant perdre de la précision sur de longues captures (accumulation d'erreurs).

Facial motion capture et capture de jeu[modifier | modifier le code]

La facial motion capture[6], également appelée face tracking (litt. « capture d'expressions faciales ») est une évolution de la capture de mouvement. Elle s'inscrit dans une technique plus générale appelée « capture de jeu » (performance capture), qui a été développée par le réalisateur Robert Zemeckis (dont le film Le Pôle express sera le premier à être tourné intégralement selon ce procédé). Cette technique permet de prendre en compte, en plus des mouvements corporels généraux, des mouvements plus subtils comme les expressions faciales ou les mouvements des mains.

Mais ce qui différencie surtout la capture de jeu de la capture de mouvement, c'est que, plus qu'une amélioration technique, il s'agit avant tout d'une méthode de travail. L'acteur est en effet placé au cœur de ce procédé qui l'autorise à jouer sans aucune contrainte technique (emplacement, décors, éclairage...). Ce n'est qu'ensuite, et en fonction de la performance ainsi enregistrée, que les différentes étapes de fabrication du film seront exécutées, permettant d'effectuer le montage, de régler les mouvements de caméra ou le cadrage, d'ajuster l'éclairage, de choisir les décors, sans ordre préétabli et sans contrainte. Le réalisateur est ainsi libre de tester une infinité de configurations avant d'opter pour celle qu'il décidera d'inclure dans son film, chose impossible lors d'un tournage classique.

Du point de vue de l'acteur, les possibilités sont tout aussi infinies: un acteur peut ainsi interpréter un personnage d'âge ou d’apparence différentes (Tom Hanks interprète plusieurs rôles dans Le Pôle express, dont celui d'un enfant, et le bedonnant Ray Winstone interprète un héros au physique athlétique dans La Légende de Beowulf), voire des personnages non-humains (dans La Légende de Beowulf, Ray Winstone incarne également le dragon symbolisant la culpabilité du héros, et Kathleen Turner une maison dans Monster House).

Filmographie[modifier | modifier le code]

Il existe une catégorie consacrée à ce sujet : Film tourné en capture de mouvement.

Films intégralement tournés en capture de jeu[modifier | modifier le code]

Films utilisant partiellement la capture de jeu[modifier | modifier le code]

Notes et références[modifier | modifier le code]

  1. « capture de mouvement », Grand Dictionnaire terminologique, Office québécois de la langue française (consulté le ).
  2. [PDF] Commission générale de terminologie et de néologie, « Vocabulaire de la culture et de la communication (liste de termes, expressions et définitions adoptés) », Journal officiel de la République française no 0241 du , p. 17524 [lire en ligne].
  3. Étienne-Jules Marey, « La Chronophotographie : nouvelle méthode pour analyser le mouvement dans les sciences physiques et naturelles », Revue générale des sciences pures et appliquées, no 2,‎ , p. 689-719 (lire en ligne [PDF]).
  4. Marie-France Briselance et Jean-Claude Morin, Grammaire du cinéma, Paris, Nouveau Monde, , 588 p. (ISBN 978-2-84736-458-3), p. 14.
  5. Étienne-Jules Marey, La Machine animale : Locomotion terrestre et aérienne, Germer Baillière, , 299 p. (ISBN 0-543-94599-5), Livre deuxième, chap. II (« Locomotion terrestre (bipèdes) »), p. 116-129.
  6. Appellation anglo-saxonne en l'absence actuelle de termes français officiels.
  7. Making of de Renaissance sur vimeo.com.

Annexes[modifier | modifier le code]

Il existe une catégorie consacrée à ce sujet : Film tourné en capture de mouvement.

Sur les autres projets Wikimedia :

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]