lundi, mai 20
Images successives du processus d’optimisation du programme qui à partir de photos d’une scène, construit une représentation tridimensionnelle, visible de n’importe quel axe de vue. Le « flou » correspond à des approximations mathématiquement représentées par des gaussiennes en trois dimensions.

George Drettakis peut être content de lui. Avec son équipe de l’Institut national de recherche en sciences et technologies du numérique (Inria) à Sophia Antipolis (Alpes-Maritimes), GraphDeco, et un collègue de l’Institut Max Planck d’informatique à Sarrebruck (Allemagne), ils ont mis au point un algorithme qui bat les concurrents des grandes entreprises comme Google et Nvidia, dans un domaine où elles excellent, la vision par ordinateur. Plus particulièrement, ce nouveau programme réalise un vieux rêve : le rendu en trois dimensions de scènes à partir de simples photos.

Autrement dit, quelques clichés d’un objet, d’un bâtiment, d’une foule suffisent pour les voir ensuite sous n’importe quel angle, zoomer, pivoter… Les professionnels des effets spéciaux du cinéma, ceux des jeux vidéo, les architectes pour visualiser leurs projets dans leur environnement, les agences immobilières pour faire visiter des maisons, les ingénieurs roboticiens (pour guider la machine, il vaut mieux avoir les « plans » en trois dimensions)… sont friands d’une telle fonction.

Jusqu’en 2020, des méthodes permettaient de faire ce rendu, mais demandaient beaucoup de temps de calcul pour des résultats assez imprécis (manque de reflets, détails invisibles, « trous »…). Pour commencer, à partir de deux images, prises sous deux angles différents mais ayant des pixels en commun, une carte de profondeur est calculée. Cela génère dans l’espace un nuage de points peu dense, sorte de fantôme diaphane de la scène. Ce nuage est ensuite densifié pour étoffer le fantôme. Puis, étape coûteuse en calcul, un maillage de petits triangles est déduit de ces points, sur lequel les surfaces, couleurs et textures sont appliquées pour générer les formes.

Des démonstrations ludiques

En 2020, une équipe de Google révolutionne le domaine avec sa méthode NeRF, à base de réseaux de neurones artificiels. Cet objet, au cœur de l’intelligence artificielle contemporaine, sert à encoder la scène d’une façon très abstraite. Cet encodage prend du temps, quarante-huit heures de calcul pour les scènes qui servent de référence aux chercheurs pour tester leurs algorithmes, mais la précision des images est bien meilleure.

A l’été 2023, l’équipe de Sofia Antipolis frappe fort avec sa méthode « 3D Gaussian Splatting » ou 3DGS, pour « éclatement de gaussiennes tridimensionnelles ». En trente minutes, elle obtient à partir d’une centaine de photos un modèle tridimensionnel qu’on verra ensuite sous tous les angles à raison de cent images, de grande qualité, par seconde. C’est cent fois plus qu’Instant NGP de Nvidia, qui lui-même fait cent fois mieux que NeRF. « Je n’ai pas pour habitude de me mettre en avant. Mais je ne pensais pas connaître cette situation où, après plus de vingt ans de travail consacré à ce problème, je peux presque dire qu’il est résolu », témoigne George Drettakis, qui insiste sur les financements publics de ce travail (Inria et bourse du Conseil européen de la recherche notamment).

Il vous reste 43.64% de cet article à lire. La suite est réservée aux abonnés.

Partager
Exit mobile version