DVPS : repenser l’IA multimodale par l’interaction directe avec le monde réel
Faire progresser la science et l’ingénierie des modèles fondamentaux multimodaux
Son nom, DVPS, pour « Diversibus viis plurima solvo », soit « À travers différents chemins, je résous de multiples problèmes », reflète cette ambition. Là où les modèles actuels restent tributaires de données statiques issues de textes, d’images ou de vidéos, autrement dit de représentations du monde, DVPS entend franchir une étape supplémentaire. En croisant langage, perception spatiale, signaux sensoriels et vision, le projet cherche à rapprocher l’IA d’une forme de compréhension plus ancrée dans le réel.
Marco Trombetti, cofondateur et PDG de Translated, souligne :
« Les grands modèles de langage ont marqué une rupture, mais leurs limites apparaissent : ils reposent sur une architecture figée et apprennent uniquement à partir de contenus statiques créés par l’humain dans le monde numérique. Pour aller plus loin, l’IA doit interagir avec le monde réel, en temps réel. Avec DVPS, nous donnons aux machines la capacité de grandir par l’expérience directe, et de partager instantanément ce qu’elles apprennent entre elles ».
Les modèles fondamentaux multimodaux (MMFM) développés dans le cadre du projet introduiront trois ruptures méthodologiques :
- Efficacité de l’étiquetage : grâce à l’apprentissage par transfert et à l’adaptation en quelques exemples, les modèles pourront être entraînés avec peu de données annotées, réduisant ainsi la dépendance aux jeux de données manuellement labellisés ;
-
Réutilisation du calcul: en capitalisant sur la pré-entraînement à grande échelle, ils permettront de réduire le coût computationnel des applications en aval, ce qui ouvre la voie à un développement plus durable ;
-
Efficacité de l’ingénierie : l’automatisation du design de modèles réduira le besoin d’expertise très spécialisée pour chaque nouvelle tâche ou domaine.
Trois premiers champs d’application : linguistique, cardiologie et géo-intelligence
Dans ce type de configuration, l’être humain mobilise spontanément un faisceau d’indices non verbaux : direction du regard, spatialisation de la voix, orientation du corps. Les systèmes actuels, eux, peinent à reconstituer ce contexte. En combinant vision par ordinateur, analyse du son spatial et interprétation des gestes, les modèles développés par DVPS pourraient ouvrir la voie à des assistants linguistiques capables de mieux s’adapter aux situations réelles.
Un projet structuré autour d’outils-clés
L’objectif final est de constituer des bases scientifiques solides à destination de la communauté de recherche européenne. Pour soutenir cette vision, DVPS concevra trois briques fondamentales :
-
AutoDVPS : une boîte à outils open source pour la conception et l’expansion des MMFM. Elle sera testée dans les trois domaines applicatifs initiaux, ainsi que dans deux domaines non définis à ce stade, une stratégie destinée à évaluer la capacité de généralisation des modèles au-delà de leurs hypothèses de conception.;
-
DVPSBench : une suite d’analyse comparative dédiée à la robustesse, à la performance et aux considérations éthiques de ces modèles ;
-
DVPS-FM : un modèle fondamental formé sur un ensemble massif de modalités diverses.
Le projet prévoit également la publication du manuel “Principes et pratiques du MMFM”, accompagné d’un MOOC visant à former plus de 1 500 apprenants. Afin de stimuler l’innovation et les synergies, 15 collaborations sont envisagées avec d’autres initiatives européennes en IA, ainsi que la création d’un laboratoire de co-innovation réunissant académiques et industriels.
Une dynamique collective au service de la souveraineté technologique européenne
L’équipe fondatrice de DVPS est composée de 70 scientifiques européens de haut niveau spécialisés dans l’IA et issus des partenaires suivants :
Auteur :
Aller à la source