TL33 INCYBER Détection de malware et machine learning Explorer différents choix de représentati
Le choix de la représentation d’un malware est un élément clé dans la détection basée sur l’apprentissage automatique. Il influence les informations exploitées pour identifier les menaces, ainsi que la précision et l’efficacité des méthodes de détection. Deux approches principales existent : les représentations tabulaires, où les caractéristiques du malware (comme les chaînes de caractères, les imports d’API ou les entropies de sections) sont organisées sous forme de vecteurs, et les représentations basées sur les graphes, qui modélisent les relations entre fonctions, appels système ou flux de données. Ces caractéristiques peuvent être extraites sans exécuter le programme, à partir de son code et de ses métadonnées (analyse statique), ou en observant son comportement lors d’une exécution contrôlée (analyse dynamique).
Si ces méthodes ont été largement étudiées, peu de comparaisons sous des conditions unifiées ont été proposées . Cette présentation explorera ces différentes représentations pour la détection des logiciels malveillants ainsi que de certaines techniques spécifiques comme le packing. Trois aspects sont au cœur de notre analyse : le temps nécessaire pour extraire les caractéristiques, la performance des méthodes de détection et leur résistance aux attaques adversariales.
Allez à la source