Initiation au Machine Learning

Partager ce sujet →

L'apprentissage automatique est étroitement lié à l'intelligence artificielle. / Photo via analyticsinsight.net

L’apprentissage automatique ou apprentissage statistique, plus communément connu sous le nom de Machine Learning, est dans le champ d’étude de l’intelligence artificielle et consiste globalement en l’extraction de connaissances à partir de données. Le Machine Learning sert à repérer des paternes de par l’étude d’un jeu de données et d’en tirer des prédictions en se basant sur des statistiques.

Celle-ci influence la manière dont les recherches basées sur les données sont effectuées. Des sites internet complexes tels qu’Amazon, Netflix ou encore Facebook sont probablement constitués pour chaque partie de leur site de nombreux modèles d’apprentissage automatique. Cette technologie permet aussi de faire des avancées dans plusieurs domaines : comme découvrir de nouvelles particules, analyser des séquences d’ADN et même de fournir des traitements pour des personnes atteintes de cancer. Il existe deux types d’apprentissage pour le Machine Learning que je vais présenter ci-dessous.

Apprentissage supervisé

Dans ce cas, l’algorithme est alimenté par des paires entrée/sortie, par exemple dans le cas de classification de spams, l’utilisateur donne en entrée un grand nombre de mails et en sorties des informations indiquant quels messages sont des spams, ce qui permettra par la suite, de par cette apprentissage qui a permis au modèle la détection de paternes, d’identifier si tel ou tel mail est un spam ou non. 

D’autres problèmes peuvent être résolus par l’utilisation de l’apprentissage supervisé : comme pour déterminer si une tumeur est bénigne à partir d’une image médicale, dans ce cas l’entrée sera l’image et la sortie indiquera si la tumeur est bénigne ou non. Détecter une activité frauduleuse dans des transactions faites par des cartes de crédit peut aussi être un problème résolu par l’apprentissage supervisé, dans ce cas l’entrée sera l’enregistrement d’une transaction effectué avec une carte de crédit et la sortie indiquera si cette transaction est susceptible d’être frauduleuse ou non.

Pour chacun de ces problèmes, la collection de données est à chaque fois extrêmement différent, dans le cas numéro un, la récupération de données nécessite du matériel médical coûteux et aussi une expertise rare est chère puisqu’un expert doit validé le jeu de données. Dans le cas numéro deux, plus simple, ce sont les clients eux-mêmes qui fournissent les sorties dont nous avons besoins en signalant les transactions qui sont frauduleuses.

Apprentissage non-supervisé

Dans ce cas, seules les données d’entrées sont déterminées et aucune sortie connue n’est fournie à l’algorithme. Les problèmes que peut résoudre l’apprentissage supervisé sont par exemple d’identifier des sujets dans des articles sur un blog ou un forum, de par une vaste collection de données textuels nous pouvons souhaiter en faire une compilation afin d’en extraire les thèmes les plus répandus. Avec l’apprentissage non supervisé nous pouvons aussi détecter des séries d’accès anormaux à un site Web, pour cela il y a juste à observer le trafic et on ne sait pas à l’avance s’il s’agit d’un comportement normal ou anormal on parle bien d’un problème non supervisé.

Pour utiliser ces algorithmes de Machine Learning il faut donc une base de données fiable et une représentation des données d’entrées que l’ordinateur comprend à savoir généralement sous forme de tableau. Cette technologie permet des avancées dans de nombreux domaines, elle a notamment un rôle à jouer dans la crise sanitaire actuelle.

Découvrez-en plus sur certaines notions du Machine Learning dans le livre ci-dessous.

Sources : easiware.com / ia-data-analytics.fr / wikipedia.fr