Présentation du cours

 

Introduction
Objectifs d’apprentissage
Durée du cours
Démarche d’apprentissage
Logiciel R
Évaluation des apprentissages
Encadrement

Introduction

Le cours INF 1421 traite de l’apprentissage machine.

L’apprentissage machine (aussi appelé apprentissage artificiel ou automatique, en anglais machine learning) est « le processus par lequel un ordinateur acquiert de nouvelles connaissances et améliore son mode de fonctionnement en tenant compte des résultats obtenus lors de traitements antérieurs » (Office québécois de la langue française, 2010). Ceci permet de regrouper « toutes les méthodes qui permettant de construire un modèle de la réalité à partir de données, soit en améliorant un modèle existant moins général, soit en créant un nouveau modèle représentatif de nouvelles données » [1]. Ces modèles servent souvent à prendre des décisions.

Il existe deux approches principales en apprentissage machine. La première est issue de l’intelligence artificielle syntaxique ou  symbolique. Elle est fondée sur la modélisation du raisonnement logique et sur la représentation et la manipulation de la connaissance par des symboles formels. La deuxième est issue l’intelligence artificielle statistiques; elle est qualifiée de statistique aussi parfois numérique parce que, souvent, la représentation et la manipulation de la connaissance est sous une forme numérique [1]. Le cours INF 1421 s’intéresse à l’apprentissage machine statistique.

[1]  A. Cornuejois and L. Miclet.  Eyrolles.  Apprentissage arti?ciel – Concepts et algorithmes, 2003.

Objectifs d’apprentissage

Dans ce cours, l’accent est mis sur la compréhension des méthodes de classifications de formes et d’apprentissage machine et à leurs applications. Des visualisations statiques et dynamiques du principe de ces méthodes seront utilisées afin de faciliter l’apprentissage des étudiant(e)s. De plus, des exercices pratiques seront réalisés en utilisant le logiciel R pour une meilleure compréhension de ces méthodes. Finalement, des exemples d’applications concrètes seront utilisés pour appuyer les concepts théoriques.

À la fin du cours, l’étudiant(e) aura :

      • Appris les principales techniques d’extraction de caractéristiques d’une forme
      • Acquit les principaux concepts de classification de formes et d’apprentissage machine
      • Appris à concevoir et implanter des systèmes de classification de formes qui se base sur des méthodes d’apprentissage machine.

Durée du cours

135 heures, réparties sur 15 semaines.

Vous pouvez toutefois, si nécessaire, profitez d’un report de la fin du cours. Pour des précisions sur cette possibilité, consultez le Guide des études à distance (p. 36).

Démarche d’apprentissage

Le cours est constitué de sept modules encadrés par une activité de démarrage et une activité de clôture. Chacun des modules traite une technique commune utilisée dans le domaine de l’apprentissage machine.

 

Module 1 : Introduction à l’apprentissage machine

Ce module constitue une introduction générale au cours INF1421 ainsi qu’à une introduction à la classification de formes et l’apprentissage machine. Cette introduction consiste à inviter l’étudiant(e) à se familiariser avec la présentation du cours, à explorer le site web du cours et à entrer en contact avec la personne responsable de son encadrement.

L’introduction au domaine de la classification de formes  et de l’apprentissage  machine comprendra une présentation des différentes composantes d’un système de classifications, des définitions de l’apprentissage par machine (apprentissage supervisé et apprentissage non supervisé) et de l’évaluation d’un système de classification.

Module 2 : Théorie de décision de Bayes

La théorie Bayesienne de décision constitue le fondement théorique de la reconnaissance des formes. Elle porte sur le calcul de la probabilité d’un évènement basé sur une connaissance a priori. Ce module traitera le principe de la règle de décision de Bayes, les notions de pertes et de risque et le classificateur optimal bayésien.

Module 3 : Estimation paramétrique

L’estimation de la densité de probabilité sous-jacente à un ensemble fini d’observations est un problème fondamental en apprentissage machine. On trouve dans la littérature deux types de techniques d’estimations de densité de probabilité : les techniques paramétrique et les techniques non-paramétrique. Les techniques paramétriques d’estimation nécessitent une connaissance préalable sur la loi de probabilité à étudier.

Module 4 : Estimation non paramétriques

Par opposition aux techniques paramétriques, les techniques non paramétriques permettent d’estimer la densité de probabilité directement à partir de l’information disponible sur l’ensemble d’observations. Nous traiterons dans ce module, l’estimation par histogramme, les fonctions de noyaux et l’estimateur des K-plus proche voisins.

Module 5 : Réseaux de neurones

Les réseaux de neurones artificiels ont démontré leur robustesse pour la résolution de problématique complexe en classification de formes. Ce module traitera le perceptron simple, le perceptron multicouche et la carte auto-organisatrice de Kohonen.

Module 6 : Regroupement

Le regroupement (en anglais Clustering) est une méthode de classification automatique fréquemment utilisée. Elle vise à diviser un ensemble de données en différents «groupes» homogènes de sorte que les données de chaque groupe partagent des caractéristiques communes et qui correspondent, souvent, à des critères de proximité. Deux techniques de regroupement seront traitées dans ce module: le regroupement hiérarchique et le regroupement par partitionnement.

Module 7 :  Arbres de décision

Un arbre de décision (en anglais decision tree) est une structure très utilisée en forage de données. Son fonctionnement repose sur des heuristiques construites en se basant sur des techniques d’apprentissage supervisé. Ce module traite des structures d’arbres de décision et des algorithmes de leur construction pour la classification de formes. Plus précisément, il présentera l’algorithme ID3 et l’algorithme CART ainsi que leur avantages et limites.

Logiciel R

Le logiciel R est utilisé tout au long du cours. C’est un environnement de traitement de données et d’analyse statistique de plus en plus utilisé dans les universités, dans les laboratoires de recherche, mais aussi dans les entreprises. La première particularité de ce logiciel est qu’il est gratuit ! (open source)

Vous devez disposer d’une version étudiante R2014b ou ultérieure de ce logiciel afin de réaliser l’ensemble des activités et travaux notés du cours.

Lors de l’activité de démarrage, vous installerez le logiciel R.

Évaluation des apprentissages

L’évaluation des apprentissages repose sur la réalisation de sept tests en ligne, chacun comptant pour 8 % de la note finale et d’un examen comptant pour 44 % de la note finale.

Les tests en ligne sont du type QCM (Questions à choix multiples) dont la correction est automatique. La saisie des notes dans le Portail étudiant est faite par les professeurs responsables après la réalisation de l’examen final . C’est l’un des professeurs responsables du cours ou la personne tutrice qui corrige l’examen final et qui vous communique une évaluation et une rétroaction.

La notation littérale (A, B, C, E) est utilisée pour la note finale, conformément aux règlements des études supérieures de l’Université du Québec.

NB: L’utilisation d’une calculatrice scientifique est permise pendant l’examen. Les calculatrices programmables ne sont pas acceptées.

Notation Valeur numérique Zone
A+ 4,3 90 à 100
A 4,0 85 à 89
A- 3,7 80 à 84
B+ 3,3 77 à 79
B 3,0 73 à 76
B- 2,7 70 à 72
C+ 2,3 66 à 69
C 2,0 60 à 65
E 0 59 et –

Encadrement

Ce cours est conçu en vue d’une démarche d’étude individuelle selon le rythme qui vous convient. Votre encadrement est assuré par une personne tutrice ou la professeure responsable.

Le rôle de la personne tutrice consiste à guider dans votre cheminement dans le cours. Elle peut répondre, entre autres, aux questions relatives aux connaissances abordées dans le cours, aux activités d’apprentissage et aux travaux notés. C’est cette personne qui évalue et commente vos travaux.

La formule d’encadrement prévoit un courriel de démarrage à la première semaine. Cependant, il est recommandé aux personnes dont il s’agit du premier cours à distance de communiquer avec la personne tutrice afin de fixer un rendez-vous téléphonique.

En tout temps, vous pouvez communiquer avec la personne tutrice.