Apprentissage machine

L’apprentissage automatique (ML) est un domaine de l’intelligence artificielle qui utilise des techniques statistiques pour donner aux systèmes informatiques la possibilité « d’apprendre » (par exemple, d’améliorer progressivement les performances d’une tâche spécifique) à partir de données, sans être explicitement programmé.

L’appellation machine learning a été inventée en 1959 par Arthur Samuel. L’apprentissage automatique explore l’étude et la construction d’algorithmes pouvant tirer des leçons de données et les prédire – ces algorithmes sont dépassés en suivant des instructions de programme strictement statiques en faisant des prédictions ou des décisions basées sur des données, en construisant un modèle à partir d’échantillons d’entrées. L’apprentissage automatique est utilisé dans une gamme de tâches informatiques où la conception et la programmation d’algorithmes explicites avec de bonnes performances sont difficiles ou impossibles à réaliser; Les exemples d’applications incluent le filtrage des e-mails, la détection des intrus sur le réseau et la vision par ordinateur.

L’apprentissage automatique est étroitement lié aux statistiques de calcul (qui chevauchent souvent celles-ci), qui se concentre également sur la prédiction via l’utilisation d’un ordinateur. Il est étroitement lié à l’optimisation mathématique, qui fournit des méthodes, de la théorie et des domaines d’application au terrain. L’apprentissage automatique est parfois confondu avec l’exploration de données, où ce dernier sous-champ se concentre davantage sur l’analyse exploratoire de données et est appelé apprentissage non supervisé.

Dans le domaine de l’analyse de données, l’apprentissage automatique est une méthode utilisée pour concevoir des modèles et des algorithmes complexes qui se prêtent à la prédiction. en utilisation commerciale, on parle d’analyse prédictive. Ces modèles analytiques permettent aux chercheurs, aux scientifiques, aux ingénieurs et aux analystes de «produire des décisions et des résultats fiables et reproductibles» et de découvrir des «informations cachées» en tirant parti des relations et des tendances historiques des données.

Vue d’ensemble
Tom M. Mitchell a fourni une définition plus formelle, largement citée, des algorithmes étudiés dans le domaine de l’apprentissage automatique: « Un programme informatique apprendrait de l’expérience E en ce qui concerne une classe de tâches T et la mesure de performance P si sa performance à des tâches dans T, mesurée par P, s’améliore avec l’expérience E.  » Cette définition des tâches liées à l’apprentissage automatique offre une définition fondamentalement opérationnelle plutôt que de définir le champ en termes cognitifs. Cela fait suite à la proposition d’Alan Turing dans son article « Computing Machinery and Intelligence », dans lequel la question « Les machines peuvent-elles penser? » est remplacée par la question « Les machines peuvent-elles faire ce que nous (en tant qu’entités pensantes) pouvons faire? ». Dans la proposition de Turing, les diverses caractéristiques pouvant être possédées par une machine à penser et les diverses implications de sa construction sont exposées.

Tâches d’apprentissage machine

Les tâches d’apprentissage automatique sont généralement classées en plusieurs grandes catégories:

Apprentissage supervisé: l’ordinateur présente des exemples d’entrées et leurs sorties souhaitées, données par un « enseignant ». Le but est d’apprendre une règle générale mappant les entrées aux sorties. En tant que cas particulier, le signal d’entrée peut être seulement partiellement disponible ou limité à un retour spécial.
Apprentissage semi-supervisé: l’ordinateur ne reçoit qu’un signal de formation incomplet: un ensemble de formation avec certaines sorties (souvent nombreuses) manquantes.
Apprentissage actif: l’ordinateur ne peut obtenir des étiquettes de formation que pour un nombre limité d’instances (en fonction d’un budget) et doit également optimiser le choix des objets pour lesquels acquérir des étiquettes. Lorsqu’ils sont utilisés de manière interactive, ils peuvent être présentés à l’utilisateur pour étiquetage.
Apprentissage non supervisé: aucun libellé n’est attribué à l’algorithme d’apprentissage, le laissant seul pour trouver une structure dans son entrée. L’apprentissage non supervisé peut être un objectif en soi (découverte de structures cachées dans les données) ou un moyen de parvenir à une fin (apprentissage par les fonctionnalités).
Apprentissage par renforcement: Les données (sous forme de récompenses et de punitions) ne sont données que comme des informations en retour sur les actions du programme dans un environnement dynamique, comme conduire un véhicule ou jouer à un jeu contre un adversaire.

Applications d’apprentissage automatique
Une autre catégorisation des tâches d’apprentissage machine apparaît lorsque l’on considère le résultat souhaité d’un système appris par machine:
Dans la classification, les entrées sont divisées en deux classes ou plus, et l’apprenant doit créer un modèle qui assigne des entrées invisibles à une ou plusieurs (classification multi-étiquettes) de ces classes. Ceci est généralement abordé de manière supervisée. Le filtrage du courrier indésirable est un exemple de classification dans lequel les entrées sont des courriers électroniques (ou autres) et les classes sont du « spam » et « pas du spam ».
Dans la régression, également un problème supervisé, les sorties sont continues plutôt que discrètes.
Dans le clustering, un ensemble d’entrées doit être divisé en groupes. Contrairement à la classification, les groupes ne sont pas connus à l’avance, ce qui en fait généralement une tâche non supervisée.
L’estimation de la densité trouve la distribution des entrées dans un espace.
La réduction de dimensionnalité simplifie les entrées en les mappant dans un espace de dimension inférieure. La modélisation de sujets est un problème connexe, dans lequel un programme reçoit une liste de documents en langage humain et est chargé de déterminer quels documents couvrent des sujets similaires.

Parmi les autres catégories de problèmes d’apprentissage automatique, apprendre à apprendre apprend son propre biais inductif basé sur l’expérience précédente. L’apprentissage par le développement, élaboré pour l’apprentissage par robot, génère ses propres séquences (également appelées curriculum) de situations d’apprentissage pour acquérir de manière cumulative des répertoires de compétences nouvelles par le biais d’une auto-exploration autonome et d’une interaction sociale avec des enseignants humains et de mécanismes d’orientation tels que l’apprentissage actif, la maturation, la motricité. les synergies et l’imitation.

Histoire et relations avec d’autres domaines
Arthur Samuel, un pionnier américain dans le domaine des jeux sur ordinateur et de l’intelligence artificielle, a inventé le terme « Machine Learning » en 1959 alors qu’il était chez IBM. En tant que projet scientifique, l’apprentissage automatique est né de la quête de l’intelligence artificielle. Déjà au début de l’IA en tant que discipline universitaire, certains chercheurs souhaitaient que les machines tirent des enseignements des données. Ils ont essayé d’aborder le problème avec diverses méthodes symboliques, ainsi qu’avec ce que l’on appelait alors des « réseaux de neurones »; il s’agissait pour la plupart de perceptrons et d’autres modèles qui ont par la suite été réinventés par les modèles statistiques linéaires généralisés. Le raisonnement probabiliste a également été utilisé, en particulier dans le diagnostic médical automatisé.

Cependant, l’accent mis de plus en plus sur l’approche logique, basée sur la connaissance, a entraîné une rupture entre l’intelligence artificielle et l’apprentissage automatique. Les systèmes probabilistes étaient en proie à des problèmes théoriques et pratiques d’acquisition et de représentation des données. En 1980, les systèmes experts en étaient venus à dominer l’IA, et les statistiques étaient en mauvaise posture. Les travaux sur l’apprentissage symbolique / basé sur les connaissances se poursuivaient au sein de l’IA, conduisant à la programmation de la logique inductive, mais la ligne de recherche la plus statistique dépassait maintenant le domaine de l’IA proprement dite, à savoir la reconnaissance des formes et la recherche d’informations. La recherche sur les réseaux de neurones avait été abandonnée par l’IA et l’informatique à peu près au même moment. Cette ligne a également été poursuivie en dehors du domaine de l’intelligence artificielle / de la sécurité, sous le nom de « connexionnisme », par des chercheurs d’autres disciplines, notamment Hopfield, Rumelhart et Hinton. Leur principal succès est venu au milieu des années 1980 avec la réinvention de la rétropropagation.

L’apprentissage automatique, réorganisé en tant que domaine distinct, a commencé à prospérer dans les années 1990. Le domaine a changé son objectif: passer de l’intelligence artificielle à la résolution de problèmes pratiques résolus. Elle s’est détournée des approches symboliques héritées de l’IA pour se tourner vers des méthodes et des modèles empruntés à la statistique et à la théorie des probabilités. Il a également tiré parti de la disponibilité croissante d’informations numérisées et de la possibilité de les diffuser via Internet.

L’apprentissage automatique et l’exploration de données utilisent souvent les mêmes méthodes et se chevauchent de manière significative, mais si l’apprentissage automatique est axé sur la prédiction, sur la base des propriétés connues apprises à partir des données de formation, l’exploration de données est axé sur la découverte de propriétés (précédemment) inconnues dans les données (c’est-à-dire l’étape d’analyse de la découverte des connaissances dans les bases de données).L’exploration de données utilise de nombreuses méthodes d’apprentissage machine, mais avec des objectifs différents; d’autre part, l’apprentissage automatique utilise également des méthodes d’exploration de données en tant qu ‘ »apprentissage non supervisé » ou d’étape de prétraitement visant à améliorer la précision de l’apprenant. Une grande partie de la confusion entre ces deux communautés de recherche (qui organisent souvent des conférences et des revues distinctes, à l’exception du PKDD du CELV) provient des hypothèses de base avec lesquelles elles travaillent: dans l’apprentissage machine, la performance est généralement évaluée en fonction de la capacité à reproduire des connaissances connues, tandis que dans la découverte de connaissances et l’exploration de données (KDD), la tâche clé est la découverte de connaissances précédemment inconnues. Évaluée par rapport aux connaissances connues, une méthode non informée (non supervisée) sera facilement surclassée par d’autres méthodes supervisées, tandis que dans une tâche KDD typique, les méthodes supervisées ne peuvent pas être utilisées en raison de l’indisponibilité des données de formation.

L’apprentissage automatique a également des liens étroits avec l’optimisation: de nombreux problèmes d’apprentissage sont formulés sous forme de minimisation de certaines fonctions de perte dans un ensemble d’exemples de formation. Les fonctions de perte expriment la discordance entre les prédictions du modèle en formation et les cas réels (par exemple, en classification, on veut attribuer une étiquette à des instances, et les modèles sont formés pour prédire correctement les étiquettes pré-attribuées d’un ensemble de exemples). La différence entre les deux champs provient de l’objectif de généralisation: alors que les algorithmes d’optimisation permettent de minimiser la perte sur un ensemble d’apprentissage, l’apprentissage automatique se préoccupe de minimiser la perte sur des échantillons invisibles.

Relation à la statistique
L’apprentissage automatique et les statistiques sont des domaines étroitement liés. Selon Michael I. Jordan, les notions de machine learning, allant des principes méthodologiques aux outils théoriques, ont une longue pré-histoire en statistiques. Il a également suggéré d’utiliser le terme science des données comme espace réservé pour appeler le champ dans son ensemble.

Leo Breiman a distingué deux paradigmes de modélisation statistique: le modèle de données et le modèle algorithmique, le terme « modèle algorithmique » désignant plus ou moins les algorithmes d’apprentissage automatique tels que la forêt aléatoire.

Certains statisticiens ont adopté des méthodes d’apprentissage automatique, menant à un domaine combiné appelé apprentissage statistique.

Théorie
Un objectif essentiel de l’apprenant est de généraliser à partir de son expérience. La généralisation dans ce contexte est la capacité d’une machine à apprendre à exécuter avec précision des nouveaux exemples / tâches invisibles après avoir expérimenté un jeu de données d’apprentissage.Les exemples de formation proviennent d’une distribution de probabilité généralement inconnue (considérée comme représentative de l’espace des occurrences) et l’apprenant doit construire un modèle général sur cet espace lui permettant de produire des prédictions suffisamment précises dans les nouveaux cas.

L’analyse informatique d’algorithmes d’apprentissage automatique et de leurs performances est une branche de l’informatique théorique appelée théorie de l’apprentissage informatique. Étant donné que les ensembles de formation sont finis et que l’avenir est incertain, la théorie de l’apprentissage ne fournit généralement aucune garantie quant à la performance des algorithmes. Au lieu de cela, les limites probabilistes sur la performance sont assez courantes. La décomposition biais – variance est un moyen de quantifier l’erreur de généralisation.

Pour obtenir les meilleures performances possibles dans le contexte de la généralisation, la complexité de l’hypothèse doit correspondre à la complexité de la fonction sous-jacente aux données. Si l’hypothèse est moins complexe que la fonction, le modèle sous-exploite les données. Si la complexité du modèle augmente en réponse, l’erreur d’apprentissage diminue. Mais si l’hypothèse est trop complexe, le modèle est sujet à un surajustement et la généralisation sera plus pauvre.

Outre les limites de performance, les théoriciens de l’apprentissage informatique étudient la complexité temporelle et la faisabilité de l’apprentissage. Dans la théorie de l’apprentissage informatique, un calcul est considéré comme réalisable s’il peut être effectué en temps polynomial. Il existe deux types de résultats en termes de complexité temporelle. Les résultats positifs montrent qu’une certaine classe de fonctions peut être apprise en temps polynomial. Les résultats négatifs montrent que certaines classes ne peuvent pas être apprises en temps polynomial.

Approches

Apprentissage arbre de décision
L’apprentissage de l’arbre de décision utilise un arbre de décision en tant que modèle prédictif, qui associe les observations relatives à un élément aux conclusions relatives à la valeur cible de l’élément.

Apprentissage des règles d’association
L’apprentissage de règles d’association est une méthode permettant de découvrir des relations intéressantes entre des variables dans de grandes bases de données.

Réseaux de neurones artificiels
Un algorithme d’apprentissage de réseau de neurones artificiels (RNA), généralement appelé « réseau de neurones » (NN), est un algorithme d’apprentissage qui est vaguement inspiré par les réseaux de neurones biologiques. Les calculs sont structurés en termes de groupe interconnecté de neurones artificiels, traitant des informations en utilisant une approche connexionniste du calcul. Les réseaux de neurones modernes sont des outils de modélisation de données statistiques non linéaires. Ils sont généralement utilisés pour modéliser des relations complexes entre les entrées et les sorties, pour rechercher des modèles dans les données ou pour capturer la structure statistique dans une distribution de probabilité conjointe inconnue entre les variables observées.

L’apprentissage en profondeur
La chute des prix du matériel et la mise au point de GPU à usage personnel au cours des dernières années ont contribué à la mise au point du concept d’apprentissage en profondeur qui consiste en plusieurs couches cachées dans un réseau de neurones artificiels. Cette approche tente de modéliser la façon dont le cerveau humain transforme la lumière et le son en vision et en audition.Certaines applications réussies de l’apprentissage en profondeur sont la vision par ordinateur et la reconnaissance de la parole.

Programmation logique inductive
La programmation logique inductive (ILP) est une approche d’apprentissage des règles utilisant la programmation logique comme représentation uniforme pour des exemples d’entrée, des connaissances de base et des hypothèses. Étant donné le codage des connaissances de base connues et un ensemble d’exemples représentés sous la forme d’une base de données logique, un système ILP dérive un programme logique hypothétique qui comprend tous les exemples positifs et non négatifs. La programmation inductive est un domaine connexe qui considère tout type de langage de programmation pour représenter des hypothèses (et pas seulement la programmation logique), tels que les programmes fonctionnels.

Machines à vecteurs de support
Les machines à vecteurs de support (SVM) sont un ensemble de méthodes d’apprentissage supervisé associées utilisées pour la classification et la régression. À partir d’un ensemble d’exemples d’apprentissage, chacun étant identifié comme appartenant à l’une des deux catégories, un algorithme d’apprentissage SVM crée un modèle qui prédit si un nouvel exemple tombe dans une catégorie ou dans une autre.

Clustering
L’analyse en grappes consiste à attribuer un ensemble d’observations à des sous-ensembles (appelés grappes), de sorte que les observations d’une même grappe soient similaires en fonction de critères prédéfinis, alors que les observations tirées de grappes différentes sont différentes.Différentes techniques de regroupement font différentes hypothèses sur la structure des données, souvent définies par une métrique de similarité et évaluées par exemple par leur compacité interne (similarité entre les membres d’un même cluster) et la séparation entre différents clusters. D’autres méthodes sont basées sur la densité estimée et la connectivité graphique. Le clustering est une méthode d’apprentissage non supervisé et une technique courante d’analyse statistique des données.

Réseaux bayésiens
Un réseau bayésien, un réseau de croyances ou un modèle graphique acyclique dirigé est un modèle graphique probabiliste qui représente un ensemble de variables aléatoires et leurs indépendances conditionnelles via un graphe acyclique dirigé (DAG). Par exemple, un réseau bayésien pourrait représenter les relations probabilistes entre les maladies et les symptômes.Compte tenu des symptômes, le réseau peut être utilisé pour calculer les probabilités de présence de diverses maladies. Il existe des algorithmes efficaces qui effectuent l’inférence et l’apprentissage.

Apprentissage de la représentation
Plusieurs algorithmes d’apprentissage, principalement des algorithmes d’apprentissage non supervisés, visent à découvrir de meilleures représentations des entrées fournies lors de la formation. Les exemples classiques incluent l’analyse en composantes principales et l’analyse par grappes. Les algorithmes d’apprentissage de la représentation tentent souvent de conserver les informations dans leurs entrées mais les transforment de manière à les rendre utiles, souvent comme une étape de prétraitement avant la classification ou les prédictions, permettant de reconstruire les entrées provenant de la distribution génératrice de données inconnues, ne pas être nécessairement fidèle pour les configurations qui ne sont pas plausibles sous cette distribution.

Les algorithmes d’apprentissage du distributeur tentent de le faire sous la contrainte que la représentation apprise est de petite dimension. Les algorithmes de codage sparse tentent de le faire sous la contrainte que la représentation apprise est clairsemée (a beaucoup de zéros). Les algorithmes d’apprentissage multilinéaire de sous-espaces visent à apprendre des représentations de faible dimension directement à partir de représentations de tenseurs pour des données multidimensionnelles, sans les transformer en vecteurs (de grande dimension). Les algorithmes d’apprentissage approfondi permettent de découvrir plusieurs niveaux de représentation, ou une hiérarchie de fonctionnalités, avec des fonctionnalités de niveau supérieur, plus abstraites, définies en termes de (ou générant) des fonctionnalités de niveau inférieur. Il a été avancé qu’une machine intelligente est une machine qui apprend une représentation qui démêle les facteurs de variation sous-jacents qui expliquent les données observées.

Similarité et apprentissage métrique
Dans ce problème, la machine d’apprentissage reçoit des paires d’exemples considérés comme similaires et des paires d’objets moins similaires. Il doit ensuite apprendre une fonction de similarité (ou une fonction de mesure de distance) permettant de prédire si de nouveaux objets sont similaires.Il est parfois utilisé dans les systèmes de recommandation.

Apprentissage clairsemé du dictionnaire
Dans cette méthode, une donnée est représentée comme une combinaison linéaire de fonctions de base et les coefficients sont supposés être clairsemés. Soit x une donnée d-dimensionnelle, D soit ad by n matrice, où chaque colonne de D représente une fonction de base. r est le coefficient pour représenter x en utilisant D. Mathématiquement, l’apprentissage par dictionnaire clairsemé signifie  où r est rare. De manière générale, on suppose que n est plus grand que d pour permettre la liberté de représentation.

Apprendre un dictionnaire avec des représentations éparses est fortement NP-difficile et également difficile à résoudre approximativement. K-SVD est une méthode heuristique populaire pour l’apprentissage par dictionnaire clairsemé.

L’apprentissage clairsemé par dictionnaire a été appliqué dans plusieurs contextes. Dans la classification, le problème consiste à déterminer à quelles classes appartient une donnée jamais vue auparavant. Supposons qu’un dictionnaire pour chaque classe a déjà été construit. Ensuite, une nouvelle donnée est associée à la classe, de sorte qu’elle est mieux représentée par le dictionnaire correspondant. L’apprentissage par dictionnaire clairsemé a également été appliqué au débruitage d’images. L’idée clé est qu’un patch d’image propre peut être représenté de manière parcimonieuse par un dictionnaire d’images, mais pas le bruit.

Algorithmes génétiques
Un algorithme génétique (AG) est une heuristique de recherche qui imite le processus de sélection naturelle et utilise des méthodes telles que la mutation et le croisement pour générer un nouveau génotype dans l’espoir de trouver de bonnes solutions à un problème donné. Dans l’apprentissage automatique, les algorithmes génétiques ont trouvé quelques utilisations dans les années 1980 et 1990. À l’inverse, des techniques d’apprentissage automatique ont été utilisées pour améliorer les performances des algorithmes génétiques et évolutifs.

Apprentissage automatique basé sur des règles
L’apprentissage automatique à base de règles est un terme général qui désigne toute méthode d’apprentissage automatique qui identifie, apprend ou fait évoluer des « règles » pour stocker, manipuler ou appliquer des connaissances. La caractéristique déterminante d’un apprenant machine basé sur des règles est l’identification et l’utilisation d’un ensemble de règles relationnelles représentant collectivement les connaissances capturées par le système. Cela contraste avec d’autres apprenants machine qui identifient généralement un modèle singulier qui peut être appliqué universellement à n’importe quelle instance afin de faire une prédiction. Les approches d’apprentissage automatique basées sur des règles incluent l’apprentissage de systèmes de classification, l’apprentissage de règles d’association et les systèmes immunitaires artificiels.

Systèmes de classification d’apprentissage
Les systèmes de classificateurs d’apprentissage (LCS) constituent une famille d’algorithmes d’apprentissage automatique basés sur des règles qui combinent un composant de découverte (par exemple, un algorithme génétique) avec un composant d’apprentissage (effectuant un apprentissage supervisé, un apprentissage par renforcement ou un apprentissage non supervisé). Ils cherchent à identifier un ensemble de règles dépendant du contexte qui stockent et appliquent collectivement les connaissances de manière fragmentée afin de faire des prédictions.

Applications
Les applications pour l’apprentissage automatique comprennent:

Agriculture
Preuve de théorème automatisée
Sites Web adaptatifs
Informatique affective
Bioinformatique
Interfaces cerveau-machine
Cheminformatics
Classification des séquences d’ADN
Anatomie computationnelle
Réseaux informatiques
Télécommunication
Vision par ordinateur, y compris la reconnaissance d’objets
Détection de fraude par carte de crédit
Jeu général
Récupération de l’information
Détection de fraude Internet
Linguistique computationnelle
Commercialisation
Contrôle de l’apprentissage machine
Perception de la machine
Diagnostic médical automatisé
Économie informatique
Assurance
Traitement du langage naturel
Compréhension du langage naturel
Optimisation et métaheuristique
Publicité en ligne
Systèmes de recommandation
Locomotion robot
Moteurs de recherche
Analyse des sentiments (ou analyse d’opinion)
Extraction de séquence
Génie logiciel
Reconnaissance de la parole et de l’écriture
Analyse du marché financier
Surveillance de l’état structurel
Reconnaissance syntaxique
Prévision de série temporelle
Analyse du comportement de l’utilisateur
Traduction automatique

En 2006, la société de films en ligne Netflix a organisé le premier concours « Prix Netflix » afin de trouver un programme permettant de mieux prévoir les préférences des utilisateurs et d’améliorer la précision de son algorithme de recommandation de film Cinematch d’au moins 10%. Une équipe commune composée de chercheurs d’AT & T Labs-Research, en collaboration avec les équipes Big Chaos et Pragmatic Theory, a construit un modèle d’ensemble qui remportera le grand prix en 2009 pour un million de dollars. Peu de temps après l’attribution du prix, Netflix a réalisé que les cotes d’audience des téléspectateurs n’étaient pas les meilleurs indicateurs de leurs habitudes de visualisation (« tout est une recommandation ») et ils ont modifié leur moteur de recommandation en conséquence.

En 2010, le Wall Street Journal a écrit sur le cabinet Rebellion Research et sur leur utilisation de Machine Learning pour prédire la crise financière.

En 2012, Vinod Khosla, cofondateur de Sun Microsystems, avait prédit que 80% des emplois en médecine seraient perdus au cours des deux prochaines décennies au profit d’un logiciel de diagnostic médical automatisé.

En 2014, il a été rapporté qu’un algorithme d’apprentissage automatique avait été appliqué dans l’histoire de l’art pour étudier les peintures de beaux-arts et qu’il avait peut-être révélé des influences auparavant méconnues entre artistes.

Limites
Bien que l’apprentissage machine ait été transformateur dans certains domaines, un apprentissage machine efficace est difficile car il est difficile de trouver des modèles et qu’il manque souvent suffisamment de données de formation; Par conséquent, de nombreux programmes d’apprentissage automatique ne parviennent souvent pas à fournir la valeur attendue. Les raisons en sont nombreuses: manque de données (appropriées), manque d’accès aux données, biais de données, problèmes de confidentialité, tâches et algorithmes mal choisis, mauvais outils et ressources humaines, manque de ressources et problèmes d’évaluation.

En 2018, une voiture autonome d’Uber n’a pas réussi à détecter un piéton qui a été tué dans l’accident. Les tentatives d’utilisation du machine learning dans le secteur de la santé avec le système IBM Watson n’ont pas abouti, même après des années et des milliards d’investissements.

Biais
Les approches d’apprentissage automatique en particulier peuvent souffrir de biais de données différents. Un système d’apprentissage automatique formé uniquement sur vos clients actuels peut ne pas être en mesure de prévoir les besoins de nouveaux groupes de clients qui ne sont pas représentés dans les données de formation. Une fois formé sur des données artificielles, l’apprentissage automatique risque de susciter les mêmes préjugés constitutionnels et inconscients déjà présents dans la société. Il a été démontré que les modèles linguistiques appris à partir de données contenaient des biais humains. Les systèmes d’apprentissage automatique utilisés pour l’évaluation du risque criminel se sont avérés biaisés à l’encontre des Noirs. En 2015, les photos de Google marquaient souvent les Noirs comme des gorilles. En 2018, le problème n’était toujours pas résolu, mais Google utiliserait toujours la solution de contournement pour supprimer tous les gorilles des données de formation, et ne serait donc pas en mesure de reconnaître les vrais gorilles à tout.Des problèmes similaires concernant la reconnaissance des personnes non blanches ont été trouvés dans de nombreux autres systèmes. En 2016, Microsoft a testé un chatbot qui avait appris de Twitter et qui avait rapidement compris un langage raciste et sexiste. En raison de ces défis, l’utilisation efficace de l’apprentissage automatique peut prendre plus de temps pour être adoptée dans d’autres domaines.

Évaluations de modèle
Les modèles d’apprentissage automatique de la classification peuvent être validés par des techniques d’estimation de la précision, telles que la méthode de Holdout, qui scinde les données en un ensemble d’apprentissage et de test (généralement un ensemble d’entraînement sur 2/3 et une désignation d’ensemble sur 1/3) et évalue les performances du modèle d’apprentissage. l’ensemble de test. En comparaison, la méthode de validation croisée N-fold-cross divise les données de manière aléatoire en k sous-ensembles, les k-1 instances de données étant utilisées pour former le modèle, la k-instance servant à tester la capacité prédictive du modèle d’apprentissage. En plus des méthodes de conservation et de validation croisée, le bootstrap, qui échantillonne n instances avec remplacement à partir du jeu de données, peut être utilisé pour évaluer la précision du modèle.

En plus de la précision globale, les enquêteurs font souvent état de sensibilité et de spécificité, ce qui signifie respectivement le taux de croissance vrai positif (TPR) et le taux de conversion négatif réel (TNR). De même, les enquêteurs signalent parfois le taux de faux positifs (FPR) ainsi que le taux de faux négatifs (FNR). Cependant, ces taux sont des ratios qui ne permettent pas de révéler leurs numérateurs et leurs dénominateurs. La caractéristique totale de fonctionnement (COT) est une méthode efficace pour exprimer la capacité de diagnostic d’un modèle. La table des matières montre les numérateurs et les dénominateurs des taux mentionnés précédemment. La table des matières fournit donc plus d’informations que la caractéristique d’exploitation du récepteur (ROC) couramment utilisée et la zone sous la courbe (AUC) associée à la ROC.

Éthique
L’apprentissage automatique pose une foule de questions éthiques. Les systèmes formés à partir d’ensembles de données collectés avec des biais peuvent présenter ces biais lors de leur utilisation (biais algorithmique), numérisant ainsi les préjugés culturels. Par exemple, l’utilisation de données d’embauche provenant d’une entreprise ayant des politiques d’embauche racistes peut conduire à un système d’apprentissage automatique dupliquant le biais en comparant les postulants à un poste similaire. La collecte responsable des données et la documentation des règles algorithmiques utilisées par un système constituent donc une partie essentielle de l’apprentissage automatique.

Parce que la langue contient des biais, les machines formées à des corpus de langues apprendront nécessairement aussi des biais.

D’autres formes de défis éthiques, non liés à des préjugés personnels, sont plus présents dans les soins de santé. Les professionnels de la santé craignent que ces systèmes ne soient pas conçus dans l’intérêt du public, mais comme des machines générant des revenus. Cela est particulièrement vrai aux États-Unis, où il existe un perpétuel dilemme éthique lié à l’amélioration des soins de santé, mais également une augmentation des profits. Par exemple, les algorithmes pourraient être conçus pour fournir aux patients des tests inutiles ou des médicaments dans lesquels les propriétaires propriétaires de l’algorithme détiennent des participations. Il existe un potentiel énorme en matière d’apprentissage automatique dans le secteur de la santé pour fournir aux professionnels un excellent outil pour diagnostiquer, traiter, et même planifier. voies de rétablissement pour les patients, mais cela ne se produira pas tant que les préjugés personnels mentionnés précédemment ne seront pas pris en compte et que ces biais « de cupidité » ne seront pas résolus.

Logiciel
Les suites logicielles contenant une variété d’algorithmes d’apprentissage automatique sont les suivantes:

Logiciel libre et open-source
CNTK
Deeplearning4j
ELKI
H2O
Cornac
Maillet
mlpack
MXNet
OpenNN
Orange
scikit-learn
Shogun
Spark MLlib
TensorFlow
Torche / Pychorne
Weka / MOA
Yooreeka

Logiciel propriétaire avec éditions gratuites et à code source ouvert
KNIME
RapidMiner

Logiciel propriétaire
Amazon Machine Learning
Angoss KnowledgeSTUDIO
Ayasdi
Expérience IBM Data Science
API de prédiction Google
IBM SPSS Modeler
KXEN Modeler
LIONsolver
Mathematica
MATLAB
Python
Microsoft Azure Machine Learning
Concepteur de neurones
NeuroSolutions
Oracle Data Mining
Service cloud Oracle AI Platform
RCASE
SAS Enterprise Miner
SéquenceL
Splunk
STATISTICA Data Miner