Intelligence artificielle

L’intelligence artificielle (IA), parfois appelée intelligence machine, est une intelligence démontrée par des machines, qui contraste avec l’intelligence naturelle affichée par l’homme et d’autres animaux. En informatique, la recherche en IA est définie comme l’étude des « agents intelligents »: tout appareil qui perçoit son environnement et prend des mesures qui maximisent ses chances d’atteindre ses objectifs. Familièrement, le terme « intelligence artificielle » est utilisé lorsqu’une machine imite des fonctions « cognitives » que les humains associent à d’autres esprits humains, telles que « l’apprentissage » et la « résolution de problèmes ».

La portée de l’intelligence artificielle est contestée: à mesure que les machines deviennent de plus en plus performantes, les tâches considérées comme nécessitant une « intelligence » sont souvent supprimées de la définition, phénomène connu sous le nom d’effet de l’intelligence artificielle, ce qui entraîne un bruit de queue « L’IA est tout ce qui n’a pas encore été fait. . « [citation introuvable] Par exemple, la reconnaissance optique de caractères est souvent exclue de » l’intelligence artificielle « , devenue une technologie courante. Les capacités des machines modernes généralement classifiées comme intelligence artificielle incluent la compréhension de la parole humaine, la compétition au plus haut niveau dans les systèmes de jeu stratégiques (tels que les échecs et le jeu), les voitures fonctionnant de manière autonome et le routage intelligent dans les réseaux de diffusion de contenu et les simulations militaires.

L’intelligence artificielle a été fondée en 1956 en tant que discipline universitaire. Depuis lors, elle a connu plusieurs vagues d’optimisme, suivies de déceptions et de pertes de financement (appelées «hiver de l’IA»), suivies de nouvelles approches, de succès et d’un financement renouvelé. . Pendant la majeure partie de son histoire, la recherche sur l’IA a été divisée en sous-domaines qui souvent ne permettent pas de communiquer les uns avec les autres. Ces sous-domaines reposent sur des considérations techniques, telles que des objectifs particuliers (par exemple, « robotique » ou « apprentissage automatique »), l’utilisation d’outils particuliers (« logique » ou réseaux de neurones artificiels) ou de profondes différences philosophiques. Les sous-champs ont également été basés sur des facteurs sociaux (institutions particulières ou travaux de chercheurs particuliers).

Les problèmes (ou objectifs) traditionnels de la recherche sur l’IA comprennent le raisonnement, la représentation des connaissances, la planification, l’apprentissage, le traitement du langage naturel, la perception et la capacité de déplacer et de manipuler des objets. L’intelligence générale fait partie des objectifs à long terme du domaine. Les approches incluent les méthodes statistiques, l’intelligence informatique et l’IA symbolique traditionnelle. De nombreux outils sont utilisés en IA, notamment des versions d’optimisation mathématique et de recherche, des réseaux de neurones artificiels et des méthodes basées sur les statistiques, les probabilités et les aspects économiques. Le domaine de l’IA s’appuie sur l’informatique, l’ingénierie de l’information, les mathématiques, la psychologie, la linguistique, la philosophie et bien d’autres.

Le domaine a été fondé sur l’affirmation selon laquelle l’intelligence humaine « peut être décrite avec une précision telle qu’une machine peut être fabriquée pour la simuler ». Cela soulève des arguments philosophiques sur la nature de l’esprit et sur l’éthique de la création d’êtres artificiels dotés d’une intelligence semblable à celle de l’homme, des questions explorées par le mythe, la fiction et la philosophie depuis l’Antiquité. Certaines personnes considèrent également l’IA comme un danger pour l’humanité si elle progresse sans relâche. D’autres pensent que l’IA, contrairement aux précédentes révolutions technologiques, créera un risque de chômage de masse. Cependant, Google organise un concours mondial pour développer une IA bénéfique pour l’humanité.

Au XXIe siècle, les techniques d’intelligence artificielle ont connu une recrudescence après les progrès simultanés en matière de puissance informatique, de grandes quantités de données et de compréhension théorique. et les techniques d’intelligence artificielle sont devenues une partie essentielle de l’industrie des technologies, contribuant à résoudre de nombreux problèmes difficiles en informatique, en génie logiciel et en recherche opérationnelle.

Approches
Il n’y a pas de théorie unificatrice établie ni de paradigme qui guide la recherche en intelligence artificielle. Les chercheurs sont en désaccord sur de nombreuses questions. Voici quelques-unes des questions les plus anciennes qui restent sans réponse: l’intelligence artificielle doit-elle simuler l’intelligence naturelle en étudiant la psychologie ou la neurobiologie? Ou bien la biologie humaine est-elle aussi peu pertinente pour la recherche sur l’IA que la biologie des oiseaux pour l’ingénierie aéronautique? Un comportement intelligent peut-il être décrit à l’aide de principes simples et élégants (tels que la logique ou l’optimisation)? Ou faut-il nécessairement résoudre un grand nombre de problèmes sans aucun rapport?

Cybernétique et simulation cérébrale
Dans les années 1940 et 1950, un certain nombre de chercheurs ont exploré le lien entre la neurobiologie, la théorie de l’information et la cybernétique. Certains d’entre eux ont construit des machines utilisant des réseaux électroniques pour présenter une intelligence rudimentaire, telles que les tortues de W. Grey Walter et la Johns Hopkins Beast. Un grand nombre de ces chercheurs se sont réunis pour des réunions de la Teleological Society de l’Université de Princeton et du Ratio Club en Angleterre. En 1960, cette approche était en grande partie abandonnée, même si certains de ses éléments seraient ravivés dans les années 1980.

Symbolique
Lorsque l’accès aux ordinateurs numériques est devenu possible au milieu des années 50, les recherches sur l’intelligence artificielle ont commencé à explorer la possibilité de réduire l’intelligence humaine à la manipulation de symboles. La recherche était centrée sur trois institutions: l’Université Carnegie Mellon, l’Université Stanford et le MIT, et comme décrit ci-dessous, chacune d’elles a développé son propre style de recherche. John Haugeland a appelé ces approches symboliques de l’IA « bonne vieille intelligence artificielle » ou « GOFAI ». Au cours des années 1960, les approches symboliques avaient réussi à simuler la pensée de haut niveau dans de petits programmes de démonstration. Les approches basées sur la cybernétique ou des réseaux de neurones artificiels ont été abandonnées ou mises au second plan. Les chercheurs des années 1960 et 1970 étaient convaincus que les approches symboliques réussiraient à créer une machine à intelligence artificielle générale et considéraient que c’était l’objectif de leur domaine.

Simulation cognitive
Les économistes Herbert Simon et Allen Newell ont étudié les compétences de résolution de problèmes humains et tenté de les formaliser. Leurs travaux ont jeté les bases du domaine de l’intelligence artificielle, ainsi que des sciences cognitives, de la recherche opérationnelle et de la gestion. Leur équipe de recherche a utilisé les résultats d’expériences psychologiques pour développer des programmes simulant les techniques utilisées pour résoudre des problèmes. Cette tradition, centrée sur l’Université Carnegie Mellon, devait aboutir au développement de l’architecture Soar au milieu des années 1980.

Basé sur la logique
Contrairement à Simon et Newell, John McCarthy a estimé que les machines n’avaient pas besoin de simuler la pensée humaine, mais devaient plutôt chercher à trouver l’essence du raisonnement abstrait et de la résolution de problèmes, que les utilisateurs utilisent ou non les mêmes algorithmes. Son laboratoire à Stanford (SAIL) s’est concentré sur l’utilisation de la logique formelle pour résoudre un large éventail de problèmes, notamment la représentation des connaissances, la planification et l’apprentissage. La logique a également été au centre des travaux de l’Université d’Édimbourg et d’autres pays d’Europe qui ont abouti au développement du langage de programmation Prolog et de la science de la programmation logique.

Anti-logique ou débraillé
Des chercheurs du MIT (tels que Marvin Minsky et Seymour Papert) ont découvert que la résolution de problèmes difficiles liés à la vision et au traitement du langage naturel exigeait des solutions ad-hoc. Ils ont également fait valoir qu’il n’existait aucun principe simple et général (comme la logique) qui capturerait tous les aspects de comportement intelligent. Roger Schank a qualifié leurs approches « anti-logiques » de « débraillées » (par opposition aux paradigmes « ordonnés » de CMU et de Stanford). Les bases de connaissances du bon sens (telles que le Cyc de Doug Lenat) sont un exemple d’IA « délabrée », puisqu’elles doivent être construites à la main, concept compliqué à la fois.

Basé sur la connaissance
Lorsque des ordinateurs dotés de mémoires volumineuses sont devenus disponibles vers 1970, les chercheurs des trois traditions ont commencé à intégrer des connaissances dans les applications d’intelligence artificielle. Cette « révolution de la connaissance » a conduit au développement et au déploiement de systèmes experts (introduits par Edward Feigenbaum), la première forme de logiciel d’intelligence artificielle réellement couronnée de succès. Le composant clé de l’arhitecute système pour tous les systèmes experts est la base de connaissances, qui stocke les faits et les règles illustrant l’IA. La révolution des connaissances a également été motivée par la prise de conscience du fait que de nombreuses applications simples de l’IA nécessiteraient d’énormes quantités de connaissances.

Sous-symbolique
Dans les années 1980, les progrès de l’IA symbolique semblaient en perte de vitesse et beaucoup pensaient que les systèmes symboliques ne pourraient jamais imiter tous les processus de la cognition humaine, en particulier la perception, la robotique, l’apprentissage et la reconnaissance des formes. Un certain nombre de chercheurs ont commencé à se pencher sur des approches «sous-symboliques» à des problèmes spécifiques d’IA. Les méthodes sous-symboliques parviennent à approcher l’intelligence sans représentations spécifiques de la connaissance.

L’intelligence incarnée
Cela inclut les incarnations, les localisations, les comportements et la nouvelle intelligence artificielle. Des chercheurs du secteur connexe de la robotique, tels que Rodney Brooks, ont rejeté l’IA symbolique et se sont concentrés sur les problèmes d’ingénierie de base permettant aux robots de se déplacer et de survivre. Leurs travaux ont ravivé le point de vue non symbolique des premiers chercheurs en cybernétique des années 50 et ont réintroduit l’utilisation de la théorie du contrôle en intelligence artificielle. Cela a coïncidé avec le développement de la thèse de l’esprit incarné dans le domaine connexe des sciences cognitives: l’idée que des aspects du corps (tels que le mouvement, la perception et la visualisation) sont nécessaires pour une intelligence supérieure.

Au sein de la robotique développementale, des approches d’apprentissage développemental sont élaborées pour permettre aux robots d’accumuler des répertoires de compétences nouvelles par le biais d’une auto-exploration autonome, d’une interaction sociale avec des enseignants humains et de l’utilisation de mécanismes d’orientation (apprentissage actif, maturation, synergies motrices, etc.).

Intelligence informatique et informatique douce
L’intérêt porté aux réseaux de neurones et au « connexionnisme » a été ravivé par David Rumelhart et d’autres au milieu des années 80. Les réseaux de neurones artificiels sont un exemple d’informatique douce – ce sont des solutions à des problèmes qui ne peuvent pas être résolus avec une certitude logique complète et dans lesquels une solution approximative est souvent suffisante. Parmi les autres approches informatiques douces de l’IA, on peut citer les systèmes flous, le calcul évolutif et de nombreux outils statistiques. L’application de l’informatique douce à l’IA est étudiée collectivement par la nouvelle discipline de l’intelligence numérique.

Apprentissage statistique
Une grande partie de la GOFAI traditionnelle s’est enlisée dans des correctifs ad hoc pour un calcul symbolique qui fonctionnait sur ses propres modèles de jouets, mais n’a pas réussi à généraliser aux résultats du monde réel. Cependant, vers les années 90, les chercheurs en IA ont adopté des outils mathématiques sophistiqués, tels que les modèles de Markov cachés (HMM), la théorie de l’information et la théorie de la décision bayésienne normative pour comparer ou unifier les architectures concurrentes. Le langage mathématique partagé permettait un haut niveau de collaboration avec des domaines plus établis (comme les mathématiques, l’économie ou la recherche opérationnelle). Comparées à GOFAI, les nouvelles techniques « d’apprentissage statistique » telles que le HMM et les réseaux de neurones gagnent en précision dans de nombreux domaines pratiques tels que l’exploration de données, sans nécessairement acquérir une compréhension sémantique des jeux de données. Les succès croissants avec les données du monde réel ont conduit à mettre davantage l’accent sur la comparaison de différentes approches avec des données de test partagées afin de déterminer quelle approche fonctionnait le mieux dans un contexte plus large que celui fourni par les modèles de jouets idiosyncratiques; La recherche sur l’IA devenait de plus en plus scientifique. De nos jours, les résultats des expériences sont souvent rigoureusement mesurables et parfois (difficilement) reproductibles. Différentes techniques d’apprentissage statistique ont des limites différentes; Par exemple, HMM de base ne peut pas modéliser les combinaisons infinies possibles du langage naturel. Les critiques soulignent que le passage de GOFAI à un apprentissage statistique est souvent un changement d’abandon de l’explainable AI. Dans le cadre de la recherche sur l’AGI, certains chercheurs mettent en garde contre le recours excessif à l’apprentissage statistique et soutiennent que la poursuite des recherches sur GOFAI sera toujours nécessaire pour atteindre l’intelligence générale.

Intégrer les approches

Paradigme de l’agent intelligent
Un agent intelligent est un système qui perçoit son environnement et prend des mesures qui maximisent ses chances de réussite. Les agents intelligents les plus simples sont des programmes qui résolvent des problèmes spécifiques. Les agents plus compliqués incluent les êtres humains et les organisations d’êtres humains (telles que les entreprises). Le paradigme permet aux chercheurs de comparer directement, voire de combiner, différentes approches de problèmes isolés, en demandant quel agent est le mieux à même de maximiser une « fonction d’objectif » donnée. Un agent qui résout un problème spécifique peut utiliser n’importe quelle approche qui fonctionne – certains agents sont symboliques et logiques, certains sont des réseaux de neurones artificiels sous-symboliques et d’autres peuvent utiliser de nouvelles approches. Le paradigme donne également aux chercheurs un langage commun pour communiquer avec d’autres domaines, tels que la théorie de la décision et l’économie, qui utilisent également les concepts d’agents abstraits. Pour créer un agent complet, les chercheurs doivent s’attaquer à des problèmes réalistes d’intégration; par exemple, comme les systèmes sensoriels fournissent des informations incertaines sur l’environnement, les systèmes de planification doivent pouvoir fonctionner en présence d’incertitude. Le paradigme de l’agent intelligent est devenu largement accepté au cours des années 1990.
Architectures d’agent et architectures cognitives
Les chercheurs ont conçu des systèmes pour construire des systèmes intelligents à partir d’agents intelligents en interaction dans un système multi-agents. Un système de contrôle hiérarchique établit un pont entre l’IA sous-symbolique à ses niveaux les plus bas et les plus réactifs et l’IA symbolique traditionnelle à ses niveaux les plus élevés, où des contraintes de temps relâchées permettent la planification et la modélisation du monde. Certaines architectures cognitives sont conçues sur mesure pour résoudre un problème étroit; d’autres, comme Soar, sont conçus pour imiter la cognition humaine et donner un aperçu de l’intelligence générale. Les extensions modernes de Soar sont des systèmes hybrides intelligents comprenant à la fois des composants symboliques et sous-symboliques.

Outils

AI a développé un grand nombre d’outils pour résoudre les problèmes informatiques les plus difficiles. Quelques-unes des plus générales de ces méthodes sont discutées ci-dessous.

Recherche et optimisation
En théorie, de nombreux problèmes d’intelligence artificielle peuvent être résolus en recherchant intelligemment plusieurs solutions possibles: Le raisonnement peut être réduit à une recherche. Par exemple, la preuve logique peut être vue comme une recherche d’un chemin menant de prémisses à des conclusions, chaque étape étant l’application d’une règle d’inférence. Les algorithmes de planification recherchent dans des arbres d’objectifs et de sous-objectifs, en essayant de trouver un chemin d’accès à un objectif cible, un processus appelé analyse des moyens-fins. Les algorithmes robotiques pour le déplacement de membres et la saisie d’objets utilisent des recherches locales dans l’espace de configuration. De nombreux algorithmes d’apprentissage utilisent des algorithmes de recherche basés sur l’optimisation.

Les recherches exhaustives simples sont rarement suffisantes pour la plupart des problèmes du monde réel: l’espace de recherche (le nombre de lieux de recherche) se développe rapidement en nombres astronomiques. Le résultat est une recherche trop lente ou ne se termine jamais. La solution, pour de nombreux problèmes, consiste à utiliser des «heuristiques» ou des «règles empiriques» qui donnent la priorité aux choix en faveur de ceux qui sont le plus susceptibles d’atteindre un objectif et à le faire en un nombre réduit d’étapes. Dans certaines méthodologies de recherche, les heuristiques peuvent également servir à éliminer complètement certains choix qui ne conduiront probablement pas à un objectif (appelé « élagage de l’arbre de recherche »). Les heuristiques fournissent au programme une « meilleure estimation » du chemin sur lequel se trouve la solution. Les heuristiques limitent la recherche de solutions à un échantillon plus petit.

Un type de recherche très différent est apparu dans les années 1990, fondé sur la théorie mathématique de l’optimisation. Pour de nombreux problèmes, il est possible de commencer la recherche avec une forme de conjecture, puis d’affiner la conjecture progressivement jusqu’à ce qu’il ne soit plus possible d’affiner le calcul. Ces algorithmes peuvent être visualisés comme une ascension en aveugle: nous commençons la recherche à un point aléatoire du paysage, puis, par sauts ou par étapes, nous continuons à avancer notre estimation, jusqu’à atteindre le sommet. D’autres algorithmes d’optimisation sont le recuit simulé, la recherche de faisceau et l’optimisation aléatoire.

Le calcul évolutif utilise une forme de recherche d’optimisation. Par exemple, ils peuvent commencer par une population d’organismes (les suppositions), puis leur permettre de muter et de se recombiner, en ne sélectionnant que les plus aptes pour survivre à chaque génération (en affinant les suppositions). Les algorithmes évolutifs classiques incluent les algorithmes génétiques, la programmation de l’expression génique et la programmation génétique. Alternativement, les processus de recherche distribués peuvent se coordonner via des algorithmes d’intelligence en essaim. L’optimisation par essaim de particules (inspirée par le flocage d’oiseaux) et l’optimisation de colonies de fourmis (inspirée par les traînées de fourmis) sont deux algorithmes d’essaims couramment utilisés dans les recherches.

Logique
La logique est utilisée pour la représentation des connaissances et la résolution de problèmes, mais elle peut également être appliquée à d’autres problèmes. Par exemple, l’algorithme satplan utilise la logique pour la planification et la programmation par logique inductive est une méthode d’apprentissage.

Plusieurs formes de logique sont utilisées dans la recherche sur l’IA. La logique propositionnelle implique des fonctions de vérité telles que « ou » et « pas ». La logique du premier ordre ajoute des quantificateurs et des prédicats, et peut exprimer des faits sur les objets, leurs propriétés et leurs relations les uns avec les autres. La théorie des ensembles flous attribue un « degré de vérité » (compris entre 0 et 1) à des énoncés vagues tels que « Alice est vieille » (ou riche, ou grand, ou affamé) qui sont trop imprécis sur le plan linguistique pour être complètement vrais ou faux. La logique floue est utilisée avec succès dans les systèmes de contrôle pour permettre aux experts de définir des règles vagues telles que « si vous êtes proche de la gare de destination et que vous vous déplacez rapidement, augmentez la pression de freinage du train »; ces règles vagues peuvent ensuite être affinées numériquement dans le système. La logique floue échoue dans les bases de connaissances; de nombreux chercheurs en IA s’interrogent sur la validité de l’enchaînement d’inférences de logique floue.

La logique par défaut, la logique non monotone et la circonscription sont des formes de logique conçues pour aider au raisonnement par défaut et au problème de qualification. Plusieurs extensions de la logique ont été conçues pour traiter des domaines de connaissance spécifiques, tels que: la logique de description; calcul de situation, calcul d’événement et calcul fluide (pour représenter des événements et le temps); calcul causal; calcul de croyance; et logiques modales.

Dans l’ensemble, la logique symbolique qualitative est fragile et s’échelle mal en présence de bruit ou d’autres incertitudes. Les exceptions aux règles sont nombreuses et il est difficile pour les systèmes logiques de fonctionner en présence de règles contradictoires.

Méthodes probabilistes pour un raisonnement incertain
De nombreux problèmes d’intelligence artificielle (raisonnement, planification, apprentissage, perception et robotique) obligent l’agent à travailler avec des informations incomplètes ou incertaines. Les chercheurs en intelligence artificielle ont mis au point un certain nombre d’outils puissants pour résoudre ces problèmes en utilisant des méthodes issues de la théorie des probabilités et de l’économie.

Les réseaux bayésiens sont un outil très général qui peut être utilisé pour un grand nombre de problèmes: raisonnement (en utilisant l’algorithme d’inférence bayésien), apprentissage (en utilisant l’algorithme de maximisation des attentes), planification (en utilisant des réseaux de décision) et perception (en utilisant des réseaux dynamiques bayésiens). ). Les algorithmes probabilistes peuvent également être utilisés pour filtrer, prédire, lisser et trouver des explications aux flux de données, aidant ainsi les systèmes de perception à analyser les processus qui se déroulent dans le temps (modèles de Markov cachés ou filtres de Kalman, par exemple). Comparée à la logique symbolique, l’inférence bayésienne formelle est coûteuse en calcul. Pour que l’inférence soit traitable, la plupart des observations doivent être conditionnellement indépendantes les unes des autres. Les graphiques compliqués avec des diamants ou d’autres « boucles » (cycles non orientés) peuvent nécessiter une méthode sophistiquée telle que la chaîne de Markov à chaîne de Carlo, qui répartit un ensemble de randonneurs aléatoires sur le réseau bayésien et tente de converger vers une évaluation des probabilités conditionnelles. Les réseaux bayésiens sont utilisés sur Xbox Live pour évaluer et faire correspondre les joueurs; les victoires et les défaites sont une « preuve » de la qualité d’un joueur. AdSense utilise un réseau bayésien avec plus de 300 millions d’arêtes pour déterminer les annonces à diffuser.

Un concept clé de la science économique est « l’utilité »: mesure de la valeur d’une chose pour un agent intelligent. Des outils mathématiques précis ont été développés pour analyser la manière dont un agent peut faire des choix et planifier, en utilisant la théorie de la décision, l’analyse de la décision et la théorie de la valeur de l’information. Ces outils incluent des modèles tels que les processus de décision de Markov, les réseaux de décision dynamiques, la théorie des jeux et la conception de mécanismes.

Classificateurs et méthodes d’apprentissage statistique
Les applications d’intelligence artificielle les plus simples peuvent être divisées en deux types: les classificateurs (« si brillant, puis diamant ») et les contrôleurs (« si brillant, puis relever »). Cependant, les contrôleurs classent également les conditions avant de déduire des actions et constituent donc une partie centrale de nombreux systèmes d’IA. Les classificateurs sont des fonctions qui utilisent la correspondance de modèle pour déterminer la correspondance la plus proche. Ils peuvent être ajustés selon des exemples, ce qui les rend très attrayants pour une utilisation dans l’IA. Ces exemples sont appelés observations ou modèles. Dans l’apprentissage supervisé, chaque modèle appartient à une certaine classe prédéfinie. Une classe peut être considérée comme une décision à prendre. Toutes les observations combinées avec leurs étiquettes de classe sont appelées un ensemble de données. Lorsqu’une nouvelle observation est reçue, cette observation est classée sur la base de l’expérience antérieure.

Un classificateur peut être formé de différentes manières; Il existe de nombreuses approches statistiques et d’apprentissage automatique. L’arbre de décision est peut-être l’algorithme d’apprentissage machine le plus utilisé. Les autres classificateurs largement utilisés sont le réseau de neurones, l’algorithme k-voisin le plus proche, des méthodes du noyau telles que la machine à vecteurs de support (SVM), le modèle de mélange gaussien et le très populaire classificateur naïf de Bayes. Les performances du classificateur dépendent en grande partie des caractéristiques des données à classer, telles que la taille du jeu de données, la dimensionnalité et le niveau de bruit. Les classificateurs basés sur un modèle donnent de bons résultats si le modèle supposé correspond parfaitement aux données réelles. Sinon, si aucun modèle correspondant n’est disponible et si l’exactitude (plutôt que la vitesse ou l’évolutivité) est la seule préoccupation, il est généralement admis que les classificateurs discriminants (en particulier les SVM) ont tendance à être plus précis que les classificateurs basés sur un modèle tels que « naive Bayes ». sur la plupart des ensembles de données pratiques.

Réseaux de neurones artificiels
Les réseaux de neurones, ou réseaux de neurones, ont été inspirés par l’architecture des neurones dans le cerveau humain. Un simple « neurone » N accepte les entrées de plusieurs autres neurones, qui, lorsqu’ils sont activés (ou « déclenchés »), émettent un « vote » pondéré pour ou contre l’activation ou non du neurone N. L’apprentissage nécessite un algorithme pour ajuster ces poids en fonction des données d’apprentissage; Un algorithme simple (appelé « feu ensemble, fil ensemble ») consiste à augmenter le poids entre deux neurones connectés lorsque l’activation d’un déclenche l’activation réussie d’un autre. Le réseau forme des « concepts » répartis dans un sous-réseau de neurones partagés qui tendent à se déclencher ensemble; un concept signifiant « jambe » pourrait être associé à un sous-réseau signifiant « pied » incluant le son pour « pied ». Les neurones ont un spectre continu d’activation; De plus, les neurones peuvent traiter les entrées de manière non linéaire plutôt que de peser des votes simples. Les réseaux neuronaux modernes peuvent apprendre à la fois des fonctions continues et, étonnamment, des opérations logiques numériques. Parmi les premiers succès des réseaux de neurones, citons la prévision du marché boursier et (en 1995) une voiture essentiellement autonome. Dans les années 2010, les progrès des réseaux de neurones grâce à un apprentissage en profondeur ont propulsé l’intelligence artificielle dans une large prise de conscience du public et ont contribué à une augmentation considérable des dépenses des entreprises en matière d’IA; Par exemple, les fusions et acquisitions liées à l’IA en 2017 étaient 25 fois plus importantes qu’en 2015.

L’étude des réseaux de neurones artificiels sans apprentissage a débuté au cours de la décennie précédant la création du domaine de la recherche sur l’IA, dans les travaux de Walter Pitts et Warren McCullouch. Frank Rosenblatt a inventé le perceptron, réseau d’apprentissage à une seule couche, similaire à l’ancien concept de régression linéaire. Les premiers pionniers incluent également Alexey Grigorevich Ivakhnenko, Teuvo Kohonen, Stephen Grossberg, Kunihiko Fukushima, Christoph von der Malsburg, David Willshaw, Shun-Ichi Amari, Bernard Widrow, John Hopfield, Eduardo R. Caianiello et bien d’autres.

Les principales catégories de réseaux sont les réseaux de neurones acycliques ou à réaction directe (où le signal passe dans une seule direction) et les réseaux de neurones récurrents (qui permettent une rétroaction et des mémoires à court terme d’événements d’entrée antérieurs). Les perceptrons, les perceptrons multicouches et les réseaux de base radiaux sont parmi les réseaux à action directe les plus populaires. Les réseaux de neurones peuvent être appliqués au problème du contrôle intelligent (pour la robotique) ou de l’apprentissage, en utilisant des techniques telles que l’apprentissage hebbien (« tirer ensemble, câbler ensemble »), GMDH ou apprentissage compétitif.

Aujourd’hui, les réseaux de neurones sont souvent formés à l’aide de l’algorithme de rétropropagation, qui existait depuis 1970 en tant que mode inverse de différenciation automatique publié par Seppo Linnainmaa, et introduit aux réseaux de neurones par Paul Werbos.

La mémoire temporelle hiérarchique est une approche qui modélise certaines des propriétés structurelles et algorithmiques du néocortex.

En bref, la plupart des réseaux de neurones utilisent une forme de descente de gradient sur une topologie neuronale créée à la main. Cependant, certains groupes de recherche, tels que Uber, soutiennent qu’une simple neuroévolution permettant de muter de nouvelles topologies et poids de réseaux neuronaux peut être compétitive avec des approches sophistiquées de descente sur gradient. Un des avantages de la neuroévolution est qu’elle peut être moins encline à se faire prendre dans des « impasses ».

Réseaux de neurones à anticipation profonde
L’apprentissage en profondeur est un réseau de neurones artificiel pouvant apprendre une longue chaîne de liens de causalité. Par exemple, un réseau à anticipation comportant six couches cachées peut apprendre une chaîne de causalité à sept liens (six couches cachées + couche en sortie) et possède une profondeur de « chemin d’assignation de crédit » (CAP) de sept ans. De nombreux systèmes d’apprentissage en profondeur doivent pouvoir apprendre des chaînes de dix liens de causalité ou plus. L’apprentissage en profondeur a transformé de nombreux sous-domaines importants de l’intelligence artificielle, notamment la vision par ordinateur, la reconnaissance de la parole, le traitement du langage naturel, etc.

Selon un aperçu général, l’expression « Deep Learning » a été introduite dans la communauté Machine Learning par Rina Dechter en 1986 et a gagné en popularité après que Igor Aizenberg et ses collègues l’ont présentée aux réseaux de neurones artificiels en 2000. Les premiers réseaux fonctionnels Deep Learning ont été publiés par Alexey Grigorevich Ivakhnenko et VG Lapa en 1965. [page nécessaire] Ces réseaux sont formés une couche à la fois. Dans son article de 1971, Ivakhnenko décrit l’apprentissage d’un perceptron multicouche à réponse profonde et à huit couches, déjà beaucoup plus profond que beaucoup de réseaux ultérieurs. En 2006, une publication de Geoffrey Hinton et de Ruslan Salakhutdinov a présenté une autre méthode de pré-formation de réseaux neuronaux à couches multiples (FNN), une couche à la fois, en traitant chaque couche comme une machine de Boltzmann restreinte non supervisée, puis en utilisant une rétro-propagation supervisée. réglage fin. Semblables aux réseaux neuronaux artificiels peu profonds, les réseaux neuronaux profonds peuvent modéliser des relations non linéaires complexes. Au cours des dernières années, les progrès des algorithmes d’apprentissage automatique et du matériel informatique ont conduit à des méthodes plus efficaces pour la formation de réseaux neuronaux profonds contenant de nombreuses couches d’unités cachées non linéaires et une très grande couche de sortie.

L’apprentissage en profondeur utilise souvent des réseaux de neurones convolutifs (CNN), dont les origines remontent au néocognitron introduit par Kunihiko Fukushima en 1980. En 1989, Yann LeCun et ses collègues ont appliqué la contre-propagation à une telle architecture. Au début des années 2000, dans une application industrielle, les CNN traitaient déjà environ 10% à 20% de tous les chèques rédigés aux États-Unis. Depuis 2011, la mise en œuvre rapide de CNN sur GPU a remporté de nombreux concours de reconnaissance de modèles visuels.

Les CNN avec 12 couches de convolution ont été utilisés conjointement avec l’apprentissage par renforcement par « AlphaGo Lee » de Deepmind, le programme qui a battu un grand champion de Go en 2016.

Réseaux de neurones récurrents profonds
Dès le début, l’apprentissage en profondeur a également été appliqué à l’apprentissage en séquence avec des réseaux de neurones récurrents (RNN) qui sont en théorie complets et peuvent exécuter des programmes arbitraires pour traiter des séquences d’entrées arbitraires. La profondeur d’un RNN est illimitée et dépend de la longueur de sa séquence d’entrée. Ainsi, un RNN est un exemple d’apprentissage en profondeur. Les RNN peuvent être entraînés par descente de gradient mais souffrent du problème de gradient de disparition. En 1992, il a été démontré que le pré-entraînement non supervisé d’une pile de réseaux de neurones récurrents peut accélérer l’apprentissage supervisé ultérieur de problèmes séquentiels profonds.

De nombreux chercheurs utilisent à présent des variantes d’un NN récurrent à apprentissage approfondi appelé le réseau de mémoire à court terme (LSTM) publié par Hochreiter & Schmidhuber en 1997. Le LSTM est souvent formé par la Classification des temporalisateurs connexionnistes (CTC). Chez Google, Microsoft et Baidu, cette approche a révolutionné la reconnaissance vocale. Par exemple, en 2015, la reconnaissance vocale de Google a enregistré une augmentation spectaculaire de 49% des performances grâce au LSTM formé par la CCT, qui est désormais disponible via Google Voice pour des milliards d’utilisateurs de smartphones. Google a également utilisé LSTM pour améliorer la traduction automatique, la modélisation linguistique et le traitement multilingue des langues. La combinaison de LSTM et de CNN a également amélioré le sous-titrage automatique des images et une multitude d’autres applications.

Evaluer les progrès
L’intelligence artificielle, comme l’électricité ou la machine à vapeur, est une technologie polyvalente. Il n’y a pas de consensus sur la manière de caractériser les tâches sur lesquelles l’IA tend à exceller. Des projets tels que AlphaZero ont réussi à générer leurs propres connaissances à partir de rien, mais de nombreux autres projets d’apprentissage automatique nécessitent de vastes ensembles de données de formation. Le chercheur Andrew Ng a suggéré, comme « règle générale très imparfaite », que « presque tout ce qu’un humain typique peut faire avec moins d’une seconde de pensée mentale, nous pouvons probablement maintenant ou dans un proche avenir automatiser l’utilisation de l’IA ». Le paradoxe de Moravec suggère que l’IA est en retard sur l’homme dans de nombreuses tâches pour lesquelles le cerveau humain a spécifiquement évolué.

Les jeux fournissent une référence bien connue pour évaluer les taux de progrès. AlphaGo autour de 2016 a clôturé l’ère des jeux de société classiques. Les jeux de connaissance imparfaite posent de nouveaux défis à l’IA dans le domaine de la théorie des jeux. Les sports électroniques tels que StarCraft continuent de fournir des repères publics supplémentaires. De nombreux concours et prix, tels que le défi Imagenet, visent à promouvoir la recherche en intelligence artificielle. Les principaux domaines de compétition comprennent l’intelligence générale des machines, le comportement conversationnel, l’extraction de données, les voitures robotiques, le football robotique et les jeux classiques.

Le « jeu de l’imitation » (une interprétation du test de Turing de 1950 qui permet de déterminer si un ordinateur peut imiter un humain) est aujourd’hui considéré comme trop exploitable pour constituer une référence significative. Un test dérivé du test de Turing est le test de Turing public entièrement automatisé pour différencier les ordinateurs et les humains (CAPTCHA). Comme son nom l’indique, cela aide à déterminer qu’un utilisateur est une personne réelle et non un ordinateur se présentant comme un être humain.Contrairement au test de Turing standard, CAPTCHA est administré par une machine et est destiné à un être humain, par opposition à un être humain et est destiné à une machine. Un ordinateur demande à un utilisateur d’effectuer un test simple, puis génère une note pour ce test. Les ordinateurs étant incapables de résoudre le problème, les solutions correctes sont considérées comme le résultat du test effectué par une personne. Un type courant de CAPTCHA est le test qui nécessite la saisie de lettres, chiffres ou symboles déformés apparaissant dans une image indéchiffrable par un ordinateur.

Les tests proposés « d’intelligence universelle » visent à comparer l’efficacité des machines, des êtres humains et même des animaux non humains sur des ensembles de problèmes aussi génériques que possible. À l’extrême, la suite de tests peut contenir tous les problèmes possibles, pondérés par la complexité de Kolmogorov; Malheureusement, ces ensembles de problèmes tendent à être dominés par des exercices d’appariement des modèles appauvris dans lesquels une IA ajustée peut facilement dépasser les niveaux de performance humaine.