Inteligencia artificial

La inteligencia artificial (IA), a veces llamada inteligencia de la máquina, es la inteligencia demostrada por las máquinas, en contraste con la inteligencia natural mostrada por los humanos y otros animales. En ciencias de la computación, la investigación de la IA se define como el estudio de «agentes inteligentes»: cualquier dispositivo que perciba su entorno y realice acciones que maximicen sus posibilidades de alcanzar sus objetivos con éxito. Coloquialmente, el término «inteligencia artificial» se aplica cuando una máquina imita las funciones «cognitivas» que los humanos asocian con otras mentes humanas, como «aprender» y «resolver problemas».

El alcance de la IA se discute: a medida que las máquinas se vuelven cada vez más capaces, las tareas que se consideran que requieren «inteligencia» a menudo se eliminan de la definición, un fenómeno conocido como el efecto de la IA, que conduce a la ocurrencia, «AI es lo que aún no se ha hecho «[cita no encontrada] Por ejemplo, el reconocimiento óptico de caracteres es frecuentemente excluido de la» inteligencia artificial «, convirtiéndose en una tecnología de rutina. Las capacidades de las máquinas modernas generalmente clasificadas como IA incluyen comprender con éxito el habla humana, competir al más alto nivel en sistemas de juegos estratégicos (como el ajedrez y el Go), autos que funcionan de manera autónoma y enrutamiento inteligente en redes de entrega de contenido y simulaciones militares.

La inteligencia artificial se fundó como una disciplina académica en 1956, y en los años posteriores ha experimentado varias oleadas de optimismo, seguidas por la decepción y la pérdida de fondos (conocida como el «invierno de AI»), seguidas de nuevos enfoques, éxitos y fondos renovados. . Durante la mayor parte de su historia, la investigación de la IA se ha dividido en subcampos que a menudo no se comunican entre sí. Estos subcampos se basan en consideraciones técnicas, como objetivos particulares (por ejemplo, «robótica» o «aprendizaje automático»), el uso de herramientas particulares («lógica» o redes neuronales artificiales) o profundas diferencias filosóficas. Los subcampos también se han basado en factores sociales (instituciones particulares o el trabajo de investigadores particulares).

Los problemas (o metas) tradicionales de la investigación de la IA incluyen el razonamiento, la representación del conocimiento, la planificación, el aprendizaje, el procesamiento del lenguaje natural, la percepción y la capacidad para mover y manipular objetos. La inteligencia general es uno de los objetivos a largo plazo del campo. Los enfoques incluyen métodos estadísticos, inteligencia computacional e inteligencia simbólica tradicional. Se utilizan muchas herramientas en IA, incluidas versiones de búsqueda y optimización matemática, redes neuronales artificiales y métodos basados ​​en estadísticas, probabilidad y economía. El campo de la IA se basa en la informática, la ingeniería de la información, las matemáticas, la psicología, la lingüística, la filosofía y muchos otros.

El campo se basó en la afirmación de que la inteligencia humana «puede describirse con tanta precisión que se puede hacer una máquina para simularla». Esto plantea argumentos filosóficos sobre la naturaleza de la mente y la ética de la creación de seres artificiales dotados de inteligencia de tipo humano, temas que han sido explorados por el mito, la ficción y la filosofía desde la antigüedad. Algunas personas también consideran que la IA es un peligro para la humanidad si progresa sin cesar. Otros creen que la IA, a diferencia de las revoluciones tecnológicas anteriores, creará un riesgo de desempleo masivo. Sin embargo, Google está organizando un concurso mundial para desarrollar la IA que es beneficiosa para la humanidad

En el siglo veintiuno, las técnicas de IA han experimentado un resurgimiento después de los avances concurrentes en el poder de las computadoras, grandes cantidades de datos y comprensión teórica; y las técnicas de IA se han convertido en una parte esencial de la industria de la tecnología, ayudando a resolver muchos problemas desafiantes en ciencias de la computación, ingeniería de software e investigación de operaciones.

Enfoques
No existe una teoría o paradigma unificador establecido que guíe la investigación de la IA. Los investigadores no están de acuerdo sobre muchos temas. Algunas de las preguntas más antiguas que han quedado sin respuesta son: ¿la inteligencia artificial debe simular la inteligencia natural mediante el estudio de la psicología o la neurobiología? ¿O es la biología humana tan irrelevante para la investigación de la IA como la biología de las aves es para la ingeniería aeronáutica? ¿Se puede describir el comportamiento inteligente utilizando principios simples y elegantes (como la lógica o la optimización)? ¿O necesariamente requiere resolver un gran número de problemas completamente no relacionados?

Cibernética y simulación cerebral.
En las décadas de 1940 y 1950, varios investigadores exploraron la conexión entre la neurobiología, la teoría de la información y la cibernética. Algunos de ellos construyeron máquinas que usaban redes electrónicas para exhibir inteligencia rudimentaria, como las tortugas de W. Gray Walter y la Bestia Johns Hopkins. Muchos de estos investigadores se reunieron para las reuniones de la Sociedad Teleológica en la Universidad de Princeton y el Ratio Club en Inglaterra. En 1960, este enfoque fue abandonado en gran parte, aunque algunos elementos de él se revivirían en los años ochenta.

Simbólico
Cuando el acceso a las computadoras digitales se hizo posible a mediados de la década de 1950, la investigación de AI comenzó a explorar la posibilidad de que la inteligencia humana pudiera reducirse a la manipulación de símbolos. La investigación se centró en tres instituciones: Carnegie Mellon University, Stanford y MIT, y como se describe a continuación, cada una desarrolló su propio estilo de investigación. John Haugeland denominó a estos enfoques simbólicos de AI «buena IA antigua» o «GOFAI». Durante la década de 1960, los enfoques simbólicos habían logrado un gran éxito al simular el pensamiento de alto nivel en pequeños programas de demostración. Los enfoques basados ​​en cibernética o redes neuronales artificiales fueron abandonados o pasados ​​a un segundo plano. Los investigadores en los años sesenta y setenta estaban convencidos de que los enfoques simbólicos finalmente tendrían éxito en la creación de una máquina con inteligencia general artificial y consideraron que este era el objetivo de su campo.

Simulación cognitiva
El economista Herbert Simon y Allen Newell estudiaron habilidades humanas para resolver problemas e intentaron formalizarlas, y su trabajo sentó las bases del campo de la inteligencia artificial, la ciencia cognitiva, la investigación de operaciones y la ciencia de la administración. Su equipo de investigación utilizó los resultados de experimentos psicológicos para desarrollar programas que simulaban las técnicas que las personas usaban para resolver problemas. Esta tradición, centrada en la Universidad Carnegie Mellon, culminaría finalmente en el desarrollo de la arquitectura Soar a mediados de la década de 1980.

Basado en logica
A diferencia de Simon y Newell, John McCarthy sintió que las máquinas no necesitaban simular el pensamiento humano, sino que debían tratar de encontrar la esencia del razonamiento abstracto y la resolución de problemas, independientemente de si las personas usaban los mismos algoritmos. Su laboratorio en Stanford (SAIL) se centró en el uso de la lógica formal para resolver una amplia variedad de problemas, incluida la representación del conocimiento, la planificación y el aprendizaje. La lógica también fue el foco del trabajo en la Universidad de Edimburgo y en otras partes de Europa que condujo al desarrollo del lenguaje de programación Prolog y la ciencia de la programación lógica.

Anti-lógica o desaliñada
Los investigadores del MIT (como Marvin Minsky y Seymour Papert) encontraron que resolver problemas difíciles en la visión y el procesamiento del lenguaje natural requerían soluciones ad hoc; argumentaron que no había un principio simple y general (como la lógica) que capturara todos los aspectos de comportamiento inteligente Roger Schank describió sus enfoques «anti-lógicos» como «desaliñados» (en oposición a los paradigmas «limpios» en CMU y Stanford). Las bases de conocimiento de Commonsense (como el Cyc de Doug Lenat) son un ejemplo de IA «desaliñada», ya que deben construirse a mano, un concepto complicado a la vez.

Basado en el conocimiento
Cuando las computadoras con grandes memorias estuvieron disponibles alrededor de 1970, los investigadores de las tres tradiciones comenzaron a desarrollar el conocimiento en las aplicaciones de inteligencia artificial. Esta «revolución del conocimiento» condujo al desarrollo y despliegue de sistemas expertos (introducidos por Edward Feigenbaum), la primera forma verdaderamente exitosa de software AI. El componente clave del sistema arhitecute para todos los sistemas expertos es la Base de conocimientos, que almacena hechos y reglas que ilustran la IA. La revolución del conocimiento también fue impulsada por la realización de que se necesitarían enormes cantidades de conocimiento por muchas aplicaciones de IA simples.

Sub-simbólico
En la década de 1980, el progreso en la IA simbólica parecía detenerse y muchos creían que los sistemas simbólicos nunca serían capaces de imitar todos los procesos de la cognición humana, especialmente la percepción, la robótica, el aprendizaje y el reconocimiento de patrones. Varios investigadores comenzaron a estudiar los enfoques «sub-simbólicos» para problemas específicos de la IA. Los métodos sub-simbólicos logran acercarse a la inteligencia sin representaciones específicas del conocimiento.

Inteligencia encarnada
Esto incluye IA encarnada, situada, basada en el comportamiento y nouvelle. Investigadores del campo relacionado con la robótica, como Rodney Brooks, rechazaron la inteligencia artificial simbólica y se centraron en los problemas de ingeniería básica que permitirían a los robots moverse y sobrevivir. Su trabajo revivió el punto de vista no simbólico de los primeros investigadores cibernéticos de la década de 1950 y reintrodujo el uso de la teoría de control en la IA. Esto coincidió con el desarrollo de la tesis de la mente incorporada en el campo relacionado de la ciencia cognitiva: la idea de que se requieren aspectos del cuerpo (como el movimiento, la percepción y la visualización) para una mayor inteligencia.

Dentro de la robótica del desarrollo, los enfoques de aprendizaje del desarrollo se desarrollan para permitir que los robots acumulen repertorios de nuevas habilidades a través de la autoexploración autónoma, la interacción social con maestros humanos y el uso de mecanismos de guía (aprendizaje activo, maduración, sinergias motoras, etc.).

Inteligencia computacional y soft computing.
David Rumelhart y otros reavivaron el interés en las redes neuronales y el «conexionismo» a mediados de los años ochenta. Las redes neuronales artificiales son un ejemplo de computación flexible: son soluciones a problemas que no se pueden resolver con total certeza lógica, y donde una solución aproximada suele ser suficiente. Otros enfoques de computación flexible para la IA incluyen sistemas difusos, computación evolutiva y muchas herramientas estadísticas. La aplicación de soft computing a la IA se estudia colectivamente por la disciplina emergente de la inteligencia computacional.

Aprendizaje estadístico
Gran parte del GOFAI tradicional se atascó en parches ad hoc a computación simbólica que funcionó en sus propios modelos de juguete pero no logró generalizar los resultados del mundo real. Sin embargo, alrededor de la década de 1990, los investigadores de la IA adoptaron herramientas matemáticas sofisticadas, como los modelos ocultos de Markov (HMM), la teoría de la información y la teoría de decisión bayesiana normativa para comparar o unificar arquitecturas en competencia. El lenguaje matemático compartido permitió un alto nivel de colaboración con campos más establecidos (como matemática, economía o investigación de operaciones). En comparación con GOFAI, las nuevas técnicas de «aprendizaje estadístico», como HMM y redes neuronales, obtuvieron mayores niveles de precisión en muchos dominios prácticos como la minería de datos, sin adquirir necesariamente una comprensión semántica de los conjuntos de datos. El aumento de los éxitos con datos del mundo real llevó a un mayor énfasis en la comparación de diferentes enfoques con los datos de prueba compartidos para ver qué enfoque funcionó mejor en un contexto más amplio que el proporcionado por los modelos de juguetes idiosincrásicos; La investigación de AI se estaba volviendo más científica. Hoy en día los resultados de los experimentos son a menudo rigurosamente medibles, y algunas veces (con dificultad) son reproducibles. Diferentes técnicas de aprendizaje estadístico tienen diferentes limitaciones; por ejemplo, HMM básico no puede modelar las infinitas combinaciones posibles de lenguaje natural. Los críticos señalan que el cambio de GOFAI al aprendizaje estadístico a menudo también es un alejamiento de Exlainable AI. En la investigación de AGI, algunos académicos advierten sobre la excesiva dependencia del aprendizaje estadístico y argumentan que la investigación continua sobre GOFAI seguirá siendo necesaria para alcanzar la inteligencia general.

Integrando los enfoques.

Paradigma agente inteligente
Un agente inteligente es un sistema que percibe su entorno y realiza acciones que maximizan sus posibilidades de éxito. Los agentes inteligentes más simples son programas que resuelven problemas específicos. Los agentes más complicados incluyen seres humanos y organizaciones de seres humanos (como las empresas). El paradigma permite a los investigadores comparar directamente o incluso combinar diferentes enfoques para problemas aislados, preguntando qué agente es el mejor para maximizar una «función objetivo» dada. Un agente que resuelve un problema específico puede usar cualquier enfoque que funcione: algunos agentes son simbólicos y lógicos, otros son redes neuronales artificiales sub-simbólicas y otros pueden usar nuevos enfoques. El paradigma también brinda a los investigadores un lenguaje común para comunicarse con otros campos, como la teoría de la decisión y la economía, que también utilizan conceptos de agentes abstractos. La construcción de un agente completo requiere que los investigadores aborden problemas realistas de integración; por ejemplo, dado que los sistemas sensoriales proporcionan información incierta sobre el entorno, los sistemas de planificación deben poder funcionar en presencia de incertidumbre. El paradigma del agente inteligente fue ampliamente aceptado durante la década de los noventa.
Arquitecturas de agentes y arquitecturas cognitivas.
Los investigadores han diseñado sistemas para construir sistemas inteligentes a partir de agentes inteligentes que interactúan en un sistema multiagente. Un sistema de control jerárquico proporciona un puente entre la IA sub-simbólica en sus niveles más bajos, reactivos y la IA simbólica tradicional en sus niveles más altos, donde las restricciones de tiempo relajado permiten la planificación y el modelado mundial. Algunas arquitecturas cognitivas están hechas a medida para resolver un problema estrecho; otros, como Soar, están diseñados para imitar la cognición humana y proporcionar información sobre la inteligencia general. Las extensiones modernas de Soar son sistemas híbridos inteligentes que incluyen componentes simbólicos y sub-simbólicos.

Herramientas

AI ha desarrollado una gran cantidad de herramientas para resolver los problemas más difíciles de la informática. Algunos de los más generales de estos métodos se discuten a continuación.

Búsqueda y optimización.
Muchos problemas de la inteligencia artificial pueden resolverse en teoría mediante la búsqueda inteligente de muchas soluciones posibles: el razonamiento se puede reducir para realizar una búsqueda. Por ejemplo, la prueba lógica se puede ver como la búsqueda de una ruta que va desde las premisas hasta las conclusiones, donde cada paso es la aplicación de una regla de inferencia. Los algoritmos de planificación buscan a través de árboles de metas y submetas, intentando encontrar un camino hacia una meta objetivo, un proceso llamado análisis de medios y fines. Los algoritmos de robótica para mover extremidades y agarrar objetos utilizan búsquedas locales en el espacio de configuración. Muchos algoritmos de aprendizaje utilizan algoritmos de búsqueda basados ​​en la optimización.

Las búsquedas exhaustivas simples rara vez son suficientes para la mayoría de los problemas del mundo real: el espacio de búsqueda (el número de lugares para buscar) crece rápidamente a números astronómicos. El resultado es una búsqueda que es demasiado lenta o que nunca se completa. La solución, para muchos problemas, es usar «heurísticas» o «reglas generales» que prioricen las elecciones en favor de aquellas que tienen más probabilidades de alcanzar una meta y hacerlo en un número menor de pasos. En algunas metodologías de búsqueda, las heurísticas también pueden servir para eliminar por completo algunas opciones que probablemente no conduzcan a un objetivo (llamado «podar el árbol de búsqueda»). Los heurísticos suministran al programa una «mejor estimación» del camino en el que se encuentra la solución. Las heurísticas limitan la búsqueda de soluciones a un tamaño de muestra más pequeño.

Un tipo de búsqueda muy diferente llegó a la prominencia en la década de 1990, basado en la teoría matemática de la optimización. Para muchos problemas, es posible comenzar la búsqueda con alguna forma de conjetura y luego refinarla de manera incremental hasta que no se puedan hacer más refinamientos. Estos algoritmos se pueden visualizar como una escalada ciega: comenzamos la búsqueda en un punto aleatorio del paisaje y luego, por saltos o pasos, seguimos avanzando hacia arriba, hasta llegar a la cima. Otros algoritmos de optimización son el recocido simulado, la búsqueda de haces y la optimización aleatoria.

La computación evolutiva utiliza una forma de búsqueda de optimización. Por ejemplo, pueden comenzar con una población de organismos (las conjeturas) y luego permitirles mutar y recombinarse, seleccionando solo el más apto para sobrevivir a cada generación (refinando las conjeturas). Los algoritmos evolutivos clásicos incluyen algoritmos genéticos, programación de expresión génica y programación genética. Alternativamente, los procesos de búsqueda distribuida pueden coordinarse a través de algoritmos de inteligencia de enjambre. Dos algoritmos de enjambre populares utilizados en la búsqueda son la optimización de enjambre de partículas (inspirada en el rebaño de aves) y la optimización de la colonia de hormigas (inspirada en los rastros de hormigas).

Lógica
La lógica se utiliza para la representación del conocimiento y la resolución de problemas, pero también se puede aplicar a otros problemas. Por ejemplo, el algoritmo satplan utiliza la lógica para la planificación y la programación de la lógica inductiva es un método para el aprendizaje.

Se utilizan varias formas diferentes de lógica en la investigación de la IA. La lógica proposicional implica funciones de verdad tales como «o» y «no». La lógica de primer orden agrega cuantificadores y predicados, y puede expresar hechos sobre los objetos, sus propiedades y sus relaciones entre sí. La teoría de conjuntos difusos asigna un «grado de verdad» (entre 0 y 1) a afirmaciones vagas como «Alicia es vieja» (o rica, o alta, o hambrienta) que son demasiado imprecisas lingüísticamente para ser completamente verdaderas o falsas. La lógica difusa se usa con éxito en los sistemas de control para permitir que los expertos contribuyan con reglas vagas, tales como «si está cerca de la estación de destino y se mueve rápido, aumente la presión de frenado del tren»; estas reglas vagas se pueden refinar numéricamente dentro del sistema. La lógica difusa no logra escalar bien en las bases de conocimiento; muchos investigadores de IA cuestionan la validez de encadenar inferencias de lógica difusa.

Las lógicas predeterminadas, las lógicas no monótonas y la circunscripción son formas de lógica diseñadas para ayudar con el razonamiento predeterminado y el problema de calificación. Se han diseñado varias extensiones de lógica para manejar dominios específicos de conocimiento, como: descripción lógicas; cálculo de situación, cálculo de eventos y cálculo fluido (para representar eventos y tiempo); cálculo causal; cálculo de creencias; y lógicas modales.

En general, la lógica simbólica cualitativa es frágil y se escala poco en presencia de ruido u otra incertidumbre. Las excepciones a las reglas son numerosas y es difícil que los sistemas lógicos funcionen en presencia de reglas contradictorias.

Métodos probabilísticos para el razonamiento incierto.
Muchos problemas en IA (en razonamiento, planificación, aprendizaje, percepción y robótica) requieren que el agente opere con información incompleta o incierta. Los investigadores de AI han ideado una serie de herramientas poderosas para resolver estos problemas utilizando métodos de la teoría de la probabilidad y la economía.

Las redes bayesianas son una herramienta muy general que se puede usar para una gran cantidad de problemas: razonamiento (usando el algoritmo de inferencia bayesiano), aprendizaje (usando el algoritmo de expectativa-maximización), planificación (usando redes de decisión) y percepción (usando redes dinámicas de Bayes) ). Los algoritmos probabilísticos también pueden usarse para filtrar, predecir, suavizar y encontrar explicaciones de flujos de datos, ayudando a los sistemas de percepción a analizar procesos que ocurren a lo largo del tiempo (por ejemplo, modelos ocultos de Markov o filtros de Kalman). Comparada con la lógica simbólica, la inferencia bayesiana formal es computacionalmente costosa. Para que la inferencia sea manejable, la mayoría de las observaciones deben ser condicionalmente independientes entre sí. Los gráficos complicados con diamantes u otros «bucles» (ciclos no dirigidos) pueden requerir un método sofisticado como el Monte Carlo de Cadena de Markov, que distribuye un conjunto de caminantes aleatorios a través de la red bayesiana e intenta converger en una evaluación de las probabilidades condicionales. Las redes bayesianas se utilizan en Xbox Live para calificar y emparejar jugadores; Las victorias y las pérdidas son «evidencia» de lo bueno que es un jugador. AdSense utiliza una red bayesiana con más de 300 millones de bordes para saber qué anuncios servir.

Un concepto clave de la ciencia de la economía es la «utilidad»: una medida de cuán valioso es algo para un agente inteligente. Se han desarrollado herramientas matemáticas precisas que analizan cómo un agente puede tomar decisiones y planificar, utilizando la teoría de decisiones, el análisis de decisiones y la teoría del valor de la información. Estas herramientas incluyen modelos como los procesos de decisión de Markov, redes de decisión dinámicas, teoría de juegos y diseño de mecanismos.

Clasificadores y métodos de aprendizaje estadístico.
Las aplicaciones de IA más simples se pueden dividir en dos tipos: clasificadores («si es brillante entonces diamante») y controladores («si es brillante, entonces recoger»). Sin embargo, los controladores también clasifican las condiciones antes de inferir acciones y, por lo tanto, la clasificación es una parte central de muchos sistemas de inteligencia artificial. Los clasificadores son funciones que utilizan la coincidencia de patrones para determinar la coincidencia más cercana. Se pueden ajustar de acuerdo con los ejemplos, lo que los hace muy atractivos para su uso en la IA. Estos ejemplos se conocen como observaciones o patrones. En el aprendizaje supervisado, cada patrón pertenece a una cierta clase predefinida. Una clase puede ser vista como una decisión que debe tomarse. Todas las observaciones combinadas con sus etiquetas de clase se conocen como un conjunto de datos. Cuando se recibe una nueva observación, esa observación se clasifica según la experiencia previa.

Un clasificador puede ser entrenado de varias maneras; Hay muchos enfoques estadísticos y de aprendizaje automático. El árbol de decisión es quizás el algoritmo de aprendizaje automático más utilizado. Otros clasificadores ampliamente utilizados son la red neuronal, el algoritmo vecino más cercano k, los métodos del kernel como la máquina de vectores de soporte (SVM), el modelo de mezcla gaussiana y el extremadamente popular clasificador de Bayes. El rendimiento del clasificador depende en gran medida de las características de los datos a clasificar, como el tamaño del conjunto de datos, la dimensionalidad y el nivel de ruido. Los clasificadores basados ​​en modelos funcionan bien si el modelo asumido es un ajuste extremadamente bueno para los datos reales. De lo contrario, si no hay un modelo coincidente disponible, y si la precisión (en lugar de la velocidad o la escalabilidad) es la única preocupación, la idea convencional es que los clasificadores discriminativos (especialmente los SVM) tienden a ser más precisos que los clasificadores basados ​​en modelos, como «Bayes ingenuos» en los conjuntos de datos más prácticos.

Redes neuronales artificiales
Las redes neuronales, o redes neuronales, se inspiraron en la arquitectura de las neuronas en el cerebro humano. Una simple «neurona» N acepta entradas de muchas otras neuronas, cada una de las cuales, cuando se activa (o «dispara»), emite un «voto» ponderado a favor o en contra de si la neurona N debería activarse. El aprendizaje requiere un algoritmo para ajustar estos pesos en función de los datos de entrenamiento; un algoritmo simple (denominado «disparar juntos, cablearse juntos») es aumentar el peso entre dos neuronas conectadas cuando la activación de una desencadena la activación exitosa de otra. La red forma «conceptos» que se distribuyen entre una subred de neuronas compartidas que tienden a activarse juntas; un concepto que significa «pierna» se puede acoplar con una subred que significa «pie» que incluye el sonido para «pie». Las neuronas tienen un espectro continuo de activación; Además, las neuronas pueden procesar insumos de forma no lineal en lugar de pesar votos directos. Las redes neuronales modernas pueden aprender funciones continuas y, sorprendentemente, operaciones lógicas digitales. Los primeros éxitos de las redes neuronales incluyeron la predicción del mercado de valores y (en 1995) un auto en su mayoría auto-manejo. En la década de 2010, los avances en las redes neuronales que utilizan el aprendizaje profundo empujaron a la inteligencia artificial a la conciencia pública generalizada y contribuyeron a un enorme aumento en el gasto de la IA corporativa; por ejemplo, las fusiones y adquisiciones relacionadas con la IA en 2017 fueron más de 25 veces mayores que en 2015.

El estudio de redes neuronales artificiales sin aprendizaje comenzó en la década anterior a la fundación del campo de investigación de la IA, en el trabajo de Walter Pitts y Warren McCullouch. Frank Rosenblatt inventó el perceptrón, una red de aprendizaje con una sola capa, similar al antiguo concepto de regresión lineal. Los primeros pioneros también incluyen a Alexey Grigorevich Ivakhnenko, Teuvo Kohonen, Stephen Grossberg, Kunihiko Fukushima, Christoph von der Malsburg, David Willshaw, Shun-Ichi Amari, Bernard Widrow, John Hopfield, Eduardo R. Caianiello y otros.

Las principales categorías de redes son las redes neuronales acíclicas o de avance (donde la señal pasa en una sola dirección) y las redes neuronales recurrentes (que permiten la retroalimentación y las memorias a corto plazo de eventos de entrada anteriores). Entre las redes feedforward más populares se encuentran perceptrones, perceptrones multicapa y redes de base radial. Las redes neuronales pueden aplicarse al problema del control inteligente (para robótica) o el aprendizaje, utilizando técnicas tales como el aprendizaje de Hebbian («disparar juntos, cablearse juntos»), GMDH o aprendizaje competitivo.

Hoy en día, las redes neuronales a menudo son entrenadas por el algoritmo de propagación hacia atrás, que había existido desde 1970 como el modo inverso de diferenciación automática publicado por Seppo Linnainmaa, y fue introducido en las redes neuronales por Paul Werbos.

La memoria temporal jerárquica es un enfoque que modela algunas de las propiedades estructurales y algorítmicas del neocórtex.

En resumen, la mayoría de las redes neuronales utilizan alguna forma de descenso de gradiente en una topología neural creada a mano. Sin embargo, algunos grupos de investigación, como Uber, argumentan que la simple neuroevolución para mutar las nuevas topologías y pesos de redes neuronales puede ser competitiva con los enfoques sofisticados de pendiente de gradiente. Una ventaja de la neuroevolución es que puede ser menos propenso a quedar atrapado en «callejones sin salida».

Redes neuronales de avance profundo
El aprendizaje profundo es cualquier red neuronal artificial que puede aprender una larga cadena de vínculos causales. Por ejemplo, una red feedforward con seis capas ocultas puede aprender una cadena causal de siete enlaces (seis capas ocultas + capa de salida) y tiene una profundidad de «ruta de asignación de crédito» (CAP) de siete. Muchos sistemas de aprendizaje profundo deben ser capaces de aprender cadenas de diez o más vínculos causales de longitud. El aprendizaje profundo ha transformado muchos subcampos importantes de inteligencia artificial, incluida la visión por computadora, el reconocimiento de voz, el procesamiento del lenguaje natural y otros.

Según una descripción general, la expresión «Aprendizaje profundo» fue introducida en la comunidad de Aprendizaje automático por Rina Dechter en 1986 y ganó fuerza después de que Igor Aizenberg y sus colegas lo introdujeran en Redes neuronales artificiales en 2000. Las primeras redes funcionales de Aprendizaje profundo fueron publicadas por Alexey Grigorevich Ivakhnenko y VG Lapa en 1965. [página necesaria] Estas redes se entrenan una capa a la vez. El artículo de Ivakhnenko de 1971 describe el aprendizaje de un profundo perceptrón multicapa hacia adelante con ocho capas, ya mucho más profundo que muchas redes posteriores. En 2006, una publicación de Geoffrey Hinton y Ruslan Salakhutdinov introdujo otra forma de entrenamiento previo en redes neuronales (FNN, por sus siglas en inglés) de múltiples capas de una capa a la vez, tratando cada capa como una máquina de Boltzmann restringida no supervisada, y luego usó la propagación inversa sintonia FINA. Similar a las redes neuronales artificiales poco profundas, las redes neuronales profundas pueden modelar relaciones complejas no lineales. En los últimos años, los avances tanto en los algoritmos de aprendizaje automático como en el hardware informático han llevado a métodos más eficientes para entrenar redes neuronales profundas que contienen muchas capas de unidades ocultas no lineales y una capa de salida muy grande.

El aprendizaje profundo a menudo utiliza redes neuronales convolucionales (CNN, por sus siglas en inglés), cuyos orígenes se remontan al Neocognitron introducido por Kunihiko Fukushima en 1980. En 1989, Yann LeCun y sus colegas aplicaron la propagación hacia atrás a dicha arquitectura. A principios de la década de 2000, en una aplicación industrial, las CNN ya procesaban aproximadamente entre el 10% y el 20% de todos los cheques emitidos en los EE. UU. Desde 2011, las implementaciones rápidas de CNN en GPU han ganado muchas competiciones de reconocimiento de patrones visuales.

Las CNN con 12 capas convolucionales se usaron en conjunto con el aprendizaje de refuerzo por «AlphaGo Lee» de Deepmind, el programa que venció a un campeón Go en 2016.

Redes neuronales profundas y recurrentes
Desde el principio, el aprendizaje profundo también se aplicó al aprendizaje en secuencia con redes neuronales recurrentes (RNN) que, en teoría, están completas y pueden ejecutar programas arbitrarios para procesar secuencias arbitrarias de entradas. La profundidad de un RNN es ilimitada y depende de la longitud de su secuencia de entrada; Así, una RNN es un ejemplo de aprendizaje profundo. Las RNN se pueden entrenar por pendiente de gradiente, pero sufren el problema de la degradación de la desaparición. En 1992, se demostró que el entrenamiento previo no supervisado de una pila de redes neuronales recurrentes puede acelerar el aprendizaje supervisado subsiguiente de problemas secuenciales profundos.

Numerosos investigadores utilizan ahora variantes de una NN recurrente de aprendizaje profundo llamada red de memoria a corto plazo (LSTM) larga publicada por Hochreiter & Schmidhuber en 1997. La TMTM es a menudo entrenada por la Clasificación Temporal Conexionista (CTC). En Google, Microsoft y Baidu, este enfoque ha revolucionado el reconocimiento de voz. Por ejemplo, en 2015, el reconocimiento de voz de Google experimentó un salto espectacular en el rendimiento del 49% a través de LSTM capacitado para CTC, que ahora está disponible a través de Google Voice para miles de millones de usuarios de teléfonos inteligentes. Google también utilizó LSTM para mejorar la traducción automática, el modelado de idiomas y el procesamiento multilingüe de idiomas. LSTM combinado con CNN también mejoró el subtitulado automático de imágenes y una gran cantidad de otras aplicaciones.

Evaluando el progreso
AI, como la electricidad o la máquina de vapor, es una tecnología de propósito general. No hay consenso sobre cómo caracterizar las tareas en las que la IA tiende a sobresalir. Si bien los proyectos como AlphaZero han logrado generar su propio conocimiento desde cero, muchos otros proyectos de aprendizaje automático requieren grandes conjuntos de datos de capacitación. El investigador Andrew Ng ha sugerido, como una «regla de oro altamente imperfecta», que «casi cualquier cosa que un humano típico pueda hacer con menos de un segundo de pensamiento mental, probablemente podamos ahora o en un futuro próximo automatizar el uso de la IA». La paradoja de Moravec sugiere que la IA demora a los humanos en muchas tareas que el cerebro humano ha desarrollado específicamente para funcionar bien.

Los juegos proporcionan un punto de referencia bien publicitado para evaluar las tasas de progreso. AlphaGo alrededor de 2016 puso fin a la era de los puntos de referencia de los juegos de mesa clásicos. Los juegos de conocimiento imperfecto proporcionan nuevos desafíos a la IA en el área de la teoría de juegos. Los deportes electrónicos como StarCraft continúan proporcionando puntos de referencia públicos adicionales. Hay muchas competiciones y premios, como el Reto de Imagenet, para promover la investigación en inteligencia artificial. Las principales áreas de competencia incluyen inteligencia de máquina en general, comportamiento conversacional, minería de datos, autos robóticos y fútbol robot, así como juegos convencionales.

El «juego de imitación» (una interpretación de la prueba de Turing de 1950 que evalúa si una computadora puede imitar a un ser humano) se considera hoy en día demasiado explotable para ser un punto de referencia significativo. Un derivado de la prueba de Turing es la prueba de Turing pública completamente automatizada para indicar a Computers and Humans Apart (CAPTCHA). Como su nombre lo indica, esto ayuda a determinar que un usuario es una persona real y no una computadora que se hace pasar por un ser humano.En contraste con la prueba de Turing estándar, CAPTCHA es administrada por una máquina y dirigida a ser un ser humano en lugar de ser administrada por un ser humano y dirigida a una máquina. Una computadora le pide a un usuario que complete una prueba simple y luego genere una calificación para esa prueba. Las computadoras no pueden resolver el problema, así como las soluciones correctas son el resultado de una persona que realiza la prueba. Un tipo común de CAPTCHA es la prueba que requiere la escritura de letras distorsionadas, números o símbolos que aparecen en una imagen indescifrable por una computadora.

Las pruebas propuestas de «inteligencia universal» pretenden compararlo con tan bien las máquinas, los humanos y los animales no humanos. En un extremo, el conjunto de pruebas puede contener todos los problemas posibles, ponderados por la complejidad de Kolmogorov; Desafortunadamente, estos conjuntos de problemas se relacionan con los ejercicios emparejados de emparejamiento de patrones en los que una IA sintonizada puede superar fácilmente los niveles de rendimiento humanos.