Inteligência artificial

Inteligência artificial (IA), às vezes chamada de inteligência de máquina, é inteligência demonstrada por máquinas, em contraste com a inteligência natural exibida por humanos e outros animais. Na ciência da computação, a pesquisa em IA é definida como o estudo de “agentes inteligentes”: qualquer dispositivo que perceba seu ambiente e realize ações que maximizem sua chance de atingir seus objetivos com sucesso. Coloquialmente, o termo “inteligência artificial” é aplicado quando uma máquina imita funções “cognitivas” que os humanos associam a outras mentes humanas, como “aprendizado” e “resolução de problemas”.

O escopo da IA ​​é contestado: à medida que as máquinas se tornam cada vez mais capazes, tarefas consideradas como “inteligência” são frequentemente removidas da definição, um fenômeno conhecido como o efeito AI, que leva ao gracejo “AI é o que ainda não foi feito “[citação não encontrada] Por exemplo, o reconhecimento óptico de caracteres é freqüentemente excluído da” inteligência artificial “, tendo se tornado uma tecnologia de rotina. As capacidades de máquinas modernas geralmente classificadas como IA incluem o entendimento humano com sucesso, competindo no mais alto nível em sistemas de jogos estratégicos (como xadrez e Go), carros de operação autônoma e roteamento inteligente em redes de distribuição de conteúdo e simulações militares.

A inteligência artificial foi fundada como uma disciplina acadêmica em 1956, e nos anos seguintes experimentou várias ondas de otimismo, seguidas de desapontamento e perda de financiamento (conhecida como “inverno AI”), seguidas de novas abordagens, sucesso e financiamento renovado. . Durante a maior parte de sua história, a pesquisa de IA foi dividida em subáreas que muitas vezes não se comunicam entre si. Esses subcampos baseiam-se em considerações técnicas, como objetivos específicos (por exemplo, “robótica” ou “aprendizado de máquina”), o uso de ferramentas específicas (“lógica” ou redes neurais artificiais) ou diferenças filosóficas profundas. Subcampos também foram baseados em fatores sociais (instituições particulares ou o trabalho de pesquisadores particulares).

Os problemas (ou objetivos) tradicionais da pesquisa da IA ​​incluem raciocínio, representação do conhecimento, planejamento, aprendizado, processamento de linguagem natural, percepção e a capacidade de mover e manipular objetos. A inteligência geral está entre os objetivos de longo prazo do campo. Abordagens incluem métodos estatísticos, inteligência computacional e inteligência artificial tradicional. Muitas ferramentas são usadas em IA, incluindo versões de busca e otimização matemática, redes neurais artificiais e métodos baseados em estatística, probabilidade e economia. O campo da IA ​​baseia-se em ciência da computação, engenharia da informação, matemática, psicologia, lingüística, filosofia e muitas outras.

O campo foi fundado na alegação de que a inteligência humana “pode ​​ser descrita com tanta precisão que uma máquina pode ser feita para simulá-la”. Isso levanta argumentos filosóficos sobre a natureza da mente e a ética da criação de seres artificiais dotados de inteligência semelhante à humana, que são questões que foram exploradas pelo mito, ficção e filosofia desde a antiguidade. Algumas pessoas também consideram que a IA é um perigo para a humanidade se progredir inabalável. Outros acreditam que a IA, ao contrário das revoluções tecnológicas anteriores, criará um risco de desemprego em massa. No entanto, o Google está promovendo um concurso global para desenvolver uma IA que é benéfico para a humanidade.

No século XXI, as técnicas de IA experimentaram um ressurgimento após os avanços simultâneos no poder do computador, grandes quantidades de dados e compreensão teórica; e as técnicas de IA tornaram-se uma parte essencial da indústria de tecnologia, ajudando a resolver muitos problemas desafiadores em ciência da computação, engenharia de software e pesquisa operacional.

Abordagens
Não existe uma teoria ou paradigma unificador estabelecido que guie a pesquisa da IA. Pesquisadores discordam sobre muitos assuntos. Algumas das perguntas mais antigas que ficaram sem resposta são: a inteligência artificial deveria simular a inteligência natural estudando psicologia ou neurobiologia? Ou a biologia humana é tão irrelevante para a pesquisa da IA ​​quanto a biologia das aves é para a engenharia aeronáutica? O comportamento inteligente pode ser descrito usando princípios simples e elegantes (como lógica ou otimização)? Ou é necessário, necessariamente, resolver um grande número de problemas completamente não relacionados?

Cibernética e simulação cerebral
Nas décadas de 1940 e 1950, vários pesquisadores exploraram a conexão entre neurobiologia, teoria da informação e cibernética. Alguns deles construíram máquinas que usavam redes eletrônicas para exibir inteligência rudimentar, como as tartarugas de W. Grey Walter e a Johns Hopkins Beast. Muitos desses pesquisadores se reuniram para reuniões da Sociedade Teleológica da Universidade de Princeton e do Ratio Club na Inglaterra. Por volta de 1960, essa abordagem foi largamente abandonada, embora elementos dela fossem revividos na década de 1980.

Simbólico
Quando o acesso a computadores digitais se tornou possível em meados da década de 1950, a pesquisa da IA ​​começou a explorar a possibilidade de que a inteligência humana pudesse ser reduzida à manipulação de símbolos. A pesquisa foi centrada em três instituições: Carnegie Mellon University, Stanford e MIT, e conforme descrito abaixo, cada uma desenvolveu seu próprio estilo de pesquisa. John Haugeland nomeou essas abordagens simbólicas para AI “good old fashioned AI” ou “GOFAI”. Durante a década de 1960, as abordagens simbólicas obtiveram grande sucesso ao simular o pensamento de alto nível em pequenos programas de demonstração. Abordagens baseadas em cibernética ou redes neurais artificiais foram abandonadas ou colocadas em segundo plano. Pesquisadores nos anos 1960 e 1970 estavam convencidos de que as abordagens simbólicas acabariam tendo sucesso em criar uma máquina com inteligência geral artificial e consideravam isso o objetivo de seu campo.

Simulação cognitiva
O economista Herbert Simon e Allen Newell estudaram as habilidades humanas de solução de problemas e tentaram formalizá-las, e seu trabalho estabeleceu as bases do campo da inteligência artificial, bem como da ciência cognitiva, da pesquisa operacional e da ciência gerencial. Sua equipe de pesquisa usou os resultados de experimentos psicológicos para desenvolver programas que simulavam as técnicas que as pessoas usavam para resolver problemas. Essa tradição, centrada na Universidade Carnegie Mellon, culminaria no desenvolvimento da arquitetura Soar em meados da década de 1980.

Baseado em lógica
Ao contrário de Simon e Newell, John McCarthy achava que as máquinas não precisavam simular o pensamento humano, mas deveriam tentar encontrar a essência do raciocínio abstrato e a solução de problemas, independentemente de as pessoas usarem os mesmos algoritmos. Seu laboratório em Stanford (SAIL) concentrou-se no uso da lógica formal para resolver uma ampla variedade de problemas, incluindo representação do conhecimento, planejamento e aprendizado. A lógica também foi o foco do trabalho na Universidade de Edimburgo e em outros lugares da Europa, que levou ao desenvolvimento da linguagem de programação Prolog e à ciência da programação lógica.

Anti-lógica ou desalinhada
Pesquisadores do MIT (como Marvin Minsky e Seymour Papert) descobriram que a solução de problemas difíceis de visão e processamento de linguagem natural exigia soluções ad-hoc – eles argumentavam que não havia princípio simples e geral (como lógica) que capturasse todos os aspectos de comportamento inteligente. Roger Schank descreveu suas abordagens “anti-lógica” como “desalinhadas” (em oposição aos paradigmas “limpos” da CMU e Stanford). As bases de conhecimento do senso comum (como o Cyc de Doug Lenat) são um exemplo de inteligência artificial, já que devem ser construídas à mão, um conceito complicado de cada vez.

Baseada no conhecimento
Quando computadores com grandes memórias se tornaram disponíveis por volta de 1970, pesquisadores de todas as três tradições começaram a construir conhecimento em aplicações de IA. Essa “revolução do conhecimento” levou ao desenvolvimento e à implantação de sistemas especialistas (apresentados por Edward Feigenbaum), a primeira forma realmente bem-sucedida de software de IA. Componente chave no sistema de arhitecute para todos os sistemas especialistas é a base de conhecimento, que armazena fatos e regras que ilustram AI. A revolução do conhecimento também foi impulsionada pela percepção de que enormes quantidades de conhecimento seriam requeridas por muitas aplicações simples de IA.

Sub-simbólico
Na década de 1980, o progresso da IA ​​simbólica parecia protelar e muitos acreditavam que os sistemas simbólicos nunca seriam capazes de imitar todos os processos da cognição humana, especialmente a percepção, a robótica, a aprendizagem e o reconhecimento de padrões. Diversos pesquisadores começaram a investigar abordagens “sub-simbólicas” para problemas específicos de IA. Os métodos sub-simbólicos conseguem abordar a inteligência sem representações específicas de conhecimento.

Inteligência Incorporada
Isso inclui AI incorporada, situada, baseada no comportamento e nouvelle. Pesquisadores do campo relacionado da robótica, como Rodney Brooks, rejeitaram a IA simbólica e se concentraram nos problemas básicos de engenharia que permitiriam que os robôs se movessem e sobrevivessem. Seu trabalho reviveu o ponto de vista não-simbólico dos primeiros pesquisadores cibernéticos da década de 1950 e reintroduziu o uso da teoria do controle na IA. Isso coincidiu com o desenvolvimento da tese da mente incorporada no campo relacionado da ciência cognitiva: a ideia de que aspectos do corpo (como movimento, percepção e visualização) são necessários para uma inteligência superior.

Dentro da robótica desenvolvimental, as abordagens de aprendizagem desenvolvimental são elaboradas para permitir que os robôs acumulem repertórios de novas habilidades através da auto-exploração autônoma, interação social com professores humanos e uso de mecanismos de orientação (aprendizagem ativa, maturação, sinergias motoras, etc.).

Inteligência Computacional e Soft Computing
O interesse em redes neurais e “conexionismo” foi revivido por David Rumelhart e outros em meados dos anos 80. Redes neurais artificiais são um exemplo de soft computing – elas são soluções para problemas que não podem ser resolvidos com certeza lógica completa, e onde uma solução aproximada é muitas vezes suficiente. Outras abordagens de soft computing para IA incluem sistemas fuzzy, computação evolucionária e muitas ferramentas estatísticas. A aplicação da computação leve à IA é estudada coletivamente pela emergente disciplina da inteligência computacional.

Aprendizagem estatística
Grande parte do GOFAI tradicional ficou atolado em patches ad hoc para computação simbólica que funcionava em seus próprios modelos de brinquedos, mas não conseguiu generalizar para resultados do mundo real. No entanto, por volta da década de 1990, os pesquisadores de IA adotaram ferramentas matemáticas sofisticadas, como os modelos ocultos de Markov (HMM), a teoria da informação e a teoria de decisão bayesiana normativa para comparar ou unificar arquiteturas concorrentes. A linguagem matemática compartilhada permitiu um alto nível de colaboração com campos mais estabelecidos (como matemática, economia ou pesquisa operacional). Em comparação com o GOFAI, novas técnicas de “aprendizado estatístico”, como HMM e redes neurais, estavam ganhando níveis mais altos de precisão em muitos domínios práticos, como mineração de dados, sem necessariamente adquirir entendimento semântico dos conjuntos de dados. Os maiores sucessos com dados do mundo real levaram a uma ênfase crescente na comparação de diferentes abordagens contra dados de testes compartilhados para ver qual abordagem era melhor em um contexto mais amplo do que a fornecida por modelos de brinquedo idiossincráticos; A pesquisa de IA estava se tornando mais científica. Hoje em dia, os resultados dos experimentos são frequentemente rigorosamente mensuráveis ​​e às vezes (com dificuldade) reproduzíveis. Diferentes técnicas de aprendizagem estatística têm diferentes limitações; por exemplo, o HMM básico não pode modelar as infinitas combinações possíveis da linguagem natural. Críticos observam que a mudança do GOFAI para o aprendizado estatístico é freqüentemente também um afastamento da IA ​​Explainável. Na pesquisa da AGI, alguns estudiosos alertam contra o excesso de confiança na aprendizagem estatística e argumentam que a pesquisa contínua no GOFAI ainda será necessária para obter inteligência geral.

Integrando as abordagens

Paradigma de agente inteligente
Um agente inteligente é um sistema que percebe seu ambiente e realiza ações que maximizam suas chances de sucesso. Os agentes inteligentes mais simples são programas que resolvem problemas específicos. Agentes mais complicados incluem seres humanos e organizações de seres humanos (como empresas). O paradigma permite aos pesquisadores comparar diretamente ou mesmo combinar diferentes abordagens para problemas isolados, perguntando qual é o melhor agente para maximizar uma determinada “função-objetivo”. Um agente que resolve um problema específico pode usar qualquer abordagem que funcione – alguns agentes são simbólicos e lógicos, alguns são redes neurais artificiais sub-simbólicas e outros podem usar novas abordagens. O paradigma também oferece aos pesquisadores uma linguagem comum para se comunicar com outros campos – como a teoria da decisão e a economia – que também usam conceitos de agentes abstratos. Construir um agente completo requer que os pesquisadores lidem com problemas realistas de integração; por exemplo, como os sistemas sensoriais fornecem informações incertas sobre o ambiente, os sistemas de planejamento devem ser capazes de funcionar na presença de incerteza. O paradigma do agente inteligente tornou-se amplamente aceito durante os anos 90.
Arquiteturas de agentes e arquiteturas cognitivas
Pesquisadores projetaram sistemas para construir sistemas inteligentes a partir de agentes inteligentes interagentes em um sistema multiagente. Um sistema de controle hierárquico fornece uma ponte entre a IA sub-simbólica em seus níveis mais baixos, os níveis reativos e a IA simbólica tradicional em seus níveis mais altos, onde as restrições de tempo relaxadas permitem planejamento e modelagem mundial. Algumas arquiteturas cognitivas são customizadas para resolver um problema restrito; outros, como o Soar, são projetados para imitar a cognição humana e fornecer informações sobre inteligência geral. As extensões modernas do Soar são sistemas inteligentes híbridos que incluem componentes simbólicos e sub-simbólicos.

Ferramentas

A AI desenvolveu um grande número de ferramentas para resolver os problemas mais difíceis da ciência da computação. Alguns dos métodos mais gerais são discutidos abaixo.

Pesquisa e otimização
Muitos problemas em IA podem ser resolvidos em teoria, através de uma busca inteligente através de muitas soluções possíveis: O raciocínio pode ser reduzido para realizar uma busca. Por exemplo, a prova lógica pode ser vista como uma busca por um caminho que leva de premissas a conclusões, onde cada etapa é a aplicação de uma regra de inferência. Os algoritmos de planejamento pesquisam por meio de árvores de metas e sub-objetivos, tentando encontrar um caminho para uma meta de destino, um processo denominado análise de meios-fins. Algoritmos de robótica para mover membros e objetos de agarrar usam pesquisas locais no espaço de configuração. Muitos algoritmos de aprendizado usam algoritmos de pesquisa baseados em otimização.

Pesquisas exaustivas e simples raramente são suficientes para a maioria dos problemas do mundo real: o espaço de busca (o número de lugares para pesquisar) cresce rapidamente para números astronômicos. O resultado é uma pesquisa que é muito lenta ou nunca é concluída. A solução, para muitos problemas, é usar “heurísticas” ou “regras práticas” que priorizem escolhas em favor das que têm maior probabilidade de atingir uma meta e fazê-lo em um número menor de etapas. Em algumas metodologias de pesquisa, a heurística também pode servir para eliminar completamente algumas escolhas que provavelmente não levam a uma meta (chamada de “podar a árvore de busca”). As heurísticas fornecem ao programa um “melhor palpite” para o caminho no qual a solução está. As heurísticas limitam a busca de soluções em um tamanho de amostra menor.

Um tipo muito diferente de pesquisa ganhou destaque nos anos 90, com base na teoria matemática da otimização. Para muitos problemas, é possível começar a pesquisa com algum tipo de palpite e, então, refinar o palpite incrementalmente até que nenhum refinamento possa ser feito. Esses algoritmos podem ser visualizados como subidas às cegas: começamos a busca em um ponto aleatório na paisagem e então, com saltos ou degraus, continuamos subindo nosso palpite, até chegarmos ao topo. Outros algoritmos de otimização são o recozimento simulado, a busca de feixes e a otimização aleatória.

Computação evolutiva usa uma forma de busca de otimização. Por exemplo, eles podem começar com uma população de organismos (os palpites) e então permitir que eles sofram mutação e recombinação, selecionando apenas os mais aptos para sobreviver a cada geração (refinando os palpites). Algoritmos evolutivos clássicos incluem algoritmos genéticos, programação de expressão gênica e programação genética. Como alternativa, os processos de pesquisa distribuída podem ser coordenados por meio de algoritmos de inteligência de enxame. Dois algoritmos populares de enxame usados ​​na pesquisa são a otimização de enxame de partículas (inspirada pelo flocking de aves) e a otimização de colônias de formigas (inspiradas por trilhas de formigas).

Lógica
A lógica é usada para representação de conhecimento e resolução de problemas, mas também pode ser aplicada a outros problemas. Por exemplo, o algoritmo satplan usa lógica para planejamento e a lógica indutiva é um método de aprendizado.

Várias formas diferentes de lógica são usadas na pesquisa de IA. Lógica proposicional envolve funções verdadeiras como “ou” e “não”. A lógica de primeira ordem adiciona quantificadores e predicados e pode expressar fatos sobre objetos, suas propriedades e suas relações entre si. A teoria dos conjuntos difusos atribui um “grau de verdade” (entre 0 e 1) a declarações vagas como “Alice é velha” (ou rica, alta ou faminta) que são linguisticamente imprecisas para serem completamente verdadeiras ou falsas. A lógica difusa é usada com sucesso em sistemas de controle para permitir que especialistas contribuam com regras vagas, como “se você estiver perto da estação de destino e se mover rapidamente, aumente a pressão de frenagem do trem”; essas regras vagas podem ser numericamente refinadas dentro do sistema. A lógica difusa não escala bem em bases de conhecimento; muitos pesquisadores de IA questionam a validade do encadeamento de inferências da lógica difusa.

Lógicas padrão, lógicas não monótonas e circunscrição são formas de lógica projetadas para ajudar no raciocínio padrão e no problema de qualificação. Diversas extensões de lógica foram projetadas para lidar com domínios específicos do conhecimento, tais como: lógicas de descrição; cálculo de situação, cálculo de eventos e cálculo fluente (para representar eventos e tempo); cálculo causal; cálculo de crença; e lógicas modais.

No geral, a lógica simbólica qualitativa é frágil e escala pouco na presença de ruído ou outra incerteza. As exceções às regras são numerosas e é difícil para os sistemas lógicos funcionarem na presença de regras contraditórias.

Métodos probabilísticos para raciocínio incerto
Muitos problemas em IA (em raciocínio, planejamento, aprendizado, percepção e robótica) exigem que o agente opere com informações incompletas ou incertas. Pesquisadores de IA criaram uma série de ferramentas poderosas para resolver esses problemas usando métodos da teoria da probabilidade e da economia.

As redes bayesianas são uma ferramenta muito genérica que pode ser usada para um grande número de problemas: raciocínio (usando o algoritmo de inferência Bayesiana), aprendizagem (usando o algoritmo de maximização da expectativa), planejamento (usando redes de decisão) e percepção (usando redes Bayesianas dinâmicas). ). Algoritmos probabilísticos também podem ser usados ​​para filtrar, predizer, suavizar e encontrar explicações para fluxos de dados, ajudando os sistemas de percepção a analisar processos que ocorrem ao longo do tempo (por exemplo, modelos ocultos de Markov ou filtros de Kalman). Em comparação com a lógica simbólica, a inferência bayesiana formal é computacionalmente cara. Para inferência de ser tratável, a maioria das observações deve ser condicionalmente independente uma da outra. Gráficos complicados com diamantes ou outros “loops” (ciclos não direcionados) podem exigir um método sofisticado, como Markov Chain Monte Carlo, que espalha um conjunto de walkers aleatórios por toda a rede bayesiana e tenta convergir para uma avaliação das probabilidades condicionais. Redes Bayesianas são usadas no Xbox Live para classificar e combinar jogadores; vitórias e derrotas são “evidências” de quão bom é um jogador. O AdSense usa uma rede bayesiana com mais de 300 milhões de bordas para saber quais anúncios veicular.

Um conceito-chave da ciência da economia é “utilidade”: uma medida de quão valiosa é alguma coisa para um agente inteligente. Ferramentas matemáticas precisas foram desenvolvidas para analisar como um agente pode fazer escolhas e planejar, usando teoria da decisão, análise de decisão e teoria do valor da informação. Essas ferramentas incluem modelos como processos de decisão de Markov, redes dinâmicas de decisão, teoria de jogos e design de mecanismos.

Classificadores e métodos estatísticos de aprendizagem
As aplicações de AI mais simples podem ser divididas em dois tipos: classificadores (“se brilhante, em seguida, diamante”) e controladores (“se brilhante, em seguida, pegar”). Os controladores, no entanto, também classificam as condições antes de inferir ações e, portanto, a classificação forma uma parte central de muitos sistemas de inteligência artificial. Classificadores são funções que usam correspondência de padrões para determinar uma correspondência mais próxima. Eles podem ser ajustados de acordo com exemplos, tornando-os muito atraentes para uso em IA. Esses exemplos são conhecidos como observações ou padrões. Na aprendizagem supervisionada, cada padrão pertence a uma determinada classe predefinida. Uma aula pode ser vista como uma decisão que precisa ser tomada. Todas as observações combinadas com seus rótulos de classe são conhecidas como um conjunto de dados. Quando uma nova observação é recebida, essa observação é classificada com base na experiência anterior.

Um classificador pode ser treinado de várias maneiras; Existem muitas abordagens estatísticas e de aprendizado de máquina. A árvore de decisão é talvez o algoritmo de aprendizado de máquina mais usado. Outros classificadores amplamente utilizados são a rede neural, o algoritmo de k vizinhos mais próximos, os métodos de kernel, como a máquina de vetores de suporte (SVM), o modelo de mistura de Gauss e o extremamente popular classificador ingênuo de Bayes. O desempenho do classificador depende muito das características dos dados a serem classificados, como o tamanho do conjunto de dados, a dimensionalidade e o nível de ruído. Os classificadores baseados em modelo têm um bom desempenho se o modelo assumido for um ajuste extremamente bom para os dados reais. Caso contrário, se nenhum modelo correspondente estiver disponível, e se a precisão (em vez de velocidade ou escalabilidade) for a única preocupação, a sabedoria convencional é que os classificadores discriminativos (especialmente SVM) tendem a ser mais precisos do que os classificadores baseados em modelo, como “ingênuos Bayes”. na maioria dos conjuntos de dados práticos.

Redes neurais artificiais
Redes neurais, ou redes neurais, foram inspiradas na arquitetura dos neurônios no cérebro humano. Um simples “neurônio” N aceita entrada de múltiplos outros neurônios, cada qual, quando ativado (ou “disparado”), lança um “voto” ponderado a favor ou contra se o neurônio N deve se ativar. A aprendizagem requer um algoritmo para ajustar esses pesos com base nos dados de treinamento; Um algoritmo simples (apelidado de “fogo juntos, fio juntos”) é aumentar o peso entre dois neurônios conectados quando a ativação de um desencadeia a ativação bem-sucedida de outro. A rede forma “conceitos” que são distribuídos entre uma sub-rede de neurônios compartilhados que tendem a disparar juntos; um conceito que significa “perna” pode ser acoplado a uma sub-rede que significa “pé” que inclui o som para “pé”. Os neurônios têm um espectro contínuo de ativação; Além disso, os neurônios podem processar insumos de maneira não-linear, em vez de pesar votos diretos. As redes neurais modernas podem aprender tanto funções contínuas quanto, surpreendentemente, operações lógicas digitais. Os primeiros sucessos das redes neurais incluíram a previsão do mercado de ações e (em 1995) um carro em grande parte autônomo. Na década de 2010, os avanços nas redes neurais utilizando o aprendizado profundo impulsionaram a IA para uma ampla conscientização do público e contribuíram para um enorme aumento nos gastos corporativos com AI; Por exemplo, as fusões e aquisições relacionadas à IA em 2017 foram mais de 25 vezes maiores do que em 2015.

O estudo das redes neurais artificiais não relacionadas à aprendizagem teve início na década anterior à fundação do campo de pesquisa da IA, no trabalho de Walter Pitts e Warren McCullouch. Frank Rosenblatt inventou o perceptron, uma rede de aprendizagem com uma única camada, semelhante ao antigo conceito de regressão linear. Os primeiros pioneiros também incluem Alexey Grigorevich Ivakhnenko, Teuvo Kohonen, Stephen Grossberg, Kunihiko Fukushima, Christoph von der Malsburg, David Willshaw, Shun-Ichi Amari, Bernard Widrow, John Hopfield, Eduardo R. Caianiello e outros.

As principais categorias de redes são redes neurais acíclicas ou feedforward (onde o sinal passa em apenas uma direção) e redes neurais recorrentes (que permitem feedback e memórias de curto prazo de eventos de entrada anteriores). Entre as redes feedforward mais populares estão perceptrons, perceptrons multicamadas e redes radiais. As redes neurais podem ser aplicadas ao problema do controle inteligente (para robótica) ou da aprendizagem, usando técnicas como o aprendizado de Hebbian (“fogo junto, arame”), GMDH ou aprendizado competitivo.

Atualmente, as redes neurais são frequentemente treinadas pelo algoritmo de retropropagação, que existia desde 1970 como o modo reverso de diferenciação automática publicado por Seppo Linnainmaa, e foi introduzido nas redes neurais por Paul Werbos.

A memória temporal hierárquica é uma abordagem que modela algumas das propriedades estruturais e algorítmicas do neocórtex.

Em suma, a maioria das redes neurais usa algum tipo de gradiente de descida em uma topologia neural criada à mão. No entanto, alguns grupos de pesquisa, como o Uber, argumentam que a neuroevolução simples para transformar novas topologias e pesos de redes neurais pode ser competitiva com sofisticadas abordagens de gradiente descendente. Uma vantagem da neuroevolução é que pode ser menos propenso a ser pego em “becos sem saída”.

Redes neurais profundas de feedforward
A aprendizagem profunda é qualquer rede neural artificial que possa aprender uma longa cadeia de elos causais. Por exemplo, uma rede feedforward com seis camadas ocultas pode aprender uma cadeia causal de sete elos (seis camadas ocultas + camada de saída) e tem uma profundidade de “caminho de atribuição de crédito” (CAP) de sete. Muitos sistemas de aprendizagem profunda precisam ser capazes de aprender cadeias com dez ou mais elos causais de comprimento. O aprendizado profundo transformou muitos subcampos importantes da inteligência artificial, incluindo visão computacional, reconhecimento de fala, processamento de linguagem natural e outros.

De acordo com uma visão geral, a expressão “Deep Learning” foi introduzida na comunidade Machine Learning por Rina Dechter em 1986 e ganhou força depois que Igor Aizenberg a introduziu em Redes Neurais Artificiais em 2000. As primeiras redes funcionais do Deep Learning foram publicadas por Alexey. Grigorevich Ivakhnenko e VG Lapa em 1965. Essas redes são treinadas uma camada de cada vez. O artigo de Ivakhnenko de 1971 descreve o aprendizado de um perceptron multicamadas profundo com oito camadas, já muito mais profundo do que muitas redes posteriores. Em 2006, uma publicação por Geoffrey Hinton e Ruslan Salakhutdinov introduziu uma outra maneira de pré-treinar redes neurais feedforward (FNNs) uma camada de cada vez, tratando cada camada como uma máquina restrita restrita de Boltzmann, então usando retropropagação supervisionada para afinação. Semelhante a redes neurais artificiais rasas, as redes neurais profundas podem modelar relações não-lineares complexas. Nos últimos anos, os avanços nos algoritmos de aprendizado de máquina e no hardware de computador levaram a métodos mais eficientes de treinamento de redes neurais profundas que contêm muitas camadas de unidades ocultas não lineares e uma camada de saída muito grande.

O aprendizado profundo freqüentemente utiliza redes neurais convolucionais (CNNs), cujas origens remontam ao Neocognitron introduzido por Kunihiko Fukushima em 1980. Em 1989, Yann LeCun e seus colegas aplicaram a retropropagação a tal arquitetura. No início dos anos 2000, em uma aplicação industrial, as CNNs já processavam cerca de 10% a 20% de todos os cheques emitidos nos EUA. Desde 2011, implementações rápidas de CNNs em GPUs ganharam muitas competições de reconhecimento de padrões visuais.

CNNs com 12 camadas convolucionais foram usadas em conjunto com o aprendizado por reforço do “AlphaGo Lee” da Deepmind, o programa que venceu um campeão do topo em 2016.

Redes neurais recorrentes profundas
No início, o aprendizado profundo também foi aplicado para sequenciar o aprendizado com redes neurais recorrentes (RNNs), que são teoricamente completas e podem executar programas arbitrários para processar sequências arbitrárias de entradas. A profundidade de um RNN é ilimitada e depende do comprimento de sua seqüência de entrada; assim, um RNN é um exemplo de aprendizado profundo. Os RNNs podem ser treinados por gradiente de descida, mas sofrem com o problema do gradiente de fuga. Em 1992, foi demonstrado que o pré-treinamento não supervisionado de uma pilha de redes neurais recorrentes pode acelerar a aprendizagem supervisionada subseqüente de problemas sequenciais profundos.

Numerosos pesquisadores agora usam variantes de um NN recorrente de aprendizagem profunda chamado de rede de memória de longo prazo (LSTM) publicada por Hochreiter & Schmidhuber em 1997. O LSTM é frequentemente treinado pela Classificação Temporal do Connectionist (CTC). No Google, Microsoft e Baidu, essa abordagem revolucionou o reconhecimento de fala. Por exemplo, em 2015, o reconhecimento de fala do Google teve um salto dramático de desempenho de 49% por meio do LSTM treinado pela CTC, que agora está disponível por meio do Google Voice para bilhões de usuários de smartphones. O Google também usou o LSTM para melhorar a tradução automática, Modelagem de Linguagem e Processamento de Linguagem Multilíngue. O LSTM combinado com CNNs também melhorou a legendagem automática de imagens e uma infinidade de outras aplicações.

Avaliando o progresso
AI, como a eletricidade ou a máquina a vapor, é uma tecnologia de uso geral. Não há consenso sobre como caracterizar em quais tarefas a IA tende a se destacar. Embora projetos como o AlphaZero tenham conseguido gerar seu próprio conhecimento do zero, muitos outros projetos de aprendizado de máquina exigem grandes conjuntos de dados de treinamento. O pesquisador Andrew Ng sugeriu, como uma “regra prática altamente imperfeita”, que “quase tudo que um ser humano típico pode fazer com menos de um segundo de pensamento mental, podemos agora ou no futuro próximo automatizar o uso da IA”. O paradoxo de Moravec sugere que a IA está atrasada em muitas tarefas que o cérebro humano desenvolveu especificamente para um bom desempenho.

Os jogos fornecem um benchmark bem divulgado para avaliar as taxas de progresso. O AlphaGo, por volta de 2016, encerrou a era dos benchmarks clássicos de jogos de tabuleiro. Jogos de conhecimento imperfeito fornecem novos desafios para a IA na área da teoria dos jogos. E-sports como o StarCraft continuam a fornecer benchmarks públicos adicionais. Há muitas competições e prêmios, como o Imagenet Challenge, para promover pesquisas em inteligência artificial. As principais áreas de competição incluem inteligência geral de máquinas, comportamento conversacional, mineração de dados, carros robóticos e futebol de robôs, bem como jogos convencionais.

O “jogo de imitação” (uma interpretação do teste de 1950 de Turing que avalia se um computador pode imitar um humano) é atualmente considerado explorável demais para ser uma referência significativa. Um derivado do teste de Turing é o teste de Turing Público Completamente Automatizado para informar Computadores e Humanos Separados (CAPTCHA). Como o nome indica, isso ajuda a determinar que um usuário é uma pessoa real e não um computador posando como um humano.Em contraste com o padrão padrão de Turing, o CAPTCHA é administrado por uma máquina e direcionado a um ser humano, em vez de ser administrado por um ser humano e direcionado a uma máquina. Um computador solicita que o usuário conclua um teste simples e, em seguida, a geração de uma nota para esse teste. Os notebooks não podem resolver o problema, portanto, as soluções corretas são o resultado de uma pessoa que faz o teste. Um tipo comum de CAPTCHA é o teste que requer uma digitação de letras, números ou diagramas distorcidos que aparecem em uma imagem indecifrável por um computador.

Os testes propostos de “inteligência universal” visam comparar o desempenho de homens, os homens e os executivos de direito não humanos em conjuntos de problemas que são genéricos quanto possível. No extremo, o conjunto de testes pode conter todos os problemas possíveis, ponderados por meio da complexidade de Kolmogorov; Os conjuntos de problemas tendem a ser dominados por um exercício empobrecidos de correspondência de padrões, nos quais se pode sintonizar os níveis de desempenho humano.