Views

Protege Cópia

O que é DL - Deep Learning ?


Quando falamos de Deep Learning - Aprendizado Profundo - estamos nos referindo à parte do Aprendizado de Máquina que utiliza algoritmos complexos para imitar as Redes Neurais do cérebro humano, aprendendo uma área de conhecimento com pouco ou nenhuma supervisão.

Deep Learning, também conhecida como Aprendizado Estruturado Profundo, Aprendizado Hierárquico ou Aprendizado de Máquina Profundo é um ramo de Aprendizado de Máquina (Machine Learning) baseado em um conjunto de algoritmos que tentam modelar abstrações de alto nível de dados usando um grafo profundo com várias camadas de processamento, compostas de várias transformações lineares e não lineares.


Leia também:
Aprendizado Profundo é parte de uma família mais abrangente de métodos de Aprendizado de Máquina baseados na aprendizagem de representações de dados. Uma observação (por exemplo, uma imagem), pode ser representada de várias maneiras, tais como um vetor de valores de intensidade por pixel, ou de uma forma mais abstrata como um conjunto de arestas, regiões com um formato particular, etc. Algumas representações são melhores do que outras para simplificar a tarefa de aprendizagem (por exemplo, reconhecimento facial ou reconhecimento de expressões faciais). Uma das promessas do Deep Learning é a substituição de características feitas manualmente por algoritmos eficientes para a aprendizagem de características supervisionada ou semisupervisionada e extração hierárquica de características.

A pesquisa nesta área tenta fazer representações melhores e criar modelos para aprender essas representações a partir de dados não rotulados em grande escala. Algumas das representações são inspiradas pelos avanços da neurociência e são vagamente baseadas na interpretação do processamento de informações e padrões de comunicação em um sistema nervoso, tais como codificação neural que tenta definir uma relação entre vários estímulos e as respostas neuronais associados no cérebro.

Várias arquiteturas de Deep Learning, tais como Redes Neurais ProfundasRedes Neurais Profundas Convolucionais, Redes de Crenças ProfundasRedes Neurais Recorrentes têm sido aplicadas em áreas como visão computacional, reconhecimento automático de fala, processamento de linguagem natural, reconhecimento de áudio e bioinformática, onde elas têm se mostrado capazes de produzir resultados do estado-da-arte em várias tarefas.

A Aprendizagem Profunda foi caracterizada como a expressão na moda, ou uma recaracterização das Redes Neurais.

O primeiro algoritmo geral e funcional de aprendizagem para perceptrons multicamadas supervisionados de alimentação direta profunda foi publicado por Ivakhnenko e Lapa em 1965. Um artigo de 1971 já descrevia uma Rede Profunda com 8 camadas treinada pelo algoritmo do método de grupo para manipulação de dados que ainda é popular no milênio atual. Estas ideias foram implementadas em um sistema de identificação por computador "Alfa", que demonstrou o processo de aprendizagem. Outras arquiteturas de Aprendizado Profundo funcionais, especificamente aquelas construídas a partir de Redes Neurais Artificiais (ANN), são do tempo do Neocognitron introduzido por Kunihiko Fukushima, em 1980. As próprias ANNs são ainda mais antigas. O desafio era como treinar redes com múltiplas camadas. Em 1989, Yann LeCun foi capaz de aplicar o algoritmo de retropropagação padrão, que esteve em uso como o modo inverso de diferenciação automática desde 1970, em uma Rede Neural Profunda com o propósito de reconhecer códigos de CEP manuscritos em cartas. Apesar do sucesso na aplicação do algoritmo, o tempo para treinar a rede neste conjunto de dados era de aproximadamente 3 dias, tornando-se impraticável para uso geral. Em 1993, o Compressor Neural de história de Jürgen Schmidhuber implementado como uma pilha não supervisionada de Redes Neurais Recorrentes (RNNs) resolveu uma tarefa de "aprendizagem muito profunda", que requereu mais de 1.000 camadas subsequentes em uma RNN desenrolada no tempo. Em 1994, Andre C. P. L. F. de Carvalho, Mike C. Fairhurst e David Bisset, publicaram um artigo com proposta e avalição experimental de uma Rede Neural Booleana, também conhecida por Rede Neural Sem Pesos, com várias camadas compondo dois módulos, uma rede auto organizável para extração de características seguida por uma Rede Neural para classificação, que eram treinadas de forma independente e sequencial. Em 1995, Brendan Frey demonstrou que era possível treinar uma rede contendo seis camadas totalmente conectadas e várias centenas de unidades ocultas usando o algoritmo wake-sleep, que foi co-desenvolvido com Pedro Dayan e Geoffrey Hinton. No Entanto, o treinamento levou 2 dias.

Um dos vários fatores que contribuíram para a baixa velocidade foi o problema da dissipação do gradiente, analisado em 1991, por Sepp Hochreiter.

Enquanto em 1991 tais Rede Neural eram usadas para reconhecer dígitos isolados manuscritos em 2D, o reconhecimento de objetos 3D era feito correspondendo imagens 2D com um modelo 3D do objeto feito à mão. Juyang Weng sugeriu que o cérebro humano não usa um modelo 3D monolítico do objeto, e em 1992, publicou o Cresceptron, um método para realizar o reconhecimento de objetos 3D diretamente a partir de cenas desordenadas.

O Cresceptron é uma cascata de camadas semelhantes ao Neocognitron. Mas enquanto o Neocognitron requer que um programador humano junte características à mão, o Cresceptron aprende automaticamente um número aberto de características não supervisionadas em cada camada, em que cada característica é representada por um núcleo de convolução. O Cresceptron também segmentou cada objeto aprendido a partir de uma cena desordenada através de retroanálise ao longo da rede. Max Poolling, agora, muitas vezes, adotadas por Redes Neurais Profundas (por exemplo, testes ImageNet), foi usado pela primeira vez no Cresceptron para reduzir a resolução de posição por um fator de (2x2) para 1 através da cascata para uma melhor generalização. Apesar dessas vantagens, os modelos mais simples que usam características feitas à mão específicas de cada tarefa tais como filtros de Gabor e máquinas de vetores de suporte (SVMs) foram uma escolha popular nos décadas de 1990 e 2000, devido ao custo computacional de ANNs na época, e uma grande falta de entendimento de como o cérebro conecta de forma autônoma suas redes biológicas.

Na longa história do reconhecimento de voz, tanto a Aprendizagem Rasa quanto a Aprendizagem Profunda de Redes Neurais Artificiais (por exemplo, redes recorrentes) têm sido exploradas por muitos anos. Mas esses métodos nunca superaram o trabalho manual interno não uniforme do modelo de mistura de Gaussianas/modelo oculto de Markov (GMM-HMM) baseados na tecnologia de modelos geradores de fala treinados de forma discriminada. Algumas das principais dificuldades tem sido analisadas metodologicamente, incluindo a redução do gradiente e fraca estrutura de correlação temporal nos modelos neurais de previsão. Outras dificuldades foram a falta de grandes dados para treinamento e um poder de computação mais fraco nas etapas iniciais. Assim, a maioria dos pesquisadores de reconhecimento de voz que compreendiam essas barreiras, afastou-se das Redes Neurais para perseguir a modelagem geradora. Uma exceção estava no SRI Internacional no final da década de 1990. Financiado pela NSA e a DARPA do governo dos EUA, o SRI realizou uma pesquisa sobre Redes Neurais Profundas para o reconhecimento de voz e de falante. A equipe de reconhecimento de falante, liderada por Larry Heck, atingiu o primeiro grande sucesso com as Redes Neurais Profundas em processamento de fala, como demonstrado na avaliação do reconhecimento de falante do NIST (Instituto Nacional de Padrões e Tecnologia) em 1998 e, posteriormente, publicado na revista de Comunicação de Voz. Embora o SRI tenha obtido sucesso com Redes Neurais Profundas no reconhecimento de falante, não tiveram êxito em demonstrar sucesso semelhante em reconhecimento de fala. Hinton e Deng revisaram parte desta recente história sobre como a sua colaboração uns com os outros e então com colegas de quatro grupos (Universidade de Toronto, Microsoft, Google e IBM) provocou um renascimento das Redes Neurais de alimentação direta no reconhecimento de fala.

Hoje, no entanto, muitos aspectos do reconhecimento de voz foram tomados por um método de aprendizagem profunda chamado de longa memória de curto prazo (LSTM), uma Rede Neural Recorrente publicada por Sepp Hochreiter & Jürgen Schmidhuber, em 1997. As RNNs LSTM evitam o problema da dissipação do gradiente e podem aprender tarefas de "Aprendizado Muito Profundo" que necessitam de memórias de eventos que aconteceram milhares de pequenos passos de tempo atrás, o que é importante para a fala. Em 2003, a LSTM começou a tornar-se competitiva com os reconhecedores de voz tradicionais em determinadas tarefas. Posteriormente, ela foi combinada com CTC em pilhas de RNNs de LSTM. Em 2015, o reconhecimento de voz do Google teria experimentado um salto dramático de desempenho de 49% por meio de LSTM treinada por CTC, que agora está disponível para todos os usuários de smartphones através do Google Voice, a qual tornou-se uma demonstração da aprendizagem profunda.

De acordo com uma pesquisa, a expressão Deep Learning foi trazida para a Comunidade de Aprendizagem de Máquina por Rina Dechter em 1986, e depois para Redes Neurais Artificiais por Igor Aizenberg e colegas em 2000. Um gráfico do Google Ngram mostra que o uso da expressão ganhou força (realmente decolou) desde 2000.



Em 2006, uma plublicação por Geoffrey Hinton e Ruslan Salakhutdinov chamou mais atenção mostrando como redes neurais de alimentação direta poderiam ser pré-treinadas uma camada por vez, tratando cada uma delas como uma máquina de Boltzmann restrita não supervisionada, e então fazendo ajustes finos por meio de propagação reversa supervisionada. Em 1992, Schmidhuber já havia implementado uma ideia bastante similar para o caso mais geral de hierarquias profundas não supervisionadas de Redes Neurais Recorrentes, e também mostrado experimentalmente a sua vantagem na aceleração do aprendizado supervisionado.

Desde o seu resurgimento, a aprendizagem profunda se tornou parte de diversos sistemas de estado da arte em várias disciplinas, particularmente visão computacional e reconhecimento automático de fala (ASR). Os resultados em conjuntos usados frequentemente para avaliação, tais como o TIMIT (ASR) e o MNIST (classificação de imagens), bem como uma gama de tarefas de reconhecimento de fala de grandes vocabulários estão constantemente sendo melhorados com novas aplicações de aprendizagem profunda. Recentemente, foi mostrado que arquiteturas de aprendizagem profunda na forma de redes neurais de convolução tem obtido praticamente o melhor desempenho; no entanto, estas são usadas mais amplamente em visão computacional do que em ASR, e o reconhecimento moderno de fala em larga escala geralmente é baseado em CTC para LSTM.

O verdadeiro impacto do Deep Learning na indústria começou, aparentemente, no início da década de 2000, quando as CNNs já processavam um percentual estimado de 10% a 20% de todos os cheques escritos nos EUA, no início da década de 2000, de acordo com Yann LeCun. Aplicações industriais de Deep Learning para o reconhecimento de voz de grande escala começaram por volta de 2010. No final de 2009, Li Deng convidou Geoffrey Hinton para trabalhar com ele e seus colegas na Microsoft Research em Redmond, Washington na aplicação de Aprendizagem Profunda no reconhecimento da fala. Eles co-organizaram o Workshop NIPS de 2009 em Aprendizagem Profunda para o reconhecimento de fala. O seminário foi motivado pelas limitações dos modelos geradores de fala profundos, e pela possibilidade de que a era da Big Computação e do Big Data justificavam testes sérios com Redes Neurais Profundas (DNN). Acreditava-se que o pré-treinamento de DNNs usando modelos geradores de Redes de Crenças Profundas (DBN) iria superar as principais dificuldades das Redes Neurais encontradas na década de 1990. No entanto, no início desta pesquisa na Microsoft, foi descoberto que, sem pré-treino, mas com o uso de grandes quantidades de dados de treinamento, e, especialmente, DNNs projetadas com igualmente grandes camadas de saída dependentes de contexto, eram produzidas taxas de erro drasticamente menores do que GMM-HMM de estado da arte e também do que sistemas mais avançados de reconhecimento de voz baseados em modelos geradores. Esta constatação foi verificada por vários outros grandes grupos de pesquisa em reconhecimento de fala. Além disso, a natureza dos erros de reconhecimento produzidos pelos dois tipos de sistemas se mostrou caracteristicamente diferente, oferecendo insights técnicos sobre como integrar a aprendizagem profunda nos sistemas existentes e altamente eficientes de decodificação de fala implantados pelos principais membros da indústria de reconhecimento de fala. A história deste desenvolvimento significativo na aprendizagem profunda tem sido descrito e analisado em livros e artigos recentes.

Os avanços em hardware também foram importantes no sentido de renovar o interesse na aprendizagem profunda. Em particular, unidades de processamento gráfico (GPUs) poderosas são bastante adequadas para o tipo de manipulação de números e matemática matricial e vetorial envolvidas na aprendizagem de máquina. Tem sido mostrado que as GPUs aceleram algoritmos de treinamento em ordens de magnitude, trazendo os tempos de execução de semanas para dias.
Comente e compartilhe este artigo!

Um comentário: