Máquinas de treinamento para aprender mais como os humanos
As imagens para download no site do escritório de notícias do MIT são disponibilizadas para entidades não comerciais, imprensa e público em geral sob uma licença Creative Commons Attribution Non-Commercial No Derivatives. Você não pode alterar as imagens fornecidas, exceto cortá-las no tamanho. Uma linha de crédito deve ser utilizada na reprodução das imagens; se não houver um abaixo, credite as imagens ao "MIT".
imagem anterior imagem seguinte
Imagine-se sentado em um banco de parque, observando alguém passar. Embora a cena possa mudar constantemente conforme a pessoa caminha, o cérebro humano pode transformar essa informação visual dinâmica em uma representação mais estável ao longo do tempo. Essa capacidade, conhecida como endireitamento perceptivo, nos ajuda a prever a trajetória da pessoa que caminha.
Ao contrário dos humanos, os modelos de visão computacional normalmente não exibem retidão perceptiva, então eles aprendem a representar informações visuais de uma maneira altamente imprevisível. Mas se os modelos de aprendizado de máquina tivessem essa capacidade, isso poderia permitir que eles estimassem melhor como objetos ou pessoas se moveriam.
Pesquisadores do MIT descobriram que um método de treinamento específico pode ajudar os modelos de visão computacional a aprender representações mais perceptualmente retas, como os humanos. O treinamento envolve mostrar a um modelo de aprendizado de máquina milhões de exemplos para que ele possa aprender uma tarefa.
Os pesquisadores descobriram que treinar modelos de visão computacional usando uma técnica chamada treinamento contraditório, que os torna menos reativos a pequenos erros adicionados às imagens, melhora a retidão perceptiva dos modelos.
A equipe também descobriu que a retidão perceptiva é afetada pela tarefa que se treina um modelo para executar. Modelos treinados para executar tarefas abstratas, como classificar imagens, aprendem representações mais perceptualmente diretas do que aqueles treinados para executar tarefas mais refinadas, como atribuir cada pixel em uma imagem a uma categoria.
Por exemplo, os nós dentro do modelo têm ativações internas que representam "cachorro", que permitem que o modelo detecte um cachorro quando vê qualquer imagem de um cachorro. As representações perceptivamente retas retêm uma representação de "cachorro" mais estável quando há pequenas alterações na imagem. Isso os torna mais robustos.
Ao obter uma melhor compreensão da retidão perceptiva na visão computacional, os pesquisadores esperam descobrir informações que possam ajudá-los a desenvolver modelos que façam previsões mais precisas. Por exemplo, essa propriedade pode melhorar a segurança de veículos autônomos que usam modelos de visão computacional para prever as trajetórias de pedestres, ciclistas e outros veículos.
"Uma das mensagens para levar para casa aqui é que inspirar-se em sistemas biológicos, como a visão humana, pode fornecer informações sobre por que certas coisas funcionam da maneira que funcionam e também inspirar ideias para melhorar as redes neurais", diz Vasha DuTell , pós-doutorado do MIT e coautor de um artigo que explora a retidão perceptiva na visão computacional.
Juntando-se a DuTell no papel estão a principal autora Anne Harrington, uma estudante de pós-graduação no Departamento de Engenharia Elétrica e Ciência da Computação (EECS); Ayush Tewari, um pós-doutorado; Mark Hamilton, um estudante de pós-graduação; Simon Stent, gerente de pesquisa da Woven Planet; Ruth Rosenholtz, principal pesquisadora do Departamento de Ciências do Cérebro e Cognitivas e membro do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL); e o autor sênior William T. Freeman, professor de Engenharia Elétrica e Ciência da Computação Thomas e Gerd Perkins e membro do CSAIL. A pesquisa está sendo apresentada na Conferência Internacional sobre Representações de Aprendizagem.
Estudando alisamento
Depois de ler um artigo de 2019 de uma equipe de pesquisadores da Universidade de Nova York sobre a retidão perceptiva em humanos, DuTell, Harrington e seus colegas se perguntaram se essa propriedade também poderia ser útil em modelos de visão computacional.