pt-br

Defesa de Doutorado: Pedro Victor Vieira de Paiva

Titulo: Transformers para Emoções : Reconhecimento de Emoções Corporais utilizando Sequência de Poses e Mecanismos de Atenção

Comissão Examinadora - Titulares
Prof. Dr. Marco Antonio Garcia de Carvalho (Presidente) - FT/Unicamp
Prof. Dr. Hélio Pedrini - IC/Unicamp
Prof. Dr. Paula Dornhofer Paro Costa - FEEC/Unicamp
Profa.Dra. Mariana Pinheiro Bento - University of Calgary
Prof. Dr. Raimundo Claudio da Silva Vasconcelos - IFB

Suplentes
Prof. Dr. João Roberto Bertini Júnior - FT/Unicamp
Prof. Dr. Daniel Carlos Guimarães Pedronette - Unesp
Prof. Dr. Leandro Nunes de Castro Silva - Florida Gulf Coast University
Prof. Dr. Franklin César Flores - UEM

Local: Totalmente Remoto: stream.meet.google.com/stream/d00bd8cf-2065-4951-ac5d-5016b43237c2

Resumo: As emoções humanas desempenham um papel essencial na interação humano-computador,
pois podem fornecer informações sobre as preferências do usuário e permitir que as
máquinas entendam e se comuniquem de maneira mais adequada com os humanos. Os
sistemas de reconhecimento de emoções podem ser aplicados em áreas como atendimento ao
cliente, saúde, entretenimento, robôs conscientes das emoções e outras áreas. Embora as
técnicas baseadas em expressões faciais sejam extensivamente pesquisadas, esta modalidade
por si só pode não capturar todo o espectro da emoção humana e pode sofrer ruído ou
oclusão. Algoritmos de estimativa de pose oferecem uma alternativa para expressão facial,
incluindo informações espaciais e temporais valiosas. Nesta tese, exploramos a capacidade
das Redes Neurais Transformer de capturar longas cadeias de dependência em dados
sequenciais no Reconhecimento de Emoções Corporais - REC. Traçamos duas hipóteses
distintas e incrementais para sistemas REC baseados em Transformer e demonstramos sua
validade. Primeiramente, apresentamos uma abordagem Transformer para reconhecimento
supervisionado de emoções corporais, nomeado Emotion Transformer - EmoT. Esta primeira
abordagem consiste em um mecanismo de atenção encoder-only usando uma função de
projeção linear de coordenadas 2D para classificação de emoções. Em seguida, exploramos o
aprendizado não-supervisionado como uma alternativa para melhorar o aprendizado de
dependências temporais e reduzir a sobrecarga de treinamento dos Transformers. Com o
SkelETT, Skeleton-to-Emotion Transfer Transformer, introduzimos uma nova abordagem para
o reconhecimento de emoções, pré-treinando um modelo Transformer em um grande
conjunto de dados de pose humanas não rotuladas e, posteriormente, ajustando-o para
classificação de emoções. SkelETT combina o encoder do Transformer com AutoEncoder
mascarados para aprender com representações corporais 2D não rotuladas e inferir emoções
após o ajuste fino. Tanto a aplicação direta dos Transformers em poses quanto o
pré-treinamento em bases não rotuladas são capazes de atingir altos níveis de
distinguibilidade entre emoções corporais. Além disso, ganhos significativos em eficiência,
redução em parâmetros treináveis e capacidade de transferência de conhecimento são
observados com o pré-treinamento proposto. Estas contribuições têm impacto direto na
literatura sobre REC e abrem um novo campo de aplicação para os Transformers em áreas
como robótica afetiva, serviços personalizados, comunicação e realidade virtual.

Data: 
terça-feira, 16 Julho, 2024 - 13:00