Título: Apoio a tarefas de Revisão Sistemática de Literatura: Classificação, Agrupamento, Busca e Ranqueamento, Sumarização e Geração Automática de Textos com Inteligência Artificial
Comissão Examinadora - Titulares
Profa. Dra. Ana Estela Antunes da Silva (Presidente) - FT/Unicamp
Profa. Dra. Katia Romero Felizardo Scannavino - UTFPR
Prof. Dr. Thiago Alexandre Salgueiro Pardo - USP
Profa. Dra. Lívia Couto Ruback Rodrigues - FT/Unicamp
Profa. Dra. Nádia Félix Felipe da Silva - UFG
Suplentes
Profa. Dra. Maria das Graças Volpe Nunes - USP
Prof. Dr. Fabricio Aparecido Breve - UNESP
Profa. Dra. Nusrat Jahan Lisa - FT/Unicamp
Local: Sala de Defesa (Prédio da Pós-Graduação da FT) | https://stream.meet.google.com/stream/61fa4972-5b0e-4a22-acf9-706a2c1c6b27
Resumo: Realizar uma Revisão Sistemática de Literatura (RSL) é uma tarefa desafiadora, especialmente
pela necessidade de se lidar com uma quantidade massiva de artigos científicos, muitas vezes
provenientes de diferentes bases de dados e formatos de publicação, o que dificulta a seleção
e o agrupamento adequado das informações relevantes. Nesse contexto, esta tese aborda o
desenvolvimento e a aplicação de técnicas de Inteligência Artificial para apoiar o processo de
RSL, componente fundamental na pesquisa científica. A tese concentra-se em cinco
principais contribuições: classificação para identificação de títulos de seções em artigos
científicos, agrupamento e classificação de sentenças em artigos científicos, busca e
ranqueamento de artigos científicos, sumarização facetada de artigos científicos e geração
automática do texto de uma RSL. Inicialmente, foram exploradas metodologias tradicionais
de Aprendizado de Máquina para a classificação de títulos de seções, o que permite
segmentar um artigo de maneira eficiente para identificar os principais tópicos. Contudo, os
textos utilizados como títulos de seções não possuem um padrão. Dessa maneira, foi
empregado treinamento de aprendizado por contraste para gerar embeddings para cada
sentença do artigo e classificá-las em tópicos específicos, como objetivo, metodologia e
resultados. Outro aspecto fundamental na RSL é a busca e o ranqueamento de artigos
científicos relevantes. Nesta tese, foi explorada a tarefa de Busca por Exemplo (BPE), em que
o texto do resumo de um artigo é utilizado como parâmetro de busca para artigos similares.
Duas soluções foram propostas, uma pela combinação de ranqueadores neurais densos e
esparsos e outra pelo treinamento de um ranqueador neural esparso de estágio único para a
tarefa de BPE. Essas soluções se mostraram eficazes e obtiveram resultados que superaram
métricas de ranqueadores do estado da arte. Por fim, foi desenvolvida uma metodologia para
a geração automática do texto de uma RSL pela combinação de sumarização facetada com
Large Language Models (LLMs). A sumarização facetada consiste em gerar um sumário dado
um determinado aspecto, chamado de faceta. Nesta tese, as facetas são o propósito (objetivo),
os métodos e as descobertas (resultados) contidos em um artigo científico. A sumarização
facetada foi implementada pelo treinamento de um modelo sumarizador para cada faceta e
com seleção de conteúdo, realizada por um ranqueador. Esse ranqueador foi treinado para
identificar as sentenças mais relevantes para a sumarização, o que elimina a necessidade do
sumarizador processar o texto completo dos artigos e considera apenas as facetas escolhidas.
Os resultados da sumarização facetada superaram ou foram equivalentes aos de um modelo
estado da arte. Quanto à geração automática do texto de uma RSL, a tese apresenta um estudo
de caso do uso dos sumários estruturados, gerados pelo processo previamente descrito, em
conjunto com um LLM. Nessa abordagem, primeiramente um conjunto de artigos pertinentes
à RSL é submetido aos sumarizadores, gerando sumários estruturados. Posteriormente, esses
sumários são, então, enviados a um LLM, com o objetivo de produzir o texto final da RSL de
forma automatizada. O estudo de caso produziu resultados satisfatórios, conforme validado
por uma métrica automatizada que avalia a qualidade do texto gerado por LLMs.