Predicting video memorability using traditional and incremental approaches

Santos, Fernando Lamar Corrêa dos

Publication

Predicting video memorability using traditional and incremental approaches

2024-12Master thesis

dc.contributor.advisor	Sabino, André Miguel Guedelha
dc.contributor.advisor	Estima, Jacinto Paulo Simões
dc.contributor.author	Santos, Fernando Lamar Corrêa dos
dc.date.accessioned	2025-10-08T12:10:37Z
dc.date.available	2025-10-08T12:10:37Z
dc.date.issued	2024-12
dc.description.abstract	This study investigates the viability of incremental training as an alternative to traditional training methods for video memorability prediction, particularly in hardware-constrained environments. Using the ViViT model, a transformer-based architecture, the research seeks to address the primary question of whether incremental training can provide stable and consistent performance with reduced computational demands (RQ1). Two experiments were conducted: one comparing incremental and traditional training methods and another applying incremental training to the full dataset. The results indicate that incremental training is a feasible alternative, offering comparable performance in error metrics such as Mean Squared Error (MSE) and Mean Absolute Error (MAE), while significantly reducing the computational load. However, incremental training exhibited limitations in ranking accuracy, as measured by Spearman’s Rank Correlation (SRC), when compared to traditional methods. The findings suggest that incremental training can provide a practical solution for video memorability prediction in resource-constrained scenarios, but further refinement is needed to improve its performance in rank-order tasks. Future work should explore architectural optimizations, optimizing input configurations, expanding datasets, incorporating multimodal data, and tuning the ViViT architecture for better long-range dependency handling.	por
dc.description.abstract	Este estudo investiga a viabilidade do treino incremental como uma alternativa aos métodos tradicionais de treino para a previsão de memorabilidade de vídeos, particularmente em ambientes com limitações de hardware. Utilizando o modelo ViViT, uma arquitetura baseada em transformers, a pesquisa pretende responder à principal questão de saber se o treino incremental pode fornecer desempenho estável e consistente com menores demandas computacionais (RQ1). Foram realizados duas experiencias: um comparando os métodos de treino incremental e tradicional, e outro aplicando o treino incremental ao conjunto de dados completo. Os resultados indicam que o treino incremental é uma alternativa viável, oferecendo desempenho comparável em métricas de erro como o Erro Quadrático Médio (MSE) e o Erro Absoluto Médio (MAE), enquanto reduz significativamente a carga computacional. No entanto, o treino incremental apresentou limitações na precisão de ordenação, medida pela Correlação de Rank de Spearman (SRC), em comparação com os métodos tradicionais. Os resultados sugerem que o treino incremental pode ser uma solução prática para a previsão de memorabilidade de vídeos em cenários com restrições de recursos, mas refinamentos adicionais são necessários para melhorar o desempenho em tarefas de ordenação. Trabalhos futuros devem explorar otimizações arquiteturais, configurações de entrada, expansão de conjuntos de dados, incorporação de dados multimodais e ajuste da arquitetura ViViT para um melhor manuseio de dependências de longo prazo.	por
dc.identifier.tid	203830105
dc.identifier.uri	http://hdl.handle.net/10400.26/58960
dc.language.iso	eng
dc.rights.uri	N/A
dc.subject	Incremental training
dc.subject	Video memorability
dc.subject	ViViT
dc.subject	Hardware constraints
dc.subject	Transformer models
dc.title	Predicting video memorability using traditional and incremental approaches
dc.type	master thesis
dspace.entity.type	Publication
thesis.degree.grantor	Instituto de Arte, Design e Empresa - Universitário
thesis.degree.name	Computação Criativa e Inteligência Artificial