| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 1.77 MB | Adobe PDF |
Orientador(es)
Resumo(s)
This study investigates the viability of incremental training
as an alternative to traditional training methods for video
memorability prediction, particularly in
hardware-constrained environments. Using the ViViT
model, a transformer-based architecture, the research seeks
to address the primary question of whether incremental
training can provide stable and consistent performance with
reduced computational demands (RQ1). Two experiments
were conducted: one comparing incremental and traditional
training methods and another applying incremental training
to the full dataset. The results indicate that incremental
training is a feasible alternative, offering comparable
performance in error metrics such as Mean Squared Error
(MSE) and Mean Absolute Error (MAE), while
significantly reducing the computational load. However,
incremental training exhibited limitations in ranking
accuracy, as measured by Spearmanâs Rank Correlation
(SRC), when compared to traditional methods. The findings
suggest that incremental training can provide a practical
solution for video memorability prediction in
resource-constrained scenarios, but further refinement is
needed to improve its performance in rank-order tasks.
Future work should explore architectural optimizations,
optimizing input configurations, expanding datasets,
incorporating multimodal data, and tuning the ViViT
architecture for better long-range dependency handling.
Este estudo investiga a viabilidade do treino incremental como uma alternativa aos mĂ©todos tradicionais de treino para a previsĂŁo de memorabilidade de vĂdeos, particularmente em ambientes com limitaçÔes de hardware. Utilizando o modelo ViViT, uma arquitetura baseada em transformers, a pesquisa pretende responder Ă principal questĂŁo de saber se o treino incremental pode fornecer desempenho estĂĄvel e consistente com menores demandas computacionais (RQ1). Foram realizados duas experiencias: um comparando os mĂ©todos de treino incremental e tradicional, e outro aplicando o treino incremental ao conjunto de dados completo. Os resultados indicam que o treino incremental Ă© uma alternativa viĂĄvel, oferecendo desempenho comparĂĄvel em mĂ©tricas de erro como o Erro QuadrĂĄtico MĂ©dio (MSE) e o Erro Absoluto MĂ©dio (MAE), enquanto reduz significativamente a carga computacional. No entanto, o treino incremental apresentou limitaçÔes na precisĂŁo de ordenação, medida pela Correlação de Rank de Spearman (SRC), em comparação com os mĂ©todos tradicionais. Os resultados sugerem que o treino incremental pode ser uma solução prĂĄtica para a previsĂŁo de memorabilidade de vĂdeos em cenĂĄrios com restriçÔes de recursos, mas refinamentos adicionais sĂŁo necessĂĄrios para melhorar o desempenho em tarefas de ordenação. Trabalhos futuros devem explorar otimizaçÔes arquiteturais, configuraçÔes de entrada, expansĂŁo de conjuntos de dados, incorporação de dados multimodais e ajuste da arquitetura ViViT para um melhor manuseio de dependĂȘncias de longo prazo.
Este estudo investiga a viabilidade do treino incremental como uma alternativa aos mĂ©todos tradicionais de treino para a previsĂŁo de memorabilidade de vĂdeos, particularmente em ambientes com limitaçÔes de hardware. Utilizando o modelo ViViT, uma arquitetura baseada em transformers, a pesquisa pretende responder Ă principal questĂŁo de saber se o treino incremental pode fornecer desempenho estĂĄvel e consistente com menores demandas computacionais (RQ1). Foram realizados duas experiencias: um comparando os mĂ©todos de treino incremental e tradicional, e outro aplicando o treino incremental ao conjunto de dados completo. Os resultados indicam que o treino incremental Ă© uma alternativa viĂĄvel, oferecendo desempenho comparĂĄvel em mĂ©tricas de erro como o Erro QuadrĂĄtico MĂ©dio (MSE) e o Erro Absoluto MĂ©dio (MAE), enquanto reduz significativamente a carga computacional. No entanto, o treino incremental apresentou limitaçÔes na precisĂŁo de ordenação, medida pela Correlação de Rank de Spearman (SRC), em comparação com os mĂ©todos tradicionais. Os resultados sugerem que o treino incremental pode ser uma solução prĂĄtica para a previsĂŁo de memorabilidade de vĂdeos em cenĂĄrios com restriçÔes de recursos, mas refinamentos adicionais sĂŁo necessĂĄrios para melhorar o desempenho em tarefas de ordenação. Trabalhos futuros devem explorar otimizaçÔes arquiteturais, configuraçÔes de entrada, expansĂŁo de conjuntos de dados, incorporação de dados multimodais e ajuste da arquitetura ViViT para um melhor manuseio de dependĂȘncias de longo prazo.
Descrição
Palavras-chave
Incremental training Video memorability ViViT Hardware constraints Transformer models
