An adaptive query-routing framework for optimizing small languages models in resource-constrained environments

Ribeiro, Cláudia Sofia SevivasRibeiro, José Pedro Farinha2025-12-162025-12-162025-12-05http://hdl.handle.net/10400.26/60437As the computational and financial costs of state-of-the-art large language models (LLMs) continue to grow, deploying them becomes harder for resource-constrained organizations as improvement methods such as Retrieval- Augmented Generation (RAG), Chain-of-Thought (CoT), HyDE, and related techniques enhance quality but incur variable overheads. This work presents a dynamic queryrouting framework, in which a compact LLM (8B parameters) is paired with an adaptive controller that selects from three routes per query: direct answer, CoT or, RAG. Therefore the controller builds on iterative prompt refinement, proceeding through six instruction designs that evolve from format-driven heuristics to profile-based classification, and employs a voting-style post-processor to ensure robust decision extraction. The proposed framework is evaluated on routing accuracy, end-to-end answer correctness, and detailed energy profiling (CPU and GPU) using a composite dataset that combines retrieval-heavy general-knowledge and reasoning-focused science questions (ARC-Easy and HotPotQA-style items), on a single-GPU workstation. Results show that profile-based prompts can improve routing balance: mature versions reach 85%+ answer accuracy on ARC-style queries while remaining much more energy efficient than larger models. Moreover, analyses show that incorrect answers consume more energy, and that instruction design shifts the energy burden between CPU-heavy retrieval and GPU-heavy reasoning. Consequently our results indicate that architectural control and prompt engineering can close the performance gap between small and mid-sized models while achieving significant efficiency gains and providing a practical path to high-quality IR and QA systems under tight resource constraints and data security requirements.À medida que os custos computacionais e financeiros dos modelos de linguagem de grande escala (LLMs) de última geração continuam a aumentar, a sua implementação tornase mais difícil para organizações com recursos limitados. Uma vez que métodos de melhoria como a Retrieval Augmented Generation (RAG), Chain-of-Thought (CoT), HyDE e técnicas relacionadas melhoram a qualidade, mas implicam custos variáveis. Este trabalho apresenta uma estrutura dinâmica de encaminhamento de consultas, na qual um LLM compacto (8 mil milhões de parâmetros) é emparelhado com um controlador adaptativo que seleciona uma de três vias por consulta: resposta direta, CoT ou RAG. Para tal, o controlador baseia-se no refinamento iterativo de prompts, progredindo através de seis designs de instrução que evoluem de heurísticas baseadas em formato para uma classificação baseada em perfil, e emprega um pós-processador do tipo votação para garantir uma extração de decisão robusta. A estrutura proposta é avaliada em termos de precisão de encaminhamento, correção da resposta de ponta a ponta e perfil energético detalhado (CPU e GPU), utilizando um conjunto de dados compósito que combina conhecimento geral com forte dependência de recuperação de informação e questões de ciência focadas em raciocínio (itens ao estilo ARC-Easy e HotPotQA), num computador com uma única GPU. Os resultados mostram que os prompts baseados em perfil podem melhorar o equilíbrio do encaminhamento: as versões mais desenvolvidas atingem uma precisão de resposta superior a 85% em consultas do tipo ARC, mantendo-se muito mais eficientes em termos energéticos do que modelos maiores. Além disso, as análises demonstram que as respostas incorretas consomem mais energia e que o design da instrução transfere o consumo de energia entre a recuperação de informação (RAG), intensiva em CPU, e o raciocínio, intensivo em GPU. Consequentemente, os nossos resultados indicam que o controlo arquitetónico e a engenharia de prompts podem diminuir a diferença de desempenho entre modelos de pequena e média dimensão, enquanto alcançam ganhos de eficiência significativos e fornecem um caminho prático para sistemas de Recuperação de Informação (IR) e de Pergunta-Resposta (QA) de alta qualidade, sob fortes restrições de recursos e requisitos de segurança de dados.engAIRAGQuantizationHyDELarge Language ModelsInstruction OptimizationAn adaptive query-routing framework for optimizing small languages models in resource-constrained environmentsmaster thesis204083320