| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 8.3 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
As the computational and financial costs of state-of-the-art
large language models (LLMs) continue to grow, deploying
them becomes harder for resource-constrained
organizations as improvement methods such as Retrieval-
Augmented Generation (RAG), Chain-of-Thought (CoT),
HyDE, and related techniques enhance quality but incur
variable overheads. This work presents a dynamic queryrouting
framework, in which a compact LLM (8B
parameters) is paired with an adaptive controller that selects
from three routes per query: direct answer, CoT or, RAG.
Therefore the controller builds on iterative prompt
refinement, proceeding through six instruction designs that
evolve from format-driven heuristics to profile-based
classification, and employs a voting-style post-processor to
ensure robust decision extraction. The proposed framework
is evaluated on routing accuracy, end-to-end answer
correctness, and detailed energy profiling (CPU and GPU)
using a composite dataset that combines retrieval-heavy
general-knowledge and reasoning-focused science
questions (ARC-Easy and HotPotQA-style items), on a
single-GPU workstation. Results show that profile-based
prompts can improve routing balance: mature versions
reach 85%+ answer accuracy on ARC-style queries while
remaining much more energy efficient than larger models.
Moreover, analyses show that incorrect answers consume
more energy, and that instruction design shifts the energy
burden between CPU-heavy retrieval and GPU-heavy
reasoning. Consequently our results indicate that
architectural control and prompt engineering can close the
performance gap between small and mid-sized models
while achieving significant efficiency gains and providing a
practical path to high-quality IR and QA systems under
tight resource constraints and data security requirements.
À medida que os custos computacionais e financeiros dos modelos de linguagem de grande escala (LLMs) de última geração continuam a aumentar, a sua implementação tornase mais difícil para organizações com recursos limitados. Uma vez que métodos de melhoria como a Retrieval Augmented Generation (RAG), Chain-of-Thought (CoT), HyDE e técnicas relacionadas melhoram a qualidade, mas implicam custos variáveis. Este trabalho apresenta uma estrutura dinâmica de encaminhamento de consultas, na qual um LLM compacto (8 mil milhões de parâmetros) é emparelhado com um controlador adaptativo que seleciona uma de três vias por consulta: resposta direta, CoT ou RAG. Para tal, o controlador baseia-se no refinamento iterativo de prompts, progredindo através de seis designs de instrução que evoluem de heurísticas baseadas em formato para uma classificação baseada em perfil, e emprega um pós-processador do tipo votação para garantir uma extração de decisão robusta. A estrutura proposta é avaliada em termos de precisão de encaminhamento, correção da resposta de ponta a ponta e perfil energético detalhado (CPU e GPU), utilizando um conjunto de dados compósito que combina conhecimento geral com forte dependência de recuperação de informação e questões de ciência focadas em raciocínio (itens ao estilo ARC-Easy e HotPotQA), num computador com uma única GPU. Os resultados mostram que os prompts baseados em perfil podem melhorar o equilíbrio do encaminhamento: as versões mais desenvolvidas atingem uma precisão de resposta superior a 85% em consultas do tipo ARC, mantendo-se muito mais eficientes em termos energéticos do que modelos maiores. Além disso, as análises demonstram que as respostas incorretas consomem mais energia e que o design da instrução transfere o consumo de energia entre a recuperação de informação (RAG), intensiva em CPU, e o raciocínio, intensivo em GPU. Consequentemente, os nossos resultados indicam que o controlo arquitetónico e a engenharia de prompts podem diminuir a diferença de desempenho entre modelos de pequena e média dimensão, enquanto alcançam ganhos de eficiência significativos e fornecem um caminho prático para sistemas de Recuperação de Informação (IR) e de Pergunta-Resposta (QA) de alta qualidade, sob fortes restrições de recursos e requisitos de segurança de dados.
À medida que os custos computacionais e financeiros dos modelos de linguagem de grande escala (LLMs) de última geração continuam a aumentar, a sua implementação tornase mais difícil para organizações com recursos limitados. Uma vez que métodos de melhoria como a Retrieval Augmented Generation (RAG), Chain-of-Thought (CoT), HyDE e técnicas relacionadas melhoram a qualidade, mas implicam custos variáveis. Este trabalho apresenta uma estrutura dinâmica de encaminhamento de consultas, na qual um LLM compacto (8 mil milhões de parâmetros) é emparelhado com um controlador adaptativo que seleciona uma de três vias por consulta: resposta direta, CoT ou RAG. Para tal, o controlador baseia-se no refinamento iterativo de prompts, progredindo através de seis designs de instrução que evoluem de heurísticas baseadas em formato para uma classificação baseada em perfil, e emprega um pós-processador do tipo votação para garantir uma extração de decisão robusta. A estrutura proposta é avaliada em termos de precisão de encaminhamento, correção da resposta de ponta a ponta e perfil energético detalhado (CPU e GPU), utilizando um conjunto de dados compósito que combina conhecimento geral com forte dependência de recuperação de informação e questões de ciência focadas em raciocínio (itens ao estilo ARC-Easy e HotPotQA), num computador com uma única GPU. Os resultados mostram que os prompts baseados em perfil podem melhorar o equilíbrio do encaminhamento: as versões mais desenvolvidas atingem uma precisão de resposta superior a 85% em consultas do tipo ARC, mantendo-se muito mais eficientes em termos energéticos do que modelos maiores. Além disso, as análises demonstram que as respostas incorretas consomem mais energia e que o design da instrução transfere o consumo de energia entre a recuperação de informação (RAG), intensiva em CPU, e o raciocínio, intensivo em GPU. Consequentemente, os nossos resultados indicam que o controlo arquitetónico e a engenharia de prompts podem diminuir a diferença de desempenho entre modelos de pequena e média dimensão, enquanto alcançam ganhos de eficiência significativos e fornecem um caminho prático para sistemas de Recuperação de Informação (IR) e de Pergunta-Resposta (QA) de alta qualidade, sob fortes restrições de recursos e requisitos de segurança de dados.
Description
Keywords
AI RAG Quantization HyDE Large Language Models Instruction Optimization
