Name: | Description: | Size: | Format: | |
---|---|---|---|---|
3.63 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
As compras de supermercado são um dos padrões de compras mais frequentes e regulares e,
portanto, coletam imenso volume de dados de clientes online e offline. O alto volume de
dados relacionados ao cliente nos retalhistas de supermercado pode levar à abundância de
dados com ruído e variáveis irrelevantes ou redundantes e, mesmo com alto volume de
dados, poderão faltar informações úteis. O sistema de recomendação no retalho alimentar
enfrenta problemas que podem interferir com a sua qualidade, como irrelevância,
redundância e interação entre as variáveis.
Este projeto foi proposto pela Xarevision, tendo em mente o aprimoramento do Shelf20, um
sistema de recomendação capaz de preparar listas de compras personalizadas de
supermercado, utilizando um mecanismo baseado em Machine Learning. A Xarevision visa
uma redução no tempo de recomendação e uma melhoria na qualidade da recomendação por
meio da construção e seleção de variáveis. Idealmente, este projeto permitiria que a Shelf20
fornecesse recomendações melhores e mais rápidas para os clientes.
A construção de variáveis permite introduzir mais informação ao conjunto de dados,
expandindo o espaço de variáveis e possivelmente facilitando o processo de aprendizagem
de algoritmos de Machine Learning. A construção de novas variáveis foi baseada na revisão
de literatura na procura de fatores associados consumo no supermercado e com o
conhecimento de domínio da Xarevision.
A seleção de variáveis é definida como o processo de identificar e selecionar o melhor
subconjunto de variáveis, sem perda de informações úteis. Para reduzir a dimensionalidade
e diminuir o tempo computacional, três algoritmos foram selecionados, um filter e dois
wrappers – Fast Correlation-based Filter, Algoritmo Genético e sequential/floating
methods. O primeiro foi realizado no WEKA, enquanto os restantes requisitaram bibliotecas
de Python. Para avaliar as variáveis construídas e a qualidade dos algoritmos de seleção de
variáveis, foram utilizadas quatro medidas: velocidade do modelo, número de variáveis
selecionadas, exatidão e F1-score.
Ambos os algoritmos fast correlation-based filter e algoritmo genético mostraram uma
melhoria de pelo menos 20% nas medidas de avaliação.
Feature Construction and Selection on
Grocery Retail Recommender System
ix Coimbra Business School | ISCAC
Quinta Agrícola – Bencanta, 3045-601 Coimbra
Tel +351 239 802 000; E-mail: secretariado@iscac.pt; www.iscac.pt
No entanto, os sequential/floating methods não foram aplicados por motivos de
incompatibilidade entre tecnologias. O algoritmo de fast correlation-based filter selecionou
apenas uma variável porque considerou a mesma como predominante, com maior correlação
com a classe, e as restantes variáveis como redundantes quando comparadas à predominante.
Mesmo assim, conseguiu melhorar o Shelf20, obtendo um melhor desempenho com uma
única variável do que com as 27 variáveis originais. As 10 variáveis com maior correlação
com a classe obtiveram ainda melhor resultado, porém a elevada correlação entre as variáveis
demonstrou redundância. Todavia uma variável pode não conseguir representar toda a
complexidade do comportamento dos consumidores nos supermercados. O algoritmo de fast
correlation-based filter forneceu a mesma solução, não importando quais fossem os
parâmetros definidos. O algoritmo genético, no seu melhor modelo, selecionou 18 variáveis
e teve o melhor resultado de todos os testes, independentemente do algoritmo. Shelf20
tornou-se menos dispendioso computacionalmente e mais preciso com a solução encontrada
neste projeto.
Em relação às variáveis construídas, todas, exceto uma, demonstraram adicionar informação
relevante ao conjunto de dados e, portanto, melhorar sua qualidade. Este projeto conseguiu
cumprir o seu objetivo principal: melhorar o Shelf20 enriquecendo o conjunto de dados com
novas variáveis e selecionando as variáveis mais relevantes e não redundantes, com recurso
à seleção de variáveis, para melhorar o seu desempenho.
Description
Keywords
Construção de variáveis Seleção de variáveis Sistema de recomendação Retalho alimentar Fast correlation based filter Algoritmo genético Sequential methods Floating methods