Repository logo
 
Loading...
Thumbnail Image
Publication

Feature construction and selection on a grocery retail recommender system

Use this identifier to reference this record.
Name:Description:Size:Format: 
Aline_Carvalho.pdf3.63 MBAdobe PDF Download

Abstract(s)

As compras de supermercado são um dos padrões de compras mais frequentes e regulares e, portanto, coletam imenso volume de dados de clientes online e offline. O alto volume de dados relacionados ao cliente nos retalhistas de supermercado pode levar à abundância de dados com ruído e variáveis irrelevantes ou redundantes e, mesmo com alto volume de dados, poderão faltar informações úteis. O sistema de recomendação no retalho alimentar enfrenta problemas que podem interferir com a sua qualidade, como irrelevância, redundância e interação entre as variáveis. Este projeto foi proposto pela Xarevision, tendo em mente o aprimoramento do Shelf20, um sistema de recomendação capaz de preparar listas de compras personalizadas de supermercado, utilizando um mecanismo baseado em Machine Learning. A Xarevision visa uma redução no tempo de recomendação e uma melhoria na qualidade da recomendação por meio da construção e seleção de variáveis. Idealmente, este projeto permitiria que a Shelf20 fornecesse recomendações melhores e mais rápidas para os clientes. A construção de variáveis permite introduzir mais informação ao conjunto de dados, expandindo o espaço de variáveis e possivelmente facilitando o processo de aprendizagem de algoritmos de Machine Learning. A construção de novas variáveis foi baseada na revisão de literatura na procura de fatores associados consumo no supermercado e com o conhecimento de domínio da Xarevision. A seleção de variáveis é definida como o processo de identificar e selecionar o melhor subconjunto de variáveis, sem perda de informações úteis. Para reduzir a dimensionalidade e diminuir o tempo computacional, três algoritmos foram selecionados, um filter e dois wrappers – Fast Correlation-based Filter, Algoritmo Genético e sequential/floating methods. O primeiro foi realizado no WEKA, enquanto os restantes requisitaram bibliotecas de Python. Para avaliar as variáveis construídas e a qualidade dos algoritmos de seleção de variáveis, foram utilizadas quatro medidas: velocidade do modelo, número de variáveis selecionadas, exatidão e F1-score. Ambos os algoritmos fast correlation-based filter e algoritmo genético mostraram uma melhoria de pelo menos 20% nas medidas de avaliação. Feature Construction and Selection on Grocery Retail Recommender System ix Coimbra Business School | ISCAC Quinta Agrícola – Bencanta, 3045-601 Coimbra Tel +351 239 802 000; E-mail: secretariado@iscac.pt; www.iscac.pt No entanto, os sequential/floating methods não foram aplicados por motivos de incompatibilidade entre tecnologias. O algoritmo de fast correlation-based filter selecionou apenas uma variável porque considerou a mesma como predominante, com maior correlação com a classe, e as restantes variáveis como redundantes quando comparadas à predominante. Mesmo assim, conseguiu melhorar o Shelf20, obtendo um melhor desempenho com uma única variável do que com as 27 variáveis originais. As 10 variáveis com maior correlação com a classe obtiveram ainda melhor resultado, porém a elevada correlação entre as variáveis demonstrou redundância. Todavia uma variável pode não conseguir representar toda a complexidade do comportamento dos consumidores nos supermercados. O algoritmo de fast correlation-based filter forneceu a mesma solução, não importando quais fossem os parâmetros definidos. O algoritmo genético, no seu melhor modelo, selecionou 18 variáveis e teve o melhor resultado de todos os testes, independentemente do algoritmo. Shelf20 tornou-se menos dispendioso computacionalmente e mais preciso com a solução encontrada neste projeto. Em relação às variáveis construídas, todas, exceto uma, demonstraram adicionar informação relevante ao conjunto de dados e, portanto, melhorar sua qualidade. Este projeto conseguiu cumprir o seu objetivo principal: melhorar o Shelf20 enriquecendo o conjunto de dados com novas variáveis e selecionando as variáveis mais relevantes e não redundantes, com recurso à seleção de variáveis, para melhorar o seu desempenho.

Description

Keywords

Construção de variáveis Seleção de variáveis Sistema de recomendação Retalho alimentar Fast correlation based filter Algoritmo genético Sequential methods Floating methods

Citation

Research Projects

Organizational Units

Journal Issue