Publication
Feature construction and selection on a grocery retail recommender system
dc.contributor.advisor | Ribeiro, António Rui Trigo | |
dc.contributor.author | Carvalho, Aline Pontieri de | |
dc.date.accessioned | 2023-01-06T19:41:23Z | |
dc.date.available | 2023-01-06T19:41:23Z | |
dc.date.issued | 2022 | |
dc.description.abstract | As compras de supermercado são um dos padrões de compras mais frequentes e regulares e, portanto, coletam imenso volume de dados de clientes online e offline. O alto volume de dados relacionados ao cliente nos retalhistas de supermercado pode levar à abundância de dados com ruído e variáveis irrelevantes ou redundantes e, mesmo com alto volume de dados, poderão faltar informações úteis. O sistema de recomendação no retalho alimentar enfrenta problemas que podem interferir com a sua qualidade, como irrelevância, redundância e interação entre as variáveis. Este projeto foi proposto pela Xarevision, tendo em mente o aprimoramento do Shelf20, um sistema de recomendação capaz de preparar listas de compras personalizadas de supermercado, utilizando um mecanismo baseado em Machine Learning. A Xarevision visa uma redução no tempo de recomendação e uma melhoria na qualidade da recomendação por meio da construção e seleção de variáveis. Idealmente, este projeto permitiria que a Shelf20 fornecesse recomendações melhores e mais rápidas para os clientes. A construção de variáveis permite introduzir mais informação ao conjunto de dados, expandindo o espaço de variáveis e possivelmente facilitando o processo de aprendizagem de algoritmos de Machine Learning. A construção de novas variáveis foi baseada na revisão de literatura na procura de fatores associados consumo no supermercado e com o conhecimento de domínio da Xarevision. A seleção de variáveis é definida como o processo de identificar e selecionar o melhor subconjunto de variáveis, sem perda de informações úteis. Para reduzir a dimensionalidade e diminuir o tempo computacional, três algoritmos foram selecionados, um filter e dois wrappers – Fast Correlation-based Filter, Algoritmo Genético e sequential/floating methods. O primeiro foi realizado no WEKA, enquanto os restantes requisitaram bibliotecas de Python. Para avaliar as variáveis construídas e a qualidade dos algoritmos de seleção de variáveis, foram utilizadas quatro medidas: velocidade do modelo, número de variáveis selecionadas, exatidão e F1-score. Ambos os algoritmos fast correlation-based filter e algoritmo genético mostraram uma melhoria de pelo menos 20% nas medidas de avaliação. Feature Construction and Selection on Grocery Retail Recommender System ix Coimbra Business School | ISCAC Quinta Agrícola – Bencanta, 3045-601 Coimbra Tel +351 239 802 000; E-mail: secretariado@iscac.pt; www.iscac.pt No entanto, os sequential/floating methods não foram aplicados por motivos de incompatibilidade entre tecnologias. O algoritmo de fast correlation-based filter selecionou apenas uma variável porque considerou a mesma como predominante, com maior correlação com a classe, e as restantes variáveis como redundantes quando comparadas à predominante. Mesmo assim, conseguiu melhorar o Shelf20, obtendo um melhor desempenho com uma única variável do que com as 27 variáveis originais. As 10 variáveis com maior correlação com a classe obtiveram ainda melhor resultado, porém a elevada correlação entre as variáveis demonstrou redundância. Todavia uma variável pode não conseguir representar toda a complexidade do comportamento dos consumidores nos supermercados. O algoritmo de fast correlation-based filter forneceu a mesma solução, não importando quais fossem os parâmetros definidos. O algoritmo genético, no seu melhor modelo, selecionou 18 variáveis e teve o melhor resultado de todos os testes, independentemente do algoritmo. Shelf20 tornou-se menos dispendioso computacionalmente e mais preciso com a solução encontrada neste projeto. Em relação às variáveis construídas, todas, exceto uma, demonstraram adicionar informação relevante ao conjunto de dados e, portanto, melhorar sua qualidade. Este projeto conseguiu cumprir o seu objetivo principal: melhorar o Shelf20 enriquecendo o conjunto de dados com novas variáveis e selecionando as variáveis mais relevantes e não redundantes, com recurso à seleção de variáveis, para melhorar o seu desempenho. | pt_PT |
dc.identifier.tid | 203154070 | pt_PT |
dc.identifier.uri | http://hdl.handle.net/10400.26/43044 | |
dc.language.iso | por | pt_PT |
dc.subject | Construção de variáveis | pt_PT |
dc.subject | Seleção de variáveis | pt_PT |
dc.subject | Sistema de recomendação | pt_PT |
dc.subject | Retalho alimentar | pt_PT |
dc.subject | Fast correlation based filter | pt_PT |
dc.subject | Algoritmo genético | pt_PT |
dc.subject | Sequential methods | pt_PT |
dc.subject | Floating methods | pt_PT |
dc.title | Feature construction and selection on a grocery retail recommender system | pt_PT |
dc.type | master thesis | |
dspace.entity.type | Publication | |
rcaap.rights | openAccess | pt_PT |
rcaap.type | masterThesis | pt_PT |