Repository logo
 
Publication

Feature construction and selection on a grocery retail recommender system

dc.contributor.advisorRibeiro, António Rui Trigo
dc.contributor.authorCarvalho, Aline Pontieri de
dc.date.accessioned2023-01-06T19:41:23Z
dc.date.available2023-01-06T19:41:23Z
dc.date.issued2022
dc.description.abstractAs compras de supermercado são um dos padrões de compras mais frequentes e regulares e, portanto, coletam imenso volume de dados de clientes online e offline. O alto volume de dados relacionados ao cliente nos retalhistas de supermercado pode levar à abundância de dados com ruído e variáveis irrelevantes ou redundantes e, mesmo com alto volume de dados, poderão faltar informações úteis. O sistema de recomendação no retalho alimentar enfrenta problemas que podem interferir com a sua qualidade, como irrelevância, redundância e interação entre as variáveis. Este projeto foi proposto pela Xarevision, tendo em mente o aprimoramento do Shelf20, um sistema de recomendação capaz de preparar listas de compras personalizadas de supermercado, utilizando um mecanismo baseado em Machine Learning. A Xarevision visa uma redução no tempo de recomendação e uma melhoria na qualidade da recomendação por meio da construção e seleção de variáveis. Idealmente, este projeto permitiria que a Shelf20 fornecesse recomendações melhores e mais rápidas para os clientes. A construção de variáveis permite introduzir mais informação ao conjunto de dados, expandindo o espaço de variáveis e possivelmente facilitando o processo de aprendizagem de algoritmos de Machine Learning. A construção de novas variáveis foi baseada na revisão de literatura na procura de fatores associados consumo no supermercado e com o conhecimento de domínio da Xarevision. A seleção de variáveis é definida como o processo de identificar e selecionar o melhor subconjunto de variáveis, sem perda de informações úteis. Para reduzir a dimensionalidade e diminuir o tempo computacional, três algoritmos foram selecionados, um filter e dois wrappers – Fast Correlation-based Filter, Algoritmo Genético e sequential/floating methods. O primeiro foi realizado no WEKA, enquanto os restantes requisitaram bibliotecas de Python. Para avaliar as variáveis construídas e a qualidade dos algoritmos de seleção de variáveis, foram utilizadas quatro medidas: velocidade do modelo, número de variáveis selecionadas, exatidão e F1-score. Ambos os algoritmos fast correlation-based filter e algoritmo genético mostraram uma melhoria de pelo menos 20% nas medidas de avaliação. Feature Construction and Selection on Grocery Retail Recommender System ix Coimbra Business School | ISCAC Quinta Agrícola – Bencanta, 3045-601 Coimbra Tel +351 239 802 000; E-mail: secretariado@iscac.pt; www.iscac.pt No entanto, os sequential/floating methods não foram aplicados por motivos de incompatibilidade entre tecnologias. O algoritmo de fast correlation-based filter selecionou apenas uma variável porque considerou a mesma como predominante, com maior correlação com a classe, e as restantes variáveis como redundantes quando comparadas à predominante. Mesmo assim, conseguiu melhorar o Shelf20, obtendo um melhor desempenho com uma única variável do que com as 27 variáveis originais. As 10 variáveis com maior correlação com a classe obtiveram ainda melhor resultado, porém a elevada correlação entre as variáveis demonstrou redundância. Todavia uma variável pode não conseguir representar toda a complexidade do comportamento dos consumidores nos supermercados. O algoritmo de fast correlation-based filter forneceu a mesma solução, não importando quais fossem os parâmetros definidos. O algoritmo genético, no seu melhor modelo, selecionou 18 variáveis e teve o melhor resultado de todos os testes, independentemente do algoritmo. Shelf20 tornou-se menos dispendioso computacionalmente e mais preciso com a solução encontrada neste projeto. Em relação às variáveis construídas, todas, exceto uma, demonstraram adicionar informação relevante ao conjunto de dados e, portanto, melhorar sua qualidade. Este projeto conseguiu cumprir o seu objetivo principal: melhorar o Shelf20 enriquecendo o conjunto de dados com novas variáveis e selecionando as variáveis mais relevantes e não redundantes, com recurso à seleção de variáveis, para melhorar o seu desempenho.pt_PT
dc.identifier.tid203154070pt_PT
dc.identifier.urihttp://hdl.handle.net/10400.26/43044
dc.language.isoporpt_PT
dc.subjectConstrução de variáveispt_PT
dc.subjectSeleção de variáveispt_PT
dc.subjectSistema de recomendaçãopt_PT
dc.subjectRetalho alimentarpt_PT
dc.subjectFast correlation based filterpt_PT
dc.subjectAlgoritmo genéticopt_PT
dc.subjectSequential methodspt_PT
dc.subjectFloating methodspt_PT
dc.titleFeature construction and selection on a grocery retail recommender systempt_PT
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsopenAccesspt_PT
rcaap.typemasterThesispt_PT

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Aline_Carvalho.pdf
Size:
3.63 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.85 KB
Format:
Item-specific license agreed upon to submission
Description: