Extracting keywords from tweets

Farinha, André Filipe Neves

Publicação

Extracting keywords from tweets

2018-11Dissertação de mestrado

datacite.subject.fos	Engenharia e Tecnologia	pt_PT
dc.contributor.advisor	Campos, Ricardo
dc.contributor.author	Farinha, André Filipe Neves
dc.date.accessioned	2019-05-20T13:39:00Z
dc.date.available	2019-05-20T13:39:00Z
dc.date.issued	2018-11
dc.description.abstract	Nos últimos anos, uma enorme quantidade de informações foi disponibilizada na Internet. As redes sociais estão entre as que mais contribuem para esse aumento no volume de dados. O Twitter, em particular, abriu o caminho, enquanto plataforma social, para que pessoas e organizações possam interagir entre si, gerando grandes volumes de dados a partir dos quais é possível extrair informação útil. Uma tal quantidade de dados, permitirá por exemplo, revelar-se importante se e quando, vários indivíduos relatarem sintomas de doença ao mesmo tempo e no mesmo lugar. Processar automaticamente um tal volume de informações e obter a partir dele conhecimento útil, torna-se, no entanto, uma tarefa impossível para qualquer ser humano. Os extratores de palavras-chave surgem neste contexto como uma ferramenta valiosa que visa facilitar este trabalho, ao permitir, de uma forma rápida, ter acesso a um conjunto de termos caracterizadores do documento. Neste trabalho, tentamos contribuir para um melhor entendimento deste problema, avaliando a eficácia do YAKE (um algoritmo de extração de palavras-chave não supervisionado) em cima de um conjunto de tweets, um tipo de texto, caracterizado não só pelo seu reduzido tamanho, mas também pela sua natureza não estruturada. Embora os extratores de palavras-chave tenham sido amplamente aplicados a textos genéricos, como a relatórios, artigos, entre outros, a sua aplicabilidade em tweets é escassa e até ao momento não foi disponibilizado formalmente nenhum conjunto de dados. Neste trabalho e por forma a contornar esse problema optámos por desenvolver e tornar disponível uma nova coleção de dados, um importante contributo para que a comunidade científica promova novas soluções neste domínio. O KWTweet foi anotado por 15 anotadores e resultou em 7736 tweets anotados. Com base nesta informação, pudemos posteriormente avaliar a eficácia do YAKE! contra 9 baselines de extração de palavra-chave não supervisionados (TextRank, KP-Miner, SingleRank, PositionRank, TopicPageRank, MultipartiteRank, TopicRank, Rake e TF.IDF). Os resultados obtidos demonstram que o YAKE! tem um desempenho superior quando comparado com os seus competidores, provando-se assim a sua eficácia neste tipo de textos. Por fim, disponibilizamos uma demo que visa demonstrar o funcionamento do YAKE! Nesta plataforma web, os utilizadores têm a possibilidade de fazer uma pesquisa por utilizador ou hashtag e dessa forma obter as palavras chave mais relevantes através de uma nuvem de palavras	pt_PT
dc.identifier.tid	202231550	pt_PT
dc.identifier.uri	http://hdl.handle.net/10400.26/28594
dc.language.iso	por	pt_PT
dc.subject	Extrator de palavras chave	pt_PT
dc.subject	Twitter	pt_PT
dc.subject	Extração de informação	pt_PT
dc.title	Extracting keywords from tweets	pt_PT
dc.type	master thesis
dspace.entity.type	Publication
rcaap.rights	openAccess	pt_PT
rcaap.type	masterThesis	pt_PT
thesis.degree.grantor	Instituto Politécnico de Tomar
thesis.degree.name	Mestrado em Engenharia Informática - Internet das Coisas	pt_PT

Ficheiros

Principais

A mostrar 1 - 1 de 1

Nome:: Extracting Keywords from Tweets.pdf
Tamanho:: 2.36 MB
Formato:: Adobe Portable Document Format

Ver/Abrir

Licença

A mostrar 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.85 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Ver/Abrir

Coleções

IPT - ESTT - Teses de Mestrado ou Doutoramento