Repository logo
 
Loading...
Thumbnail Image
Publication

Classificação automática de textos através reconhecimento de entidades

Use this identifier to reference this record.
Name:Description:Size:Format: 
Paulo-Costa.pdf3.57 MBAdobe PDF Download

Abstract(s)

A sociedade de informação é um conceito que surge no fim do Século XX e que está diretamente relacionado com a Globalização. Neste contexto podemos considerar que a sociedade se encontra num processo contínuo de formação e expansão. Com o surgimento das redes sociais e com a evolução tecnológica de vários tipos de dispositivos inteligentes assistiu-se a um crescimento alucinante na partilha de um conjunto vasto de informação. Assim, a gestão desta torna-se difícil ou praticamente impossível, sem utilização de ferramentas que permitam filtrar o que realmente é importante para o contexto das organizações, para que estas possam identificar novas oportunidades de negócio. Neste contexto sendo a CISION Portugal líder de mercado na monitorização e segmentação de informação, urge a necessidade de melhorar o seu processo de produção, para uma melhor resposta às exigências do mercado. Esta investigação apresenta então um novo método de indexação e segmentação de conteúdos para ser aplicado no processo interno de produção da CISION Portugal, tendo por base a identificação automática de entidades nos textos jornalísticos produzidos online e a sua relevância para um determinado tema. Verificou-se que o novo método para temas com pouca ambiguidade funciona e consegue resultados semelhantes aos que atualmente existem, sendo que as propostas de indexação chegam mesmo a atingir um grau de certeza próximo dos 100%. Para os temas com um elevado grau de ambiguidade e que, por sua vez, exigem uma equipa de validação de conteúdos, a investigação abordou a questão para um tema específico, através do desenvolvimento de um sistema de classificação automática de texto, utilizando para tal algoritmos probabilísticos. A seleção do conjunto treino, para os sistemas anteriormente referidos, foi criado sem recorrer ao histórico interno produzido pelas equipas da CISION Portugal, utilizando apenas a identificação das entidades. Os resultados obtidos quando comparados com os atuais demonstram que é possível reduzir o número de propostas irrelevantes e fazer a indexação de conteúdos sem necessidade de recorrer a uma supervisão inicial por parte de uma equipa.

Description

Keywords

Classificação de textos Indexação de conteúdos Segmentação de conteúdos

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue