Logo do repositório
 

Linguateca

URI permanente para esta coleção:

O objectivo da Linguateca, um centro de recursos -- distribuído -- para o processamento computacional da língua portuguesa, é servir a comunidade que se dedica ao processamento da nossa língua. Em particular, facilitar o acesso aos recursos já existentes, através do desenvolvimento de serviços de acesso na rede, e mantendo um portal com informação útil; desenvolver em colaboração com os interessados, os recursos considerados mais prementes; organizar avaliações conjuntas que envolvam a comunidade como um todo.

Duas linhas mestras norteiam a actividade da Linguateca:
1. Total abertura: Todas as actividades e trabalhos desenvolvidos pela Linguateca são públicos.
2. Disponibilização livre: Os autores de recursos serão remunerados ou compensados de forma a não serem lesados, mas a Linguateca não se destina a desenvolver ou apoiar o desenvolvimento de recursos proprietários, mas sim a criar condições para a existência de recursos bons e gratuitos para a língua portuguesa.

Linhas de investigação: Disponibilização de recursos linguísticos; Avaliação conjunta de sistemas de processamento da língua portuguesa; Resposta automática a perguntas; Extracção de informação; Estudos contrastivos; Extracção assistida de terminologia; Ontologias lexicais e geográficas; Recolha cruzada de informação multilingue

Notícias

Ligações:

Linguateca

Navegar

Entradas recentes

A mostrar 1 - 10 de 658
  • Clustering emotions in Portuguese
    Publication . Santos, Diana; Simões, Alberto
    In this paper we present some exploratory studies of emotion words based on large annotated corpora of Portuguese. Those corpora were automatically annotated with emotionality, and each emotion word was assigned one or more groups out of 26 emotion groups. Our goal is to evaluate those groups by applying different statistical approaches to our material, namely based on (a) co-occurrence in a sentence as a sign of closeness of meaning, and (b) word embeddings. After looking at the full material, we turn our attention to two specific emotion groups: Amor (‘love’) and Desespero (‘despair’), investigating whether clustering with those underlying techniques can help improve the shape, or redesign, particular emotion groups. In the paper we suggest some novel forms of measuring semantic coherence on word embedding models. Since computational research on emotion words in Portuguese is still rare, our methods and resources will lay the ground for future investigations.
  • Gender Depiction in Portuguese: Distant Reading Brazilian and Portuguese Literature
    Publication . Freitas, Claúdia; Santos, Diana
    In this paper, we look at how masculine and feminine characters are described in literature in Portuguese using a publicly available literary corpus: Literateca. We investigate the words used to characterise human beings, after classifying them into four broad categories, namely those related to the social, appearance, character and emotional axes. We study the influence of genre, literary school, author gender, and time, among others.
  • Avaliação no Desafio de Identificação de Personagens
    Publication . Willrich, Roberto; Santos, Diana
    A primeira edição do Desafio de Identificação de Personagens (DIP) foi uma avaliação conjunta de soluções computacionais para a identificação de personagens em textos literários, bem como a extração de caracterı́sticas destas personagens e seus relacionamentos. Para esta avaliação, foi necessária a definição de uma metodologia de avaliação, incluindo a seleção de métricas adequadas ao problema da identificação de personagens em textos literários. Este artigo apresenta uma panorâmica de avaliação na área de identificação de personagens em textos literários, assim como as escolhas concretas que foram realizadas pela comissão organizadora do DIP. Estas escolhas resultaram na definição da metodologia de avaliação do DIP. O uso da metodologia de avaliação proposta é ilustrado pela avaliação da solução candidata submetida ao DIP. Ao final, são apresentadas crı́ticas e sugestões de melhorias à metodologia de avaliação proposta.
  • Pais, filhos e outras relações familiares no DIP
    Publication . Mota, Cristina; Santos, Diana
    Neste artigo é descrita em pormenor a tarefa de identificação de relações familiares no Desafio de Identificação de Personagens (DIP), uma avaliação conjunta para identificar personagens em textos literários em português. Explicamos a motivação para esta subtarefa, e quais as dificuldades em criar uma coleção dourada com os valores corretos. Depois de referir em abstrato como se processa a avaliação desta sub-tarefa, relatamos os resultados do sistema participante, o PALAVRAS-DIP, e comentamos alguns problemas na sua avaliação. Além disso, descrevemos aquilo que aprendemos sobre a literatura lusófona com esta tarefa, assim como sugerimos outras pesquisas possı́veis com este material.
  • DIP - Desafio de Identificação de Personagens: objectivo, organização, recursos e resultados
    Publication . Santos, Diana; Mota, Cristina; Pires, Emanoel; Langfeldt, Marcia; Fuão, Rebeca Schumacher; Willrich, Roberto
    Este artigo apresenta o Desafio de Identificação de Personagens (DIP) em profundidade. Documenta a sua motivação, as escolhas feitas, o desenrolar do processo de organização, a avaliação conjunta, e os resultados que podemos mostrar, assim como os recursos compilados e que são públicos. Relatamos o que aprendemos com a organização do DIP e o que aprendemos sobre a literatura em português. Por exemplo, nas obras do DIP, (1) o número de personagens femininas é muito inferior ao das personagens masculinas, (2) existem sempre algumas personagens referidas com nomes diferentes na mesma obra, (3) a profissão mais mencionada é a de padre, (4) há mais referência a pais do que a mães, e (5) os diminutivos são bastante frequentes.
  • Placing GIS and NLP in literary geography: experiments with literature in Portuguese
    Publication . Santos, Diana; Alves, Daniel
    In this case study we discuss different approaches to the study of literature in digital humanities and try to join two methodologies, namely distant reading and spatial analysis. We first describe shortly the two projects involved, the Atlas of Literary Landscapes of Mainland Portugal and Literateca, highlighting and quantifying the different ways to deal with place in literature in Portuguese. Then we describe some different paths to compare and harmonize the two approaches, focusing on annotation, extraction and geocoding of place names.
  • Avaliação conjunta em português
    Publication . Santos, Diana; Freitas, Cláudia; Caselli, Helena M.; Nunes, Maria das Graças Volpe