Modificações automáticas no corpus da Floresta
Paulo Rocha
Projecto Floresta
sintá(c)tica
Última actualização: 12 de Novembro de 2008
Os corpora disponibilizados pela Floresta Sintá(c)tica são anotados pelo parser
PALAVRAS (Bick
2000). Sobre
essa anotação, são efectuadas as
modificações listadas abaixo, inclusivé sobre os corpora nos quais não é efectuada
nenhuma revisão manual (Floresta Virgem e Amazônia). Os scripts em Perl para efectuar essas modificações podem ter obtidos, num ficheiro .tgz, aqui.
- São executadas as conversões listadas nesta página
- É removida toda a anotação sintáctica da pontuação
- Todos os adjectivos (adj) com a etiqueta secundária <n> são reclassificados na categoria n-adj
-
H:adj("português" <np-def> <n> M P) portugueses
passa a
- H:n-adj("português" <np-def> M P) portugueses
- Os sintagmas adjectivais (adjp) cujo núcleo é um advérbio são reclassificados como sintagmas adverbiais (advp)
- Os sintagmas nominais (np) cujo núcleo é um numeral (num) são reclassificados como sintagmas adjectivais (adjp)
- É inserida a etiqueta secundária <date> em sintagmas nominais (np) cujo padrão corresponda a uma data (e.g., 23 de maio de 93,
Junho de 1995, Agosto do ano passado)
- Os prefixos anti, arqui, auto, contra, ex, inter, intra, mal, neo, pós, pré, recém, sub e vice, quando hifenizados, são desligados do núcleo e
classificados como adjuntos adnominais (>N) da categoria prefixo (ec)
-
H:n("ex-governador" M S) ex-governador
passa a
- >N:ec("ex-") ex-
- H:n("governador" M S) governador
- Sempre que possível, os procuráveis existentes nos verbos auxiliares são passados para os verbos principais
- ===AUX:v-fin("ir" <icl-subst> <nosubj> PR 3S IND VFIN) vai
- ===MV:v-inf("depender") depender
passa a
- ===AUX:v-fin("ir" PR 3S IND VFIN) vai
- ===MV:v-inf("depender" <nosubj> <icl-subst>) depender
- São efectuadas as seguintes correcções nos procuráveis, correspondentes a erros a corrigir no parser
- o procurável <nosubj> é transformado em <nosubj> se o verbo principal for haver, chover, nevar, trovejar ou ventar
- os procuráveis <fs-subst> e <icl-subst> são adicionados aos verbos principais de cláusulas subordinadadas, conforme seja,
respectivamente, verbos finitos ou outras formas
- é removido o procurável <nosubj dos verbos, caso exista um sujeito no mesmo nível do sintagma verbal
- os objectos da passiva em se recebem a função ACC-PASS
- o procurável é adicionado ao verbo principal de uma cláusula relativa que não o tenha
- Quando existe a etiqueta secundária <amount>, são inseridas automaticamente as etiquetas <np-dequant>, <np-partitive1>
e <np-partitive2>, substituindo se necessário a etiqueta <np-partitive>.
- ========>N:pron-det("o" <artd> DET F S) a
- =========H:n("parte" <np-def> <amount> F S) parte
- =========N
- ==========H:prp("de" <sam-> <np-close>) de
- ==========P<:np
- ===========>N:pron-det("o" <artd> <-sam> DET F S) a
- ===========H:n("manteiga" <np-partitive1> <np-def> <food-h> F S) manteiga
Detalhes sobre os critérios de uso destas etiquetas estão listados na secção 13 da Bíblia
Florestal
- São repostas as reticências nas frases em que o parser as substitui por ponto final
voltar à página de documentação