Breve panor?mica dos recursos de portugu?s mencionados na Web Signe Oksefjell e Diana Santos projecto@informatics.sintef.no http://www.portugues.mct.pt/ Processamento computacional do portugu?s, SINTEF Telecom and Informatics, Boks 124 Blindern, N-0314 Oslo, Noruega Este documento pretende apresentar de forma resumida a informa??o presente na nossa p?gina de recursos de portugu?s computacional na Web, http://www.portugues.mct.pt/recursos.html, mostrando de uma forma mais estruturada algumas informa??es pertinentes e que ser?o pormenorizadas, para os recursos dispon?veis, numa futura p?gina de avalia??o, que planeamos tamb?m tornar acess?vel na Web. Contexto O trabalho que apresentamos aqui faz parte de uma iniciativa mais vasta do Minist?rio da Ci?ncia e da Tecnologia portugu?s com vista ? dinamiza??o e progresso do processamento computacional da l?ngua portuguesa. Uma das primeiras actividades desse programa de ac??o ? catalogar o que j? existe e tra?ar o perfil da ?rea em Portugal e no mundo. Por seu lado, uma das componentes desta actividade ? identificar a presen?a do processamento do portugu?s na rede, criando um cat?logo que poder? beneficiar todos quantos queiram desenvolver sistemas que processem a nossa l?ngua. A presente vers?o desse cat?logo, contendo mais de 200 ponteiros, acess?vel do nosso servidor http://www.portugues.mct.pt/, ? o ponto de partida para o presente artigo, que tenta apresentar o seu conte?do e tecer algumas considera??es sobre a sua cria??o. Conv?m indicar que esta panor?mica foi feita sem consulta directa aos actores e respons?veis pelos projectos, e s? se refere a sistemas mencionados na WWW. Muitos dos projectos e sistemas existentes em Portugal, no Brasil ou noutros pa?ses ? e de que temos conhecimento ? n?o se encontram portanto mencionados. Tent?mos contudo referir, na pr?pria p?gina, listas e cat?logos que contivessem recursos de outra ?ndole, tais como Castilho et al. (1995), Correia (1995), Martins et al. (1998) e Nascimento et al. (1995). Por outro lado, seria loucura tentar reclamar qualquer exaustividade, embora esse seja o nosso objectivo te?rico: todos os dias descobrimos outros caminhos, provavelmente tamb?m todos os dias nasce uma p?gina nova na Web relevante para o processamento da l?ngua portuguesa? Apesar da consulta directa ter faltado, tent?mos publicitar, a n?vel do processamento do portugu?s (lista do Forum-LP) e de listas internacionais (Corpora, Linguist, etc.) a nossa iniciativa, pedindo contribui??es, sugest?es e cr?ticas ? fizemos o primeiro an?ncio em fins de Julho, e anunci?mos a renova??o das p?ginas em princ?pio de Setembro do corrente ano (1998). ? talvez interessante referir, como dado sociol?gico, que tivemos muito pouca resposta do lado da comunidade que pretend?amos servir. Apesar de catalogarmos mais de 200 p?ginas, tivemos at? agora apenas 18 respostas de parab?ns e encorajamento ou com sugest?es e adi??es, ainda que tiv?ssemos tido, desde a cria??o da primeira vers?o, mais de 1200 visitas externas, pela Web, provenientes de mais de 400 computadores diferentes. Resenha da informa??o presente em recursos.html Em seguida apresentamos um resumo do conte?do da p?gina, dividida em quatro sec??es ? corpora, dicion?rios e bases de dados terminol?gicas, ferramentas e outros recursos ? tentanto concentrar a informa??o pertinente em forma de tabelas. Um asterisco (*) indica que a informa??o correspondente n?o se encontra acess?vel. Para identificar devidamente os recursos a que nos referimos apenas pelo nome, o leitor tem de usar a pr?pria p?gina da Web, que resumimos aqui. Corpora Na lista de corpora, representada na tabela 1 ? a ?nica tabela cuja informa??o foi em alguns casos complementada com a informa??o presente em Nascimento et al. (1995) ?, encontram-se ponteiros para 16 corpora que ou s?o monolingues para o portugu?s (8) ou bilingues/multilingues que incluem o portugu?s (8). 10 s?o de portugu?s escrito (o CRPC incluindo uma parte de portugu?s falado, transcrito), 5 de fala (o CORAL tamb?m ? transcrito) e 3 de portugu?s falado, e transcrito. Os ?nicos corpora dispon?veis directamente na WWW s?o o Corpus jornal?stico Natura- PUBLICO, desenvolvido na Universidade do Minho com a autoriza??o do jornal P?blico, e os corpora desenvolvidos no ?mbito do projecto CHILDES, acess?veis dos servidores internacionais desse projecto. O Wordtheque permite a procura de palavras na rede, estando depois cada texto em que a palavra ocorre integralmente acess?vel. Quatro dos corpora multilingues (EUROM 1, ECI/MCI, MLCC e European Language Newspaper Text ? este ?ltimo apenas dispon?vel para membros do LDC em 1995 e 1996) s?o distribu?dos na forma de CD-ROM. Os restantes nove (9) corpora n?o est?o dispon?veis para consulta fora das institui??es respons?veis. Tabela 1 Tipo Nome do corpus Tamanho (s? portugu?s) Tamanho previsto/data escrito C?rpora de Portugu?s Medieval 620.000 palavras (Maio 1996) * / 1999 CORPUS 40 milh?es de palavras / 1997 Corpus de Refer?ncia do Portugu?s Contempor?neo (CRPC) 40 milh?es de palavras Corpus jornal?stico Natura-PUBLICO 1,76 Gb ECI/MCI 675.000 palavras English-Norwegian Parallel Corpus 180.000 palavras European Language Newspaper Text 15 milh?es de palavras MLCC 8 milh?es de palavras Tycho Brahe Parsed Corpus of Historical Portuguese 1 milh?o de palavras / 1999 Wordtheque 266 (extractos de) obras fala BD-FALA 2 Gb BD-PUBLICO 10 milh?es (2 Gb) CORAL 1,8 Gb / 1998 EUROM 1 3 Gb (parte portuguesa) SPEECHDAT * falado CHILDES (Bator?o, etc.) 120 narrativas (pelo menos) 513kB (pelo menos) CORAL 1,8Gb / 1998 CRPC 1,5milh?es de palavras Dicion?rios e l?xicos Nesta lista encontram-se ponteiros para 94 dicion?rios ou outros recursos lexicais. Existe uma grande variedade de recursos nesta lista, principalmente quanto a tamanho e tema. A tabela 2 fornece uma primeira sistematiza??o, que ? depois pormenorizada para cada categoria nas tabelas seguintes, referentes aos 16 dicion?rios monolingues gerais, 46 dicion?rios multilingues ou bilingues, e 32 dicion?rios monolingues especializados e bases de dados terminol?gicas. PE e PB significam respectivamente portugu?s europeu e brasileiro. Dez (10) dos dicion?rios s?o multim?dia: Aurelinho ? Dicion?rio Infantil Multim?dia, Diciop?dia, Dicion?rio multilingue interactivo, Dicion?rio multim?dia universal (por-fra/fra- por e por-ing/ing-por), Dicion?rio Visual Verbo, DIC Michaelis multim?dia e Grande Dicion?rio Multim?dia Universal de L?ngua Portuguesa. Em rela??o ? categoria de dicion?rios multilingues e bilingues, conv?m salientar que a maior parte s?o bilingues. Apenas cinco destes dicion?rios s?o apresentados como multilingues: Ergane, The Internet Dictionary Project, Dicion?rio Eletr?nico ZAZ!, Dicion?rio LOGOS, Dicion?rio multilingue interactivo. Por outro lado, na categoria dos dicion?rios monolingues especializados e bases de dados terminol?gicas, a maior parte destas colec??es s?o monolingues. H?, contudo, dez (10) bi- ou multilingues: ACRONYMS, Dicion?rio de termos art?sticos, DIC MICHAELIS T?cnico de termos t?cnicos, DIC MICHAELIS T?cnico Direito & Economia, EURODICAUTOM, EUTERPE, Fish terminology, Glossary of Portuguese Narcotics Terms, LORETO e VERBA, e duas com as entradas em portugu?s e a explica??o em ingl?s: Abbreviations e Glossary of Portuguese Narcotics Terms. Na tabela 5 indicamos a negrito os (poucos) casos em que a especializa??o do dicion?rio n?o se refere ? ?rea, mas sim ? fun??o ou tipo de linguagem. Quando o tamanho aparece sublinhado, significa que foi contado por n?s. Tabela 2 Acess?vel para consulta Tipo de dicion?rio Quant. Totalmente acess?vel livre paga Venda N?o acess?vel dicion?rios gerais 16 3 1 3 7 2 dicion?rios especializados e BDs terminol?gicas 32 20 4 8 dicion?rios multi- ou bilingues 46 2 18 10 16 Dicion?rios monolingues gerais (16) Freeware: Dicion?rio br.ispell (PB), Dicion?rio portugu?s (Ispell) (PE), Dicion?rio portugu?s (Jspell) (PE) Consulta livre: Dicion?rio da L?ngua Portuguesa On-Line (PE) paga: Dicion?rio Michaelis Soft Executivo, Melhoramentos Soft da L?ngua portuguesa, Nova Enciclop?dia Ilustrada Folha (PB) Venda: CD: AUR?LIO Eletr?nico (PB), Dicion?rio da L?ngua Portuguesa On-Line (PE), Dicion?rio PROfissional da L?ngua Portuguesa (PE), Diciop?dia (PE), Dicion?rio Visual Verbo (PE), DIC MAXI Michaelis portugu?s (PB), Grande Dicion?rio Multim?dia Universal de L?ngua Portuguesa (PE) disquete: Dicion?rio B?sico da L?ngua Portuguesa (PE) N?o acess?vel: Monolingual Portuguese lexicon (PE), Portuguese morphological lexicon Palavroso (PE) Tabela 3 Dicion?rios monolingues gerais Tamanho (verbetes) Origem AUR?LIO Eletr?nico 130.000 Lexikon Inform?tica Dicion?rio B?sico da L?ngua Portuguesa 17.000 Porto Editora / Priberam Dicion?rio br.ispell * Ricardo Ueda Karpischek, Univ. de S. Paulo1 Dicion?rio da L?ngua Portuguesa On-Line 500.000 Porto Editora / Priberam Dicion?rio Michaelis Soft Executivo * Michaelis Dicion?rio portugu?s (Ispell) 40.000 Projecto Natura, Univ. Minho Dicion?rio portugu?s (Jspell) 45.000 Projecto Natura, Univ. Minho Dicion?rio PROfissional da L?ngua Portuguesa 500.000 Porto Editora / Priberam Diciop?dia 90.000 Porto Editora / Priberam Dicion?rio Visual Verbo * Editorial Verbo DIC MAXI Michaelis Portugu?s 200.000 Michaelis Grande Dicion?rio Multim?dia Universal de L?ngua Port. 500.000 Texto Editora 1 O projecto foi desenvolvido a n?vel individual, sem apoio institucional da Universidade, que no entanto fornece a infraestrutura inform?tica e de rede. Melhoramentos Soft da L?ngua portuguesa * Melhoramentos Monolingual Portuguese lexicon 60.000 Centro de Lingu?stica Univ. Lisboa Nova Enciclop?dia Ilustrada Folha * Empresa Folha da Manh? S/A Portuguese morphological lexicon Palavroso 60.000 INESC Dicion?rios multilingues e bilingues (46) Totalmente acess?veis: Ergane, The Internet Dictionary Project Consulta livre: Dicion?rio Eletr?nico ZAZ! (PB), Dicion?rio LOGOS, Travlang's Translating Dictionaries para 8 l?nguas (16) paga: Dicion?rios Michaelis dicion?rios bilingues para 5 l?nguas (10) Venda: CD: Dicion?rio de Caboverdiano-Portugu?s, Dicion?rio multilingue interactivo, Dicion?rio Multim?dia Universal Portugu?s/ Franc?s, Franc?s/ Portugu?s, Dicion?rio Multim?dia Universal de Portugu?s-Ingl?s, Ingl?s-Portugu?s, Dicion?rio PROfissional de ingl?s-portugu?s, Dicion?rio PROfissional de portugu?s-ingl?s#, DIC MAXI Michaelis multim?dia (6 idiomas), DIC Michaelis (2 idiomas), Online Portuguese-English/English Portuguese dictionary, Webster's ingl?s-portugu?s, portugu?s-ingl?s disquete: Dicion?rio PROfissional de ingl?s-portugu?s, Dicion?rio PROfissional de portugu?s-ingl?s# download: Portuguese-English Dictionary Macintosh, Portuguese-English Dictionary ? Windows #Estes recursos encontram-se em ambos os formatos: CD e disquete Tabela 4 Dicion?rios multilingues/bilingues Tamanho (verbetes) Origem Dicion?rio de Caboverdiano-Portugu?s 4.000 Priberam / Verbalis Dicion?rio eletr?nico ZAZ! * Livraria Nobel Dicion?rio LOGOS 7.580.560 verbetes (todas as l?nguas) LOGOS Dicion?rio multilingue interactivo 10.000 (cada l?ngua) Porto Editora Dicion?rio multim?dia universal (por-fra/fra- por) 20.000 (cada l?ngua) Texto Editora Dicion?rio multim?dia universal (por-ing/ing- por) 20.000 (cada l?ngua) Texto Editora Dicion?rio PROfissional (por-ing/ing-por) 82.000 / 68.000 Porto Editora / Priberam Dicion?rios Michaelis (para 5 l?nguas) * Michaelis DIC MAXI Michaelis multim?dia (6 idiomas) 319.000 verbetes Michaelis DIC Michaelis (2 idiomas) * Michaelis Ergane 14.547 Travlang Internet dictionary project * June29 Online Portuguese-English/English Portuguese dict. 1.500 / 1.900 Online Dictionaries Portuguese-English dictionary Macintosh/Windows 40.000 (cada l?ngua) Exceller Software Corp Travlang's translating dictionaries (para 8 l?nguas) entre 2.500 e 14.500 (cada l?ngua) Travlang Webster's ingl?s-portugu?s/portugu?s-ingl?s 40.000 Webster's Dicion?rios monolingues especializados e bases de dados terminol?gicas (32) Totalmente acess?veis: Abbreviations and acronyms used in the Portuguese-language press, ACRONYMS / SIGLAS / ABREVIATURAS, The Alternative Portuguese Dictionary (Portuguese slang) (PE, PB), Dicion?rio Alagoano (PB), Dicion?rio de Aquarismo, Dicion?rio de Astronomia e ?reas Afins (PB), Dicion?rio do internet?s, Dicion?rio inform?tica, Dicion?rio interativo ? inform?tica e internet (PB), Dicion?rio interativo de qu?mica; Internet e Multim?dia (PB), Fish terminology, GLOSS?RIO ? A Reforma da Uni?o europeia, Gloss?rio da g?ria da internet (PB), Gloss?rio de ?udio e V?deo, Gloss?rio de inform?tica, Glossary of Portuguese Narcotics Terms, List and Glossary of medical terms, Lista de prov?rbios (PE), Microsoft glossaries ? Brpor e Eupor Consulta: livre: Dicion?rio de cal?o (PE), Dicion?rio de termos art?sticos (PB), EURODICAUTOM, EUTERPE, LORETO, VERBA Venda: CD: Aurelinho ? Dicion?rio Infantil Multim?dia (PB), Dicion?rio Verbo de Ingl?s T?cnico e Multim?dia (PE), DIC MICHAELIS T?cnico de termos t?cnicos (PB), DIC MICHAELIS T?cnico Direito & Economia (PB), Speri-Data AG Basic dictionaries (colloquial language) (PE) disquete: Dicion?rio de sin?nimos do FliP (PE), LORETO e VERBA Tabela 5 Dicion?rios ou BDs especializados Tamanho (termos) ?rea Abbreviations and acronyms used in the Portuguese-language press 1.918 abreviaturas e acr?nimos (portugu?s-ingl?s) ACRONYMS / SIGLAS / ABREVIATURAS a contar abreviaturas e acr?nimos (ingl?s e portugu?s) Alternative Portuguese Dictionary 51 cal?o Aurelinho * linguagem infantil Dicion?rio Alagoano 864 linguagem regional Dicion?rio de Astronomia e ?reas Afins 58 astronomia Dicion?rio de cal?o * cal?o Dicion?rio de sin?nimos do FliP * sin?nimos Dicion?rio de termos art?sticos 3.300 (acess?veis ~100) arte Dicion?rio do internet?s 208 Internet Dicion?rio inform?tica; Internet e Multim?dia 247 inform?tica Dicion?rio interativo de qu?mica 673 qu?mica Dicion?rio Verbo de Ingl?s T?cnico e Multim?dia 120.000 inform?tica, f?sica nuclear, gen?tica molecular, bot?nica, etc. DIC MICHAELIS T?cnico de termos t?cnicos 20.000 termos t?cnicos e cient?ficos (6 idiomas) DIC MICHAELIS T?cnico Direito & Economia 64.000 direito e economia (portugu?s-alem?o-portugu?s) EURODICAUTOM 339.362 terminologia e abreviaturas da Comiss?o da UE EUTERPE 150.000 Terminologia do Parlamento Europeu Fish terminology 29 nomes de peixes em 9 l?nguas GLOSS?RIO ? A Reforma da Uni?o europeia 150 temas da reforma da UE Gloss?rio de ?udio e V?deo 691 termos t?cnicos de ?udio e v?deo Gloss?rio de inform?tica 329 inform?tica Glossary of Portuguese Narcotics Terms 1.288 droga (portugu?s-ingl?s) List and Glossary of medical terms 3.651 termos m?dicos Lista de prov?rbios 500 prov?rbios LORETO 800 biotecnologia, meio-ambiente, energia, telecomunica??o, etc. Microsoft glossaries (Brpor e Eupor) 34.270 (PB) 50.463 (PE) terminologia Microsoft Speri-Data AG Basic dictionaries 9.000 linguagem coloquial VERBA 83.000 (as 6 l?nguas) politecnologia Ferramentas computacionais (38) As ferramentas est?o divididas em 5 categorias: ? Ajuda ? reda??o (13 ponteiros) ? Componentes b?sicos de um sistema de PLN: analisadores ou geradores da l?ngua (12 ponteiros) ? Tradu??o autom?tica (9 ponteiros) ? S?ntese de fala (2 ponteiros) ? Ajuda ao ensino (2 ponteiros) Na primeira categoria ($MXGD j UHGDFomR), resumida na tabela 6, encontram-se principalmente correctores ortogr?ficos, mas tamb?m correctores gramaticais em geral. Os correctores ortogr?ficos ISPELL (PE), br.spell (PB) e Dom?nio (PB) encontram-se como freeware na WWW. As ferramentas para a l?ngua portuguesa (FliP), que incluem um corrector grammatical, um corrector ortogr?fico, um editor de texto e um hifenizador, s?o vendidas em forma de disquete. A Gram?tica Eletr?nica (PB), o LEXIKON (PB), as duas vers?es de Orthogr?phos (PB), o Revisor gramatical DTS (PB) e a Reda??o L?ngua Portuguesa (PB) s?o distribu?dos na forma de CD. Ainda na lista Lince (PE) ? j? n?o existente no mercado ? e ReGra (PB) ? integrado num editor de texto comercial. N?o est?o inclu?dos nesta lista a maior parte dos correctores ortogr?ficos inclu?dos em sistemas propriet?rios (como por exemplo editores de texto), por n?o serem geralmente descritos independentemente (e n?o se encontrarem por isso facilmente na rede). Na categoria &RPSRQHQWHV EiVLFRV GH XP VLVWHPD GH 3URFHVVDPHQWR GH /LQJXDJHP 1DWXUDO DQDOLVDGRUHV RX JHUDGRUHV GD OtQJXD, descrita na tabela 7, h? mais variedade em tipo de ferramenta, mas em primeiro lugar encontram-se aqui analisadores ou geradores morfol?gicos (6) e analisadores sint?cticos (4) da l?ngua portuguesa, um alinhador ingl?s- portugu?s, e um sistema para ajudar a an?lise manual ("tagging") de corpora. Tr?s destes s?o freeware e cinco podem experimentar-se via Internet. Finalmente, inlu?mos aqui tamb?m um programa para desenvolver dicion?rios (Ergane). Na tabela 8, h? 9 ponteiros para programas de TUDGXomR DXWRPiWLFD. 6 s?o multilingues e incluem o portugu?s como l?ngua de partida e de chegada, enquanto 3 s?o bilingues, e dirigidos para o par em causa: portugu?s- dinamarqu?s (Portdan) e ingl?s-portugu?s (DIC TRADUTOR e GEVER). Quatro s?o acess?veis atrav?s da Internet para textos pequenos. GEVER ? freeware, enquanto o Universal Translator de Luxe pode ser experimentado durante trinta dias sem pagar. Finalmente, o Word translator, como o nome indica, ? um tradutor palavra-a-palavra. Outra categoria, na tabela 9, ? a de 6tQWHVH GH IDOD, onde se encontram dois sintetizadores: o DIXI, que ? um sintetizador de fala a partir de texto em portugu?s, e o SVITD, que ? um sintetizador de n?meros de telefone em portugu?s. Os dois encontram-se dispon?veis para teste na WWW; o segundo ?, al?m disso, usado nos servi?os da Portugal Telecom (n?mero de telefone 118). Na ?ltima categoria, $MXGD DR HQVLQR, h? 2 ponteiros, dispostos na tabela 10: para a Interactive grammar, dispon?vel para consulta e para a Verboteca portuguesa, dispon?vel no seu conjunto para download. De notar que s? se encontram aqui mencionadas ferramentas cujo objectivo seja exactamente "Computer- aided learning", outros programas e recursos tamb?m poderiam evidentemente aqui ser integrados como auxiliares nesta tarefa. Tabela 6: ajuda ? redac??o Como obter Ferramenta Desenvolvido por Venda Dom?nio Alania Laborat?rio Digital FliP Priberam / Porto Editora Gram?tica eletr?nica Lexikon Inform?tica LEXIKON Lexikon Inform?tica Orthogr?phos DTS Software Orthogr?phos Maxi (3 idiomas) DTS Software Reda??o L?ngua Portuguesa * ReGra (parte de REDATOR) Univ. de S?o Paulo Revisor gramatical DTS DTS Software Download br.ispell Ricardo Ueda Karpischek, Univ. de S?o Paulo2 Dom?nio Alania Laborat?rio Digital ISPELL Projecto Natura, Univ. do Minho N?o acess?vel Lince ILTEC / Priberam Tabela 7: analisadores e geradores de portugu?s Disponibilidade Ferramenta Desenvolvido por Consulta www Automatic Analysis of Portuguese Eckhard Bick, Univ. de Aarhus ConVer ? Conjuga??o Verbal Univ. Federal do Rio Grande do Sul, Instituto de inform?tica Finite-State Morphological Analyzer Xerox research LOGOS Universal conjugator LOGOS XRCE Part of Speech Disambiguators Xerox research Download Conjugador de verbos da l?ngua portuguesa Ricardo Ueda Karpischek, Univ. de S?o Paulo2 ConVer ? Conjuga??o Verbal Univ. Federal do Rio Grande do Sul, Instituto de inform?tica Ergane Gerard van Wilgen, Travlang Etiquetador para portugu?s Projecto Natura, Univ. do Minho JSPELL: analisador morfol?gico Projecto Natura, Univ. do Minho LS-GRAM Grammars for EU Languages Uni?o Europeia / ILTEC Tagging Aid Tool of the Tycho Brahe Corpus C. de Menezes, Univ. de S?o Paulo The Translation Corpus Aligner Knut Hofland, Univ. de Bergen Tabela 8: tradutores autom?ticos Disponibilidade Ferramenta L?nguas Desenvolvido por Venda Comprende ingl?s-portugu?s-ingl?s Globalink DIC TRADUTOR ingl?s-portugu?s DTS Software SYSTRAN?Personal ingl?s-portugu?s-ingl?s SYSTRAN Universal Translator de Luxe 25 l?nguas2 Language Force Word translator 20 l?nguas3 Translation Experts Consulta www Altavista Translation Service ingl?s-portugu?s-ingl?s SYSTRAN Portdan ? trans. into Danish portugu?s-dinamarqu?s Eckhard Bick, Univ. de Aarhus Shareware E-mail Translator Plug-In for Eudora ingl?s-portugu?s-ingl?s Globalink Freeware GEVER ingl?s-portugu?s Vilson Leffa, Univ. Cat?lica de Pelotas 2 Chinese, Czech, Danish, Esperanto, French, German, Greek, Hungarian, Italian, Indonesian, Latin, Japanese, Korean, Norwegian, Portuguese, Romanian, Russian, Slovak, Spanish, Swahili, Swedish, Thai, Turkish, Ukrainian, and Vietnamese 3 Portugu?s, ingl?s, alem?o, franc?s, espanhol, italiano, grego, finland?s, noruegu?s, sueco, dinamarqu?s, japon?s, h?ngaro, checo, polaco, holand?s, island?s, croata, s?rbio, romeno Tabela 9: sintetizadores de fala Ferramenta Desenvolvido por DIXI INESC / CLUL SVIDT INESC / Portugal Telecom Tabela 10: ajuda ao ensino Ferramenta Desenvolvido por Interactive grammar Eckhard Bick, Univ. de Aarhus Verboteca portuguesa Fernando Moura, Universidade Cat?lica de Lovaina Outros N?o trat?mos aqui a categoria "Outros recursos", presente na nossa p?gina da rede, por n?o nos parecer pertinente uma maior estrutura??o. Contentamo-nos com indicar que tem ponteiros para: ? Cat?logos de literatura em portugu?s acess?veis na WWW (2) ? Textos em portugu?s (27) ? Material did?ctico (8) ? Informa??o sobre a l?ngua portuguesa (5) ? Outros cat?logos com links relacionados com a l?ngua portuguesa (5) ? Iniciativas pol?ticas, relacionadas com o portugu?s na era da informa??o (3) Outros par?metros de categoriza??o Enquanto que ? frequente que os dicion?rios (e por vezes os corpora) mencionem a variante (PE, PB ou portugu?s medieval) a que se referem, tal ? no caso das ferramentas computacionais raramente explicitado, o mesmo se passando na categoria "Outros recursos". Tent?mos por isso identificar, para o caso das ferramentas, a distribui??o entre as duas variantes mais tratadas, ou seja, o portugu?s de Portugal e o do Brasil, identificados pelos adjectivos "europeu" e "brasileiro" nas tabelas 11 a 13. Da mesma forma, tent?mos classificar os corpora de portugu?s escrito em rela??o precisamente ? variedade de portugu?s (norma) que reflectem, na tabela 14, cujas iniciais correspondem directamente aos corpora j? citados na tabela 1. Os corpora de fala e de portugu?s falado que conseguimos encontrar na rede eram exclusivamente de portugu?s europeu. "PA" indica "portugu?s antigo". Tabela 11 Ferramentas de ajuda ? redac??o Portugu?s europeu Portugu?s brasileiro FliP Dom?nio Ispell Gram?tica eletr?nica Lince Lexikon Orthogr?phos Orthogr?phos Maxi ReGra Revisor gramatical DTS br.ispell Tabela 12 Analisadores ou geradores da l?ngua Portugu?s europeu Portugu?s brasileiro Portugu?s europeu/brasileiro Etiquetador para portugu?s Automatic Analysis of Portuguese Finite-State Morphological Analyzer Jspell ConVer LOGOS Universal conjugator LS-Gram Conjugador de verbos da l?ngua portuguesa XRCE Part of Speech Disambiguators Ergane Tagging Aid Tool of the Tycho Brahe Corpus The Translation Corpus Aligner Tabela 13 Ferramentas de tradu??o autom?tica Portugu?s europeu Portugu?s brasileiro Dif?cil de determinar DIC Tradutor Comprende Portdan SYSTRAN GEVER Universal translator de luxe Word translator Altavista translation service E-mail translator plug-in for Eudora Tabela 14 Corpus PE PB PA CPM 100% CORPUS 100% CRPC 94% 5% CJ Natura-PUBLICO 100% ECI/MCI 100% ENPC 62,5% 37,5% ELNT 100% (estimamos) MLCC 100% TBPCHP 100% Wordtheque 51% 49% Observa??es finais Este texto n?o pretende ser mais do que uma primeira "fotografia", precisamente datada (de 7 de Outubro de 1998), da informa??o sobre o processamento computacional da l?ngua portuguesa na Web. Ao contr?rio de fixar uma ?rea, espera-se que motive os seus investigadores a produzirem e a colocarem mais informa??o na rede, ou seja, que d? origem a uma explos?o de s?tios com recursos e informa??o sobre o processamento computacional da nossa l?ngua. Pensamos que o cat?logo a que nos temos dedicado servir? para identificar o trabalho j? feito, assim como as ?reas mais necessitadas de investiga??o e de trabalho pr?tico, al?m de permitir uma reutiliza??o efectiva dos recursos existentes e facilitar uma comunica??o alargada entre os membros da comunidade cient?fica. Por outro lado, as limita??es do presente texto, e das p?ginas da rede a que se referem, demonstram claramente que n?o ? trivial usar uma metalinguagem comum, e que as classifica??es, a nomenclatura, e a import?ncia relativa da informa??o que as p?ginas para as quais apontamos exp?em varia de forma extrema. Algumas quest?es s?o contudo de salientar: ? em muitos casos, n?o concordamos com a terminologia usada pelos donos dos recursos, mas cingimo-nos a ela ? as listas de recursos s?o sempre apresentadas por ordem alfab?tica; no presente artigo, o mesmo recurso aparece por vezes em v?rias posi??es numa mesma tabela ? em paralelo, desenvolvemos um cat?logo de actores (por agora restrito a projectos e grupos) na ?rea do processamento computacional da l?ngua portuguesa, cujo endere?o ? http://www.portugues.mct.pt/actores.ht ml; nessa p?gina encontram-se projectos de desenvolvimento de ferramentas (ou dicion?rios, ou corpora) que n?o s?o mencionados no cat?logo de recursos por parecer n?o existir ainda (ou j? n?o) o recurso a que se referem ? n?o ? porventura poss?vel avaliar, com base na descri??o das p?ginas, a classifica??o que os seus autores consideram mais justa, por isso ? preciso contar com a colabora??o da comunidade para melhorar o nosso cat?logo; por outro lado, resta-nos a esperan?a de que a nossa tentativa de classifica??o possa ajudar os donos de p?ginas que se sentiram injusti?ados a reformular de certa forma o seu conte?do, de forma a tornar mais ?bvio o que t?m para oferecer e que foi por n?s mal compreendido Ao tentarmos uma apresenta??o quase linear, na p?gina da Web, esperamos que o nosso trabalho possa servir de ponto de partida para outras classifica??es, dando origem a uma pluralidade de emaranhados cuja estrutura seja mais clara e mais ?til para necessidades distintas. Gra?as ao car?cter eminentemente democr?tico da Web, nunca o nosso cat?logo poder? ser mais do que uma possibilidade de apresentar informa??o que nos parece relevante, e que j? existe ? espera de ser encontrada. No presente texto, al?m de apresentar alguns dados n?o directamente acess?veis na p?gina que estamos a publicitar, tais como o n?mero de entradas dos dicion?rios ou o tamanho dos corpora, tent?mos esbo?ar, de uma maneira incipiente, outras formas simples de estruturar essa mesma informa??o, como por exemplo a classifica??o segundo a variante do portugu?s. Outras crit?rios ?bvios de classifica??o seriam a plataforma inform?tica e o estatuto legal ou de disponibilidade, este ?ltimo indicado na p?gina atrav?s de um c?digo de imagens. Ainda que a forma em papel deste artigo cedo ficar? desactualizada, tencionamos ir melhorando a informa??o presente no nosso servidor, quer em profundidade, ? medida que formos recebendo e observando os produtos j? encomendados, quer em extens?o, renovando aqui o apelo a todos os produtores e investigadores na ?rea. Tal apelo ? feito muito especialmente a todos os investigadores do Brasil, que certamente ficou menos coberto nesta primeira vers?o do cat?logo, devido ? origem das autoras e do seu financiamento. Esperamos sinceramente que tal possa ser corrigido com a boa-vontade dos investigadores brasileiros em nos apontar as suas p?ginas e projectos, como j? aconteceu em muitos casos que aqui publicamente agradecemos. Refer?ncias Castilho, Ataliba Teixeira de, Giselle Machline de Oliveira e Silva e Dante Lucchesi. "Informatiza??o de acervos da l?ngua portuguesa" em Nascimento, Maria Fernanda Bacelar do, Maria Celeste Rodrigues e Jos? Bettencourt Gon?alves (orgs.), Actas do XI Encontro Nacional da Associa??o Portuguesa de Lingu?stica, Vol. 1 Corpora, Lisboa, 1995, pp.113-128. Correia, Margarita "Dicion?rios de L?ngua Portuguesa: Lista n?o Exaustiva de T?tulos Dispon?veis", em Faria, Isabel Hub e Margarita Correia (orgs.), Actas do XI Encontro Nacional da Associa??o Portuguesa de Lingu?stica, Vol. II Dicion?rios. Lisboa, 1995, pp.279-286. Martins, Ciro, Isabel Mascarenhas, Hugo Meinedo, Jo?o Neto, Lu?s Oliveira, Carlos Ribeiro, Isabel Trancoso e C?u Viana. "Spoken Language Corpora for Speech Recognition and Synthesis in European Portuguese", http://www.speech.inesc.pt/bib/Tran- coso98a/poster.html Nascimento, Maria Fernanda Bacelar do, Maria Celeste Rodrigues e Jos? Bettencourt Gon?alves (Orgs.). "Corpora portugueses", Actas do XI Encontro Nacional da Associa??o Portuguesa de Lingu?stica, Vol. 1 Corpora, Lisboa, 1995, pp.423-447.