{\rtf1\ansi\ansicpg1252\uc1 \deff0\deflang1033\deflangfe1033{\fonttbl{\f0\froman\fcharset0\fprq2{\*\panose 02020603050405020304}Times New Roman;}{\f3\froman\fcharset2\fprq2{\*\panose 05050102010706020507}Symbol;}
{\f4\froman\fcharset0\fprq2{\*\panose 02020603050405020304}TIMES;}{\f16\froman\fcharset238\fprq2 Times New Roman CE;}{\f17\froman\fcharset204\fprq2 Times New Roman Cyr;}{\f19\froman\fcharset161\fprq2 Times New Roman Greek;}
{\f20\froman\fcharset162\fprq2 Times New Roman Tur;}{\f21\froman\fcharset186\fprq2 Times New Roman Baltic;}{\f40\froman\fcharset238\fprq2 TIMES CE;}{\f41\froman\fcharset204\fprq2 TIMES Cyr;}{\f43\froman\fcharset161\fprq2 TIMES Greek;}
{\f44\froman\fcharset162\fprq2 TIMES Tur;}{\f45\froman\fcharset186\fprq2 TIMES Baltic;}}{\colortbl;\red0\green0\blue0;\red0\green0\blue255;\red0\green255\blue255;\red0\green255\blue0;\red255\green0\blue255;\red255\green0\blue0;\red255\green255\blue0;
\red255\green255\blue255;\red0\green0\blue128;\red0\green128\blue128;\red0\green128\blue0;\red128\green0\blue128;\red128\green0\blue0;\red128\green128\blue0;\red128\green128\blue128;\red192\green192\blue192;}{\stylesheet{\widctlpar\adjustright 
\fs20\lang1044\cgrid \snext0 Normal;}{\s1\sb480\sa360\keepn\widctlpar\adjustright \b\f4\fs32\lang1044\kerning28\cgrid \sbasedon0 \snext0 heading 1;}{\s2\sb240\sa120\keepn\widctlpar\adjustright \b\f4\fs22\lang1044\cgrid \sbasedon0 \snext0 heading 2;}{
\s3\sb240\sa60\keepn\widctlpar\adjustright \i\fs22\lang1044\cgrid \sbasedon0 \snext0 heading 3;}{\*\cs10 \additive Default Paragraph Font;}{\*\cs15 \additive \fs16\up6 \sbasedon10 footnote reference;}{\s16\qj\sl360\slmult1\widctlpar\adjustright 
\f4\fs22\lang1044\cgrid \sbasedon0 \snext16 primeiro_par;}{\s17\qj\sl360\slmult1\widctlpar\tx993\adjustright \f4\fs18\lang1044\cgrid \sbasedon0 \snext0 footnote text;}{\s18\qj\fi567\sl360\slmult1\widctlpar\adjustright \f4\fs22\lang1044\cgrid 
\sbasedon0 \snext18 par_normal;}{\s19\qj\li2835\sl360\slmult1\widctlpar\adjustright \f4\fs18\lang1044\cgrid \sbasedon18 \snext19 citacao;}{\s20\qr\li2835\sa240\sl360\slmult1\widctlpar\adjustright \f4\fs18\lang1044\cgrid \sbasedon18 \snext20 
autor_citacao;}{\s21\qj\li567\sa60\sl220\slmult0\nowidctlpar\adjustright \i\f4\fs22\lang1044\cgrid \sbasedon0 \snext21 exemplo;}{\s22\qj\fi-567\li567\sb60\sl220\slmult0\nowidctlpar\tx567\adjustright \fs22\lang1044\cgrid \sbasedon0 \snext22 exemplo fonte;}
{\s23\qj\fi567\sl360\slmult1\widctlpar\adjustright \f4\fs22\lang1044\cgrid \sbasedon18 \snext23 e;}{\s24\qj\fi-567\li567\sb60\sa60\sl220\slmult0\nowidctlpar\tx567\adjustright \fs22\lang1044\cgrid \sbasedon22 \snext24 alternativa;}{
\s25\qc\sa120\sl360\slmult1\widctlpar\adjustright \f4\fs20\lang1044\cgrid \sbasedon18 \snext25 caption;}{\s26\qj\sl360\slmult1\widctlpar\adjustright \f4\fs18\lang1044\cgrid \sbasedon18 \snext26 duas_colunas;}{\s27\widctlpar
\tqc\tx4536\tqr\tx9072\adjustright \fs20\lang1044\cgrid \sbasedon0 \snext27 footer;}{\*\cs28 \additive \sbasedon10 page number;}{\s29\widctlpar\tqc\tx4536\tqr\tx9072\adjustright \fs20\lang1044\cgrid \sbasedon0 \snext29 header;}{
\s30\qj\fi-567\li567\ri227\sa120\widctlpar\tx993\adjustright \f4\fs22\lang1044\cgrid \sbasedon0 \snext30 biblio;}{\s31\qj\fi-284\li851\sb120\sl360\slmult1\widctlpar{\*\pn \pnlvlblt\ilvl10\ls2047\pnrnot0\pnf4\pnstart1\pnindent283\pnhang{\pntxtb ?}}
\ls2047\ilvl10\adjustright \f4\fs22\lang1044\cgrid \sbasedon18 \snext31 primeiro ponto;}{\s32\qj\fi-284\li851\sa120\sl360\slmult1\widctlpar{\*\pn \pnlvlblt\ilvl10\ls2047\pnrnot0\pnf4\pnstart1\pnindent283\pnhang{\pntxtb ?}}\ls2047\ilvl10\adjustright 
\f4\fs22\lang1044\cgrid \sbasedon18 \snext32 ultimo ponto;}{\s33\qj\sb120\sl360\slmult1\widctlpar\adjustright \f4\fs22\lang1044\cgrid \sbasedon18 \snext33 par_num;}{\*\cs34 \additive \ul\cf2 \sbasedon10 Hyperlink;}{\*\cs35 \additive \ul\cf12 \sbasedon10 
FollowedHyperlink;}{\s36\qj\fi-284\li851\sl360\slmult1\widctlpar{\*\pn \pnlvlbody\ilvl11\ls2047\pnrnot0\pndec\pnstart3\pnindent283\pnhang{\pntxta .}}\ls2047\ilvl11\adjustright \f4\fs22\lang1044\cgrid \sbasedon18 \snext36 ponto numerado;}}{\*\listtable
{\list\listtemplateid-1\listsimple{\listlevel\levelnfc0\leveljc0\levelfollow0\levelstartat0\levelspace0\levelindent0{\leveltext\'01*;}{\levelnumbers;}}{\listname ;}\listid-2}{\list\listtemplateid-1548968714\listsimple{\listlevel\levelnfc0\leveljc0
\levelfollow0\levelstartat1\levelold\levelspace0\levelindent283{\leveltext\'02\'00.;}{\levelnumbers\'01;}\fi-283\li283 }{\listname ;}\listid339311159}{\list\listtemplateid1932701418\listsimple{\listlevel\levelnfc0\leveljc0\levelfollow0\levelstartat3
\levelold\levelspace0\levelindent283{\leveltext\'02\'00.;}{\levelnumbers\'01;}\fi-283\li283 }{\listname ;}\listid379210978}{\list\listtemplateid-1548968714\listsimple{\listlevel\levelnfc0\leveljc0\levelfollow0\levelstartat1\levelold\levelspace0
\levelindent283{\leveltext\'02\'00.;}{\levelnumbers\'01;}\fi-283\li283 }{\listname ;}\listid395128656}{\list\listtemplateid913217618\listsimple{\listlevel\levelnfc0\leveljc0\levelfollow0\levelstartat7\levelold\levelspace0\levelindent283{\leveltext
\'02\'00.;}{\levelnumbers\'01;}\fi-283\li283 }{\listname ;}\listid2040274142}}{\*\listoverridetable{\listoverride\listid339311159\listoverridecount0\ls1}{\listoverride\listid-2\listoverridecount1{\lfolevel\listoverrideformat{\listlevel\levelnfc23\leveljc0
\levelfollow0\levelstartat1\levelold\levelspace0\levelindent360{\leveltext\'01\u-3913 ?;}{\levelnumbers;}\f3\fbias0 \fi-360\li360 }}\ls2}{\listoverride\listid395128656\listoverridecount0\ls3}{\listoverride\listid379210978\listoverridecount0\ls4}
{\listoverride\listid2040274142\listoverridecount0\ls5}}{\info{\title Chapter 4: The translation network}{\author Diana Santos}{\operator SINTEF}{\creatim\yr1998\mo8\dy28\hr14\min37}{\revtim\yr1998\mo8\dy28\hr14\min37}{\printim\yr1998\mo8\dy26\hr14\min23}
{\version2}{\edmins0}{\nofpages8}{\nofwords2773}{\nofchars15811}{\*\company  }{\nofcharsws19417}{\vern89}}\paperw11906\paperh16838\margl1417\margr1417\margt1417\margb1417 
\deftab708\widowctrl\ftnbj\aenddoc\hyphhotz425\makebackup\margmirror\lytprtmet\hyphcaps0\formshade\viewkind1\viewscale122\pgbrdrhead\pgbrdrfoot \fet0\sectd \linex0\headery709\footery709\colsx709\endnhere\sectdefaultcl {\footer \pard\plain \s27\widctlpar
\tqc\tx4536\tqr\tx9072\pvpara\phmrg\posxo\posy0\adjustright \fs20\lang1044\cgrid {\field{\*\fldinst {\cs28 PAGE  }}{\fldrslt {\cs28\lang1024 1}}}{\cs28 
\par }\pard \s27\fi360\ri360\widctlpar\tqc\tx4536\tqr\tx9072\adjustright {
\par }}{\*\pnseclvl1\pnucrm\pnstart1\pnindent720\pnhang{\pntxta .}}{\*\pnseclvl2\pnucltr\pnstart1\pnindent720\pnhang{\pntxta .}}{\*\pnseclvl3\pndec\pnstart1\pnindent720\pnhang{\pntxta .}}{\*\pnseclvl4\pnlcltr\pnstart1\pnindent720\pnhang{\pntxta )}}
{\*\pnseclvl5\pndec\pnstart1\pnindent720\pnhang{\pntxtb (}{\pntxta )}}{\*\pnseclvl6\pnlcltr\pnstart1\pnindent720\pnhang{\pntxtb (}{\pntxta )}}{\*\pnseclvl7\pnlcrm\pnstart1\pnindent720\pnhang{\pntxtb (}{\pntxta )}}{\*\pnseclvl8
\pnlcltr\pnstart1\pnindent720\pnhang{\pntxtb (}{\pntxta )}}{\*\pnseclvl9\pnlcrm\pnstart1\pnindent720\pnhang{\pntxtb (}{\pntxta )}}\pard\plain \s1\sb240\sa240\keepn\widctlpar\outlinelevel0\adjustright \b\f4\fs32\lang1044\kerning28\cgrid {Disponibiliza\'e7
\'e3o de }{\i corpora}{ de texto atrav}{\lang2070 \'e9s da WWW}{
\par }\pard\plain \s16\qj\sl360\slmult1\widctlpar\adjustright \f4\fs22\lang1044\cgrid {Diana Santos
\par }{\fs20 Processamento computacional do portugu\'eas
\par }\pard \s16\qj\sl360\slmult1\widctlpar\adjustright {\fs20 SINTEF Telecom and Informatics
\par }{
\par }\pard \s16\qj\sl360\slmult1\widctlpar\adjustright {Neste artigo pretendo, ap\'f3s a minha experi\'eancia com o Oslo Corpus of Bosnian Texts (Santos, 1998), 
\par {\pntext\pard\plain\s16 \f4\fs22\lang1044\cgrid \hich\af4\dbch\af0\loch\f4 1.\tab}}\pard \s16\qj\fi-283\li283\sl360\slmult1\widctlpar{\*\pn \pnlvlbody\ilvl0\ls1\pnrnot0\pndec\pnstart1\pnindent283\pnhang{\pntxta .}}\ls1\adjustright {Discutir as vantag
ens de tornar acess\'edveis }{\i corpora}{ de texto}{\cs15\fs16\up6 \chftn {\footnote \pard\plain \s17\qj\sl360\slmult1\widctlpar\tx993\adjustright \f4\fs18\lang1044\cgrid {\cs15\fs16\up6 \chftn }{ Visto que a situa}{\lang2070 \'e7\'e3o \'e9
 consideravelmente diferente na \'e1rea da fala, remeto o leitor para Martins et al. (1998).}}}{ atrav\'e9s da rede
\par {\pntext\pard\plain\s16 \f4\fs22\lang1044\cgrid \hich\af4\dbch\af0\loch\f4 2.\tab}}\pard \s16\qj\fi-283\li283\sl360\slmult1\widctlpar{\*\pn \pnlvlbody\ilvl0\ls1\pnrnot0\pndec\pnstart1\pnindent283\pnhang{\pntxta .}}\ls1\adjustright {Analisar poss\'ed
veis entraves \'e0 sua disponibiliza\'e7\'e3o em Portugal
\par {\pntext\pard\plain\s16 \f4\fs22\lang1044\cgrid \hich\af4\dbch\af0\loch\f4 3.\tab}}\pard \s16\qj\fi-283\li283\sl360\slmult1\widctlpar{\*\pn \pnlvlbody\ilvl0\ls1\pnrnot0\pndec\pnstart1\pnindent283\pnhang{\pntxta .}}\ls1\adjustright {Sugerir uma colabora
\'e7\'e3o inter-grupos no sentido de disponibilizar }{\i corpora}{ portugueses 
\par }\pard \s16\qj\sl360\slmult1\widctlpar\adjustright {Assumo como dado adquirido que as vantagens de poder recorrer a }{\i corpora}{ de texto s\'e3o indiscut\'edveis quando se estuda a l\'ed
ngua, se desenvolvem ferramentas para o seu tratamento computacional, ou se criam recursos para estudantes, professores, e a comunidade dos falantes em geral (como \'e9 o caso de dicion\'e1rios, gram\'e1ticas, prontu\'e1rios, etc.). Este artigo }{
\lang2070 versar\'e1 portanto apenas as vantagens de os }{\i\lang2070 corpora}{\lang2070  estarem }{\ul\lang2070 dispon\'edveis}{\lang2070  a todos quantos se dedicam \'e0 engenharia de linguagem.}{
\par }\pard\plain \s2\sb240\sa120\sl360\slmult1\keepn\widctlpar\outlinelevel1\adjustright \b\f4\fs22\lang1044\cgrid {\i Corpora}{ de texto
\par }\pard\plain \s16\qj\sl360\slmult1\widctlpar\adjustright \f4\fs22\lang1044\cgrid {Um }{\i corpus}{ \'e9 geralmente considerado como uma colec\'e7\'e3o de textos cuja compila\'e7\'e3o n\'e3o foi arbitr\'e1
ria. Por vezes distingue-se entre banco de textos e }{\i corpus}{ propriamente dito. Exactamente quais os atributos que um }{\i corpus}{ deve ter n\'e3o \'e9, contudo, objecto de consenso; al\'e9m disso, mesmo quando os investigadores concordam sobr
e alguns requisitos a que um }{\i corpus}{ ideal deva obedecer, discordam em geral em rela\'e7\'e3o \'e0 forma pr\'e1tica de o conseguir. (Por exemplo, o crit\'e9rio da representatividade.)
\par }\pard\plain \s18\qj\fi567\sl360\slmult1\widctlpar\adjustright \f4\fs22\lang1044\cgrid {Na \'e1rea de "lingu\'edstica com corpora" (\lquote corpus linguistics\rquote ) \endash  \'e1rea em que os investigadores consideram os }{\i corpora}{
 como centrais para a investiga\'e7\'e3o lingu\'edstica, e que, portanto, em paralelo com os problemas lingu\'edsticos que constituem o objecto da sua pesquisa, se debru\'e7am sobre os meios que lhes permitam prossegui-la \endash  existem, }{\i 
grosso modo}{, dois tipos de grupos/pessoas:
\par {\pntext\pard\plain\s16 \f3\fs22\lang1044\cgrid \loch\af3\dbch\af0\hich\f3 \'b7\tab}}\pard\plain \s16\qj\fi-360\li360\sl360\slmult1\widctlpar\tx360{\*\pn \pnlvlblt\ilvl0\ls2\pnrnot0\pnf3\pnstart1\pnindent360\pnhang{\pntxtb \'b7}}\ls2\adjustright 
\f4\fs22\lang1044\cgrid {os compiladores, que se preocupam sobretudo com quest\'f5es de desenho dos }{\i corpora}{, revis\'e3o e anota\'e7\'e3o dos mesmos, compara\'e7\'e3o entre v\'e1rios }{\i corpora}{
\par {\pntext\pard\plain\s16 \f3\fs22\lang1044\cgrid \loch\af3\dbch\af0\hich\f3 \'b7\tab}}\pard \s16\qj\fi-360\li360\sl360\slmult1\widctlpar\tx360{\*\pn \pnlvlblt\ilvl0\ls2\pnrnot0\pnf3\pnstart1\pnindent360\pnhang{\pntxtb \'b7}}\ls2\adjustright {
os utilizadores, que se preocupam sobretudo com a informa\'e7\'e3o extra\'edvel de quaisquer }{\i corpora}{ em que possam tocar}{\cs15\fs16\up6 \chftn {\footnote \pard\plain \s17\qj\sl360\slmult1\widctlpar\tx993\adjustright \f4\fs18\lang1044\cgrid {
\cs15\fs16\up6 \chftn }{ Um terceiro grupo, o dos desenhadores de ferramentas de }{\i corpora}{, come\'e7a tamb\'e9m a tornar-se notado, como as recentes discuss\'f5es na lista electr\'f3
nica CORPORA mostram (veja-se o arquivo das mensagens a esta lista, em http://www.hit.uib.no/corpora/). Exemplos conhecidos s\'e3o Oliver Christ (Christ, 1994), Lou Burnard (Aston & Burnard, 1996) e, em Portugal, Jos\'e9 Carlos Medeiros (Medeiros, 1992).}
}}{
\par }\pard\plain \s18\qj\fi567\sl360\slmult1\widctlpar\adjustright \f4\fs22\lang1044\cgrid {Ainda que tal fen\'f3meno seja evidente na pr\'e1tica, os investigadores n\'e3o se v\'eaem em geral apenas com um destes perfis. Como tal, todos os compiladores \'ab
est\'e3o a compilar o corpus para depois o poderem usar, naturalmente\'bb, e os utilizadores muitas vezes t\'eam de compilar os seus pr\'f3prios }{\i corpora}{ (por falta de recursos externos) ou usar aquilo que lhes vem \'e0 m\'e3o (e que, em geral, n
\'e3o obedece aos requisitos m\'ednimos que os compiladores postulam para ser chamado um }{\i corpus}{).
\par Existe pois, no meu entender, um grande subaproveitamento dos recursos (f\'edsicos e humanos) envolvidos na lingu\'edstica com }{\i corpora}{: em geral, os }{\i corpora}{ mais bem desenhados s\'e3
o os menos utilizados (porque os recursos humanos a eles afectos est\'e3o sobretudo envolvidos na compila\'e7\'e3o, prepara\'e7\'e3o e revis\'e3o do material \endash  que \'e9
 bem morosa e delicada); por outro lado, a maior parte dos estudos efectuados utilizando }{\i corpora}{ recorrem a material pouco tratado.
\par Al\'e9m disso, e a uma dimens}{\lang2070 \'e3o mais vasta, }{a maior parte da comunidade lingu\'edstica, n\'e3o tendo acesso aos }{\i corpora}{, n\'e3o desenvolve aptid\'f5es para explorar e raciocinar com base neste tipo de recursos, n\'e3
o sentindo pois sequer a necessidade de se tornar um seu utilizador.
\par A maneira de contrariar esta tend\'eancia infeliz, vis\'edvel a n\'edvel internacional mas ultrapronunciada no nosso pa\'eds, \'e9 disponibilizando os }{\i corpora}{ \'e0 medida que forem sendo criados (e n\'e3o ficar \'e0 espera da \'fa
ltima moda); e premiando, em vez de prejudicar, os compiladores, por cada novo utilizador que consigam arranjar.
\par Uma das maiores vantagens da cria\'e7\'e3o de }{\i corpora}{ que estejam dispon\'edveis publicamente \'e9 a possibilidade de medir (avaliar) uma dada ferramenta, ou teoria, em rela\'e7\'e3o a um padr\'e3
o comum. Tal vantagem, listada sempre em primeiro lugar na literatura dos }{\i corpora}{ falados \endash  veja-se, para o portugu\'eas, Martins et al. (1998) \emdash , \'e9 raras vezes sublinhada no contexto dos }{\i corpora}{ escritos, de l\'ed
nguas diferentes do ingl\'eas. Contudo, o Brown corpus (Francis & Ku}{{\field{\*\fldinst SYMBOL 99 \\f "Times New Roman" \\s 11}{\fldrslt\f0\fs22}}}{era, 1979) e, em menor grau, o LOB corpus (Johansson et al., 1978), foram durante anos }{\ul a medida}{
 para avaliar anotadores (\lquote taggers\rquote ) do ingl\'eas.
\par Esta \'e9, de facto, uma das grandes diferen\'e7as entre a lingu\'edstica com }{\i corpora}{ e a lingu\'edstica de introspec\'e7\'e3o (em que as intui\'e7\'f5es de gramaticalidade e naturalidade s\'e3o pr\'f3prias 
de cada linguista envolvido, e geralmente em varia\'e7\'e3o evidente com as dos proponentes da teoria alternativa).}{\cs15\fs16\up6 \chftn {\footnote \pard\plain \s17\qj\sl360\slmult1\widctlpar\tx993\adjustright \f4\fs18\lang1044\cgrid {\cs15\fs16\up6 
\chftn }{ Conv\'e9m referir que nenhum proponente da lingu\'edstica com }{\i corpora}{ pretende excluir a compet\'eancia introspectiva do analista, e que portanto um }{\i corpus}{ n\'e3o substitui a instrospec\'e7\'e3o.}}}{
 Ao produzir uma base comum de estudo, permite-se tornar mais objectivo}{\cs15\fs16\up6 \chftn {\footnote \pard\plain \s17\qj\sl360\slmult1\widctlpar\tx993\adjustright \f4\fs18\lang1044\cgrid {\cs15\fs16\up6 \chftn }{ Note-se que um }{\i corpus}{ cont\'e9
m fen\'f3menos pelo menos t\'e3o marginais como os criados pela instrospec\'e7\'e3o dos linguistas te\'f3ricos \endash  a diferen\'e7a \'e9 que tais exemplos n\'e3o s\'e3o }{\i a priori}{ convenientes para nenhuma teoria...}}}{ o progresso na \'e1
rea das ci\'eancias humanas e sobretudo na \'e1rea de cria\'e7\'e3o de ferramentas que processem a l\'edngua, assim como na cria\'e7\'e3o de bancos de dados sobre a l\'edngua.
\par A disponibiliza\'e7\'e3o de }{\i corpora}{ n\'e3o \'e9, contudo \endash  ou, pelo menos, a curto prazo \endash  uma panaceia para p\'f4r os investigadores da l\'edngua portuguesa nas primeiras fileiras da lingu\'edstica com }{\i corpora}{ e o portugu\'ea
s no pelot\'e3o da frente das l\'ednguas bem tratadas computacionalmente. Sabe-se, de outras experi\'eancias, que n\'e3o \'e9 s\'f3 dizer \'abest\'e1 aqui\'bb e todos sem excep\'e7\'e3o passam a usar o }{\i corpus}{ na sua investiga\'e7\'e3
o, mudando radicalmente os seus h\'e1bitos de trabalho e os seus m\'e9todos de racioc\'ednio.}{\cs15\fs16\up6 \chftn {\footnote \pard\plain \s17\qj\sl360\slmult1\widctlpar\tx993\adjustright \f4\fs18\lang1044\cgrid {\cs15\fs16\up6 \chftn }{
 De facto, a minha experi\'eancia pessoal leva-me a crer que n\'e3o basta }{\ul dar}{ ferramentas, \'e9 preciso }{\ul educar}{ as pessoas no seu uso.}}}{
\par De facto, disponibilizar os }{\i corpora}{ n\'e3o chega: muitos utentes, sen\'e3o a maior parte, ap\'f3s as primeiras procuras n\'e3o saber\'e3o o que fazer. A lingu\'edstica com }{\i corpora}{ n\'e3o \'e9 s\'f3 (nem sobretudo) a arte de criar }{\i 
corpora}{, \'e9 sim a arte de os utilizar para o avan\'e7o da lingu\'edstica em geral e do processamento de uma dada l\'edngua em particular.
\par Muitos, contudo \endash  pelo menos os grupos envolvidos em processamento de linguagem natural no nosso pa\'eds \endash , j\'e1 teriam utiliza\'e7\'e3o imediata para tal disponibiliza\'e7\'e3o / partilha de recursos. Mas com muito raras excep\'e7\'f5
es (o projecto Natura (Almeida et al., s/d) e, a uma dimens\'e3o muito mais reduzida, o CorpusINESC (Santos, 1992)), os }{\i corpora}{ n\'e3o est\'e3o dispon\'edveis fora das institui\'e7\'f5es em que foram compilados.}{\cs15\fs16\up6 \chftn {\footnote 
\pard\plain \s17\qj\sl360\slmult1\widctlpar\tx993\adjustright \f4\fs18\lang1044\cgrid {\cs15\fs16\up6 \chftn }{ Estou-me a referir aqui apenas aos }{\i corpora}{ criados em Portugal. Existem outros }{\i corpora}{ acess\'edveis que incluem o portugu\'ea
s, mas que n\'e3o foram compilados com participa\'e7\'e3o portuguesa, como por exemplo os corpora ECI-MCI, MLCC, LDC95T11 (AFP). Veja-se http://www.portugues.mct.pt/recursos.html.}}}{
\par \'c9 esta situa\'e7\'e3o que sugiro contrariar, e inverter, criando, a m\'e9dio prazo, uma }{\ul rede de recursos do portugu\'eas}{ que permita que a comunidade beneficie do patrim\'f3nio da nossa l\'edngua e tenha mais recursos para fazer investiga\'e7
\'e3o, desenvolvimento e teste de produtos.
\par Mas para mudar uma situa\'e7\'e3o que se reputa m\'e1, \'e9 preciso come\'e7ar por compreender as suas causas. Ou seja, porque \'e9 que os recursos (em particular os }{\i corpora}{) n\'e3o se encontram dispon\'edveis? Come\'e7o, pois, por fazer aqui
 uma breve descri\'e7\'e3o dos entraves \'e0 disponibiliza\'e7\'e3o:
\par }\pard\plain \s3\sb240\sa60\sl360\slmult1\keepn\widctlpar\outlinelevel2\adjustright \i\fs22\lang1044\cgrid {1. Quest\'f5es legais e de lucro
\par }\pard\plain \s16\qj\sl360\slmult1\widctlpar\adjustright \f4\fs22\lang1044\cgrid {Muitos dos compiladores de }{\i corpora}{ }{\lang2070 n\'e3o t\'eam experi\'eancia em quest\'f5es legais. Por vezes, s\'e3
o demasiado cautelosos nos pedidos que fazem aos donos dos textos: note-se que se fizerem um contrato em que apenas eles podem usar os textos, mais tarde n\'e3o \'e9 poss\'edvel disponibiliz\'e1-los.}{\cs15\fs16\up6\lang2070 \chftn {\footnote \pard\plain 
\s17\qj\sl360\slmult1\widctlpar\tx993\adjustright \f4\fs18\lang1044\cgrid {\cs15\fs16\up6 \chftn }{ Quero aqui citar o apelo feito por Mark Libermann, presidente do Linguistic Data Consortium (LDC, veja-se http://www.ldc.upenn.edu/) ap\'f3
s conversa sobre }{\i corpora}{ portugueses: "I would also hope that you would work to obtain general distribu
tion rights, that is, the right to distribute to all interested researchers around the world, rather than just to a fixed group of Portuguese institutions, or some other restricted group such as academics (as in the case of the LOB corpus) or Europeans (a
s in the case of the BNC)."}}}{\lang2070  Outras vezes, no extremo oposto, alguns utilizadores de }{\i\lang2070 corpora}{\lang2070  usam textos / material para o qual n\'e3o se preocuparam em obter direitos. Por isso, mais tarde tamb\'e9m n\'e3
o podem tornar o material acess\'edvel sem incorrer em problemas legais.
\par }\pard\plain \s18\qj\fi567\sl360\slmult1\widctlpar\adjustright \f4\fs22\lang1044\cgrid {\lang2070 Por outro lado, muitas pessoas pensam que um }{\i\lang2070 corpus}{\lang2070  \'e9, \'e0 partida, algo que pode valer muito, e que \'e9
 preciso por isso ter muito cuidado, evitando que outros retirem lucro do seu trabalho. Penso que na maioria das vezes essas pessoas n\'e3o t\'eam raz\'e3o. Ou que, pelo menos, a quest\'e3o \'e9 muito mais complicada. De facto, um }{\i\lang2070 corpus}{
\lang2070  por si s\'f3 n\'e3o tem valor. Mesmo fazer um dicion\'e1rio ou uma lista de frequ\'eancias baseado nele n\'e3o \'e9 trivial (e, al\'e9m disso, se fosse s\'f3 baseado nele seria incompleto), e esses seriam os produtos mais directamente "deriv
\'e1veis" de um }{\i\lang2070 corpus}{\lang2070 . De facto, as vantagens mais imediatas seriam o teste, afina\'e7\'e3o, e melhoria de um produto, ou dicion\'e1rio, que j\'e1 existisse na pr\'e1tica. Seria, pois, dif\'edcil de quantificar a contribui\'e7
\'e3o do uso do }{\i\lang2070 corpus}{\lang2070 . Contudo, um argumento que me parece muito importante \'e9 que tal uso tamb\'e9m poderia trazer valor acrescentado ao pr\'f3prio }{\i\lang2070 corpus}{\lang2070 . (Por exemplo, a detec\'e7\'e3o de incorrec
\'e7\'f5es, informa\'e7\'e3o sobre neologismos e, claro, a adi\'e7\'e3o de informa\'e7\'e3o sobre o pr\'f3prio }{\i\lang2070 corpus}{\lang2070 .) Na pr\'e1tica, na maior parte das vezes seria mais f\'e1
cil e vantajoso tentar partilhar os lucros com os utilizadores e n\'e3o evit\'e1-los.}{\cs15\fs16\up6\lang2070 \chftn {\footnote \pard\plain \s17\qj\sl360\slmult1\widctlpar\tx993\adjustright \f4\fs18\lang1044\cgrid {\cs15\fs16\up6 \chftn }{ Esta observa
\'e7\'e3o n\'e3o se aplicaria se o }{\i corpus}{ fosse criado por uma editora que j\'e1 possu\'edsse os produtos que queria melhorar. Contudo, \'e9 importante notar que no nosso pa\'eds os }{\i corpora}{ existentes foram todos criados por organiza\'e7\'f5
es n\'e3o lucrativas... E, mesmo nos EUA, a cria\'e7\'e3o do American National Corpus, sugerida recentemente em Granada, apela \'e0s ag\'eancias financiadoras, assim como afirma que nenhuma institui\'e7\'e3o americana, sozinha, poder\'e1
 levar a cabo tal mega-tarefa (Fillmore et al., 1998).}}}{\lang2070  De facto, s\'e3o em geral as comunidades cient\'edfica e universit\'e1ria que se dedicam \'e0 cria\'e7\'e3o de corpora, o que faz com que o n\'e3o fa\'e7am numa \'f3
ptica empresarial, e que portanto seja de esperar que distribuam o resultado dos seus trabalhos, em vez de o considerarem um produto a n\'edvel de mercado.
\par No entanto, s\'e3o muitas vezes tamb\'e9m os donos dos textos (editoras, jornais, empresas p\'fablicas) que fazem quest\'e3o em restringir o acesso, quer por sobrevaloriza\'e7\'e3o do seu produto (textos)}{\cs15\fs16\up6\lang2070 \chftn {\footnote 
\pard\plain \s17\qj\sl360\slmult1\widctlpar\tx993\adjustright \f4\fs18\lang1044\cgrid {\cs15\fs16\up6 \chftn }{ Note-se que se est\'e1 a falar, neste contexto, de extractos e n\'e3o de uma obra completa, e que n\'e3o se est\'e1
 sugerir que os donos dos direitos legais n\'e3o sejam eventualmente compensados de uma forma ou de outra.}}}{\lang2070 , quer por ignor\'e2ncia em rela\'e7\'e3o ao que est\'e1, de facto, em causa. Conv\'e9m dizer que este n\'e3o \'e9
 necessariamente um mal nacional: em v\'e1rios outros pa\'edses quest\'f5es an\'e1logas aparecem ou apareceram; mas surgiram tamb\'e9m v\'e1rias iniciativas para evitar uma preocupa\'e7\'e3
o excessiva com os direitos de autor. A comunidade portuguesa devia, na minha opini\'e3o, envolver-se numa clarifica\'e7\'e3o da situa\'e7\'e3o antes que seja demasiado tarde.}{
\par }\pard\plain \s3\sb240\sa60\sl360\slmult1\keepn\widctlpar\outlinelevel2\adjustright \i\fs22\lang1044\cgrid {2. Quest\'f5es t\'e9cnicas
\par }\pard\plain \s16\qj\sl360\slmult1\widctlpar\adjustright \f4\fs22\lang1044\cgrid {Em muitos casos, os compiladores de corpora n\'e3o t\'eam capacidade t\'e9cnica, financeira e humana para disponibilizar os recursos que s\'f3
 eles sabem utilizar. Disponibilizar, ou mesmo apenas distribuir, significa tempo, esfor\'e7o, documenta\'e7\'e3o, servi\'e7o aos utilizadores.}{\cs15\fs16\up6 \chftn {\footnote \pard\plain \s17\qj\sl360\slmult1\widctlpar\tx993\adjustright 
\f4\fs18\lang1044\cgrid {\cs15\fs16\up6 \chftn }{ Este \'e9 uma das quest\'f5es em que insisto em Santos (1998), e que era tamb\'e9m um }{\i leitmotiv}{ na confer\'eancia LREC (Language Resources and Evaluation) em Granada, Maio 1998. A manuten\'e7\'e3
o (ou desenvolvimento cont\'ednuo) dos recursos foi considerada como essencial e a sua omiss\'e3o dos programas de financiamento um dos piores males para o processamento de linguagem natural, como exposto em Macleod (1998).}}}{ Este tipo de actividades 
\'e9 raramente planeado, previsto, financiado, mesmo escolhido pelos investigadores. Contudo, \'e9 algo que \'e9 essencial se n\'e3o se quer deixar o trabalho morrer sem ter sido (bem) utilizado.
\par }\pard\plain \s18\qj\fi567\sl360\slmult1\widctlpar\adjustright \f4\fs22\lang1044\cgrid {Por outro lado, \'e9 preciso salientar que, mesmo com todos os recursos e excelentes inten\'e7\'f5es de ajudar o pr\'f3ximo, para desenhar e implementar um servi\'e7
o de WWW \'e9 preciso compet\'eancia t\'e9cnica espec\'edfica que em geral n\'e3o existe nos grupos das diversas \'e1reas da lingu\'edstica com }{\i corpora}{, e em particular naqueles que se dedicam \'e0 compila\'e7\'e3o de }{\i corpora}{.
\par \'c9, por isso, cr\'edtico, n\'e3o s\'f3 que haja colabora\'e7\'e3o entre grupos com perfis diferentes, mas que as pessoas que trabalhem em processamento de linguagem natural desenvolvam capacidades quer de an\'e1lise lingu\'ed
stica quer de processamento computacional.
\par }\pard\plain \s3\sb240\sa60\sl360\slmult1\keepn\widctlpar\outlinelevel2\adjustright \i\fs22\lang1044\cgrid {3. Quest\'f5es de mentalidades
\par }\pard\plain \s16\qj\sl360\slmult1\widctlpar\adjustright \f4\fs22\lang1044\cgrid {At\'e9 agora, tem sido visto como uma vantagem possuir um bem / recurso que os outros grupos n\'e3o possuam, e tal tem sido apresentado como um argumento para renova\'e7\'e3
o (ou obten\'e7\'e3o) de financiamento. Se isto \'e9 possivelmente o caso num contexto empresarial, n\'e3o \'e9, de facto, na minha opini\'e3o, um argumento v\'e1lido no caso da investiga\'e7\'e3o, cujo financiamento n\'e3
o devia proteger grupos nem favorecer recursos propriet\'e1rios, mas sim recursos partilh\'e1veis e utiliz\'e1veis por todos. \'c9 tamb\'e9m discut\'edvel que se deva negar o acesso a esses recursos no caso de empresas nacionais.
\par }\pard\plain \s18\qj\fi567\sl360\slmult1\widctlpar\adjustright \f4\fs22\lang1044\cgrid {\'c9 interessante notar que, no contexto da avalia\'e7\'e3
o em engenharia da linguagem, tem sido muito discutido o posicionamento e atitude dos diversos grupos de investiga\'e7\'e3o, tendo sido sugerido que os programas de avalia\'e7\'e3o comuns nos Estados Unidos deram origem a um clima de "colabora\'e7\'e3o
 competitiva" ben\'e9fico para a comunidade cient\'edfica. E, de facto, \'e9 tamb\'e9m neste pa\'eds que a proposta de criar um corpus nacional \'e9 feita, de raiz, num modo colaborativo, sugerindo que toda a comunidade cient\'ed
fica se deva unir para o obter, dividindo tarefas e recursos (humanos, t\'e9cnicos e financeiros).}{\cs15\fs16\up6 \chftn {\footnote \pard\plain \s17\qj\sl360\slmult1\widctlpar\tx993\adjustright \f4\fs18\lang1044\cgrid {\cs15\fs16\up6 \chftn }{ Como ali
\'e1s n\'e3o seria de admirar, n\'e3o pretendem restringir o seu uso apenas a investiga\'e7\'e3o, nem pretendem afastar empresas: pelo contr\'e1rio, sugerem a cria\'e7\'e3o de um cons\'f3rcio de editoras como parceiro integrante, \'e0
 imagem do British National Corpus (BNC, veja-se http:// http://info.ox.ac.uk/bnc/). }}}{
\par }\pard\plain \s2\sb240\sa120\sl360\slmult1\keepn\widctlpar\outlinelevel1\adjustright \b\f4\fs22\lang1044\cgrid {\i Corpora}{ acess\'edveis pela WWW
\par }\pard\plain \s16\qj\sl360\slmult1\widctlpar\adjustright \f4\fs22\lang1044\cgrid {Longe de querer fazer aqui uma apresenta\'e7\'e3o da WWW, pretendo apenas indicar quais as vantagens de a usar para disponibilizar }{\i corpora}{. Algumas vantagens adv\'ea
m directamente das propriedades da pr\'f3pria rede:
\par {\pntext\pard\plain\s36 \f4\fs22\lang1044\cgrid \hich\af4\dbch\af0\loch\f4 1.\tab}}\pard\plain \s36\qj\fi-283\li283\sl360\slmult1\widctlpar{\*\pn \pnlvlbody\ilvl0\ls3\pnrnot0\pndec\pnstart1\pnindent283\pnhang{\pntxta .}}\ls3\adjustright 
\f4\fs22\lang1044\cgrid {A sua divulga\'e7\'e3o. \'c9 indesment\'edvel o uso cada mais generalizado da Internet no nosso pa\'eds, sobretudo a n\'edvel das camadas mais jovens. A Web \'e9 cada vez mais acess\'edvel a um n\'famero maior de pessoas, e "acess
\'edvel" n\'e3o quer dizer apenas fisicamente mas sobretudo intelectualmente acess\'edvel. (As pessoas aprendem a manipul\'e1-la nas escolas, nos empregos, em casa.)
\par {\pntext\pard\plain\s36 \f4\fs22\lang1044\cgrid \hich\af4\dbch\af0\loch\f4 2.\tab}}\pard \s36\qj\fi-283\li283\sl360\slmult1\widctlpar{\*\pn \pnlvlbody\ilvl0\ls3\pnrnot0\pndec\pnstart1\pnindent283\pnhang{\pntxta .}}\ls3\adjustright {A segunda vantagem \'e9
 que torna poss\'edvel que utilizadores individuais acedam a grandes acervos de informa\'e7\'e3o sem terem necessariamente um computador poderoso e com muita mem\'f3
ria. Ou seja, do ponto de vista de um utilizador privado, pode aceder-se aos computadores de outras pessoas  e institui\'e7\'f5es; do ponto de vista das organiza\'e7\'f5es, pode-se distribuir a informa\'e7\'e3o sem ter de a centralizar.
\par }\pard\plain \s16\qj\sl360\slmult1\widctlpar\adjustright \f4\fs22\lang1044\cgrid {Mais especificamente sobre a disponibiliza\'e7\'e3o de }{\i corpora}{ pela rede, temos as seguintes vantagens do ponto de vista da institui\'e7\'e3
o que possui ou compilou o }{\i corpus}{: 
\par {\pntext\pard\plain\s36 \f4\fs22\lang1044\cgrid \hich\af4\dbch\af0\loch\f4 3.\tab}}\pard\plain \s36\qj\fi-284\li284\sl360\slmult1\widctlpar{\*\pn \pnlvlbody\ilvl0\ls4\pnrnot0\pndec\pnstart3\pnindent283\pnhang{\pntxta .}}\ls4\adjustright 
\f4\fs22\lang1044\cgrid {\'c9 poss\'edvel restringir o acesso de forma a evitar (se for esse o objectivo) que o utilizador receba o }{\i corpus}{ inteiro no seu computador. 
\par {\pntext\pard\plain\s36 \f4\fs22\lang1044\cgrid \hich\af4\dbch\af0\loch\f4 4.\tab}}\pard \s36\qj\fi-284\li284\sl360\slmult1\widctlpar{\*\pn \pnlvlbody\ilvl0\ls4\pnrnot0\pndec\pnstart3\pnindent283\pnhang{\pntxta .}}\ls4\adjustright {\'c9 poss\'ed
vel saber o que os utilizadores fazem com os }{\i corpora}{, monitorizando o acesso.
\par {\pntext\pard\plain\s36 \f4\fs22\lang1044\cgrid \hich\af4\dbch\af0\loch\f4 5.\tab}}\pard \s36\qj\fi-284\li284\sl360\slmult1\widctlpar{\*\pn \pnlvlbody\ilvl0\ls4\pnrnot0\pndec\pnstart3\pnindent283\pnhang{\pntxta .}}\ls4\adjustright {\'c9 poss\'ed
vel corrigir/melhorar o }{\i corpus}{ sem que v\'e1rios utilizadores usem vers\'f5es diferentes.
\par {\pntext\pard\plain\s36 \f4\fs22\lang1044\cgrid \hich\af4\dbch\af0\loch\f4 6.\tab}}\pard \s36\qj\fi-284\li284\sl360\slmult1\widctlpar{\*\pn \pnlvlbody\ilvl0\ls4\pnrnot0\pndec\pnstart3\pnindent283\pnhang{\pntxta .}}\ls4\adjustright {\'c9 poss\'ed
vel contabilizar o acesso, e o trabalho feito sobre o }{\i corpus}{, e da\'ed eventuais lucros ou, mais vagamente, a eventual resposta da comunidade cient\'edfica e dos parceiros comerciais.
\par }\pard\plain \s16\qj\sl360\slmult1\widctlpar\adjustright \f4\fs22\lang1044\cgrid {E, do ponto de vista do utilizador, temos os seguintes benef\'edcios:
\par {\pntext\pard\plain\s18 \f4\fs22\lang1044\cgrid \hich\af4\dbch\af0\loch\f4 7.\tab}}\pard\plain \s18\qj\fi-283\li283\sl360\slmult1\widctlpar{\*\pn \pnlvlbody\ilvl0\ls5\pnrnot0\pndec\pnstart7\pnindent283\pnhang{\pntxta .}}\ls5\adjustright 
\f4\fs22\lang1044\cgrid {o acesso, do seu local de trabalho ou casa, a um recurso que se encontra fisicamente longe;
\par {\pntext\pard\plain\s18 \f4\fs22\lang1044\cgrid \hich\af4\dbch\af0\loch\f4 8.\tab}}\pard \s18\qj\fi-283\li283\sl360\slmult1\widctlpar{\*\pn \pnlvlbody\ilvl0\ls5\pnrnot0\pndec\pnstart7\pnindent283\pnhang{\pntxta .}}\ls5\adjustright {a minimiza\'e7\'e3
o dos conhecimentos t\'e9cnicos necess\'e1rios para aceder ao }{\i corpus}{: n\'e3o \'e9 preciso instalar programas; mudar de sistema operativo; aprender uma sintaxe complicada para conseguir chegar a "p\'f4r as m\'e3os" no }{\i corpus}{;}{\cs15\fs16\up6 
\chftn {\footnote \pard\plain \s17\qj\sl360\slmult1\widctlpar\tx993\adjustright \f4\fs18\lang1044\cgrid {\cs15\fs16\up6 \chftn }{ Est\'e1 claro que ser\'e1 sempre preciso aprender como procurar aquilo em que se est\'e1
 interessado; e de facto, saber como refinar as procuras num corpus, e como avaliar os resultados do ponto de vista da confirma\'e7\'e3o ou infirma\'e7\'e3o de uma dada hip\'f3tese n\'e3o \'e9 sim
ples, e constitui um dos aspectos mais interessantes da lingu\'edstica com }{\i corpora}{.  Este tipo de quest\'f5es n\'e3o se prende, contudo, com a dificuldade meramente sint\'e1ctica de fazer o sistema obedecer aos nossos comandos, que \'e9
 ao que me estou a referir aqui. }}}{
\par {\pntext\pard\plain\s18 \f4\fs22\lang1044\cgrid \hich\af4\dbch\af0\loch\f4 9.\tab}}\pard \s18\qj\fi-283\li283\sl360\slmult1\widctlpar{\*\pn \pnlvlbody\ilvl0\ls5\pnrnot0\pndec\pnstart7\pnindent283\pnhang{\pntxta .}}\ls5\adjustright {a minimiza\'e7\'e3
o dos recursos tecnol\'f3gicos necess\'e1rios (espa\'e7o de mem\'f3ria, requisitos de sistema operativo) \endash  basta ter um "folheador" ('browser') da rede;
\par {\pntext\pard\plain\s18 \f4\fs22\lang1044\cgrid \hich\af4\dbch\af0\loch\f4 10.\tab}}\pard \s18\qj\fi-283\li283\sl360\slmult1\widctlpar{\*\pn \pnlvlbody\ilvl0\ls5\pnrnot0\pndec\pnstart7\pnindent283\pnhang{\pntxta .}}\ls5\adjustright { a exist\'ea
ncia de um apoio remoto e de uma comunidade de outros utilizadores com quem pode trocar experi\'eancias, resolver problemas, e colaborar.
\par }\pard \s18\qj\fi567\sl360\slmult1\widctlpar\adjustright {A experi\'eancia com o Oslo Corpus of Bosnian Texts provou que estas vantagens n\'e3o s\'e3o simples hip\'f3teses acad\'e9micas. Consequentemente, e com menos problemas t\'e9cnicos (a quest\'e3
o dos caracteres portugueses \'e9 mais simples do que a dos b\'f3snios, visto que est\'e1 incorporada no padr\'e3o ISO-Latin-1, ao inv\'e9s de ISO-Latin-2), seria poss\'edvel construir v\'e1rios destes servi\'e7os para os }{\i corpora}{
 existentes em Portugal ou nos grupos que processam o portugu\'eas.}{\cs15\fs16\up6 \chftn {\footnote \pard\plain \s17\qj\sl360\slmult1\widctlpar\tx993\adjustright \f4\fs18\lang1044\cgrid {\cs15\fs16\up6 \chftn }{ Veja-se a recente cataloga\'e7\'e3
o dos recursos, em termos de }{\i corpora}{ existentes para o portugu\'eas mencionados na WWW, em http://www.portugues.mct.pt/recursos.html#corpora.}}}{ Esta rede de recursos permitiria n\'e3o s\'f3
 o acesso da comunidade portuguesa ao trabalho e dados dos outros grupos, contornando eventuais problemas mais complicados de direitos de autor (visto que s\'f3 se daria acesso para consulta, e n\'e3o para apropria\'e7\'e3o ou c\'f3pia do }{\i corpus}{
 inteiro). Al\'e9m disso, potenciaria eventuais colabora\'e7\'f5es, compara\'e7\'f5es e avan\'e7os surgidos da coopera\'e7\'e3o, como seria o caso da produ\'e7\'e3o de }{\i corpora}{
 anotados e de interfaces mais poderosas de acesso aos mesmos, que poderiam ser partilhados pela comunidade.
\par Desde j\'e1 aqui me ofere\'e7o para partilhar a experi\'eancia e eventuais programas de disponibiliza\'e7\'e3o com os grupos que possuem }{\i corpora}{ de texto portugu\'eas, de forma a que, a curto prazo, seja poss\'edvel disponibilizar o acesso aos }{
\i corpora}{, em rede, de prefer\'eancia com mais informa\'e7\'e3o do que o simples conte\'fado lexical.
\par Com efeito, \'e9 perfeitamente exequ\'edvel neste momento, do ponto de vista t\'e9cnico, a disponibiliza\'e7\'e3o de }{\i corpora}{ em portugu\'eas com informa\'e7\'e3o sobre categoria sint\'e1ctica e texto de origem, com a tecno
logia presente e uma colabora\'e7\'e3o m\'ednima entre v\'e1rios grupos envolvidos no processamento do portugu\'eas. Seria tamb\'e9m desej\'e1vel que a curto prazo se fomentasse a cria\'e7\'e3o de }{\i corpora}{ analisados, para permitir uma avalia\'e7
\'e3o independente e fi\'e1vel dos analisadores para o portugu\'eas que se pretendam implementar ou que j\'e1 existam.
\par Finalmente, como \'faltima proposta neste artigo "pol\'edtico" (por falta de espa\'e7o, remeto o leitor para os pormenores t\'e9cnicos da disponibiliza\'e7\'e3o de }{\i corpora}{ na WWW dados em Santos (1998)), sugiro que, em paralelo com a cria\'e7\'e3
o da rede de recursos descrita antes, se lance um programa de avalia\'e7\'e3o / competi\'e7\'e3o amig\'e1vel entre v\'e1rios grupos, \'e0 semelhan\'e7a dos Evaluation Contests (que sugiro chamar Avalia\'e7\'f5es Conjuntas) patrocinados pela National Sci
ence Foundation (NSF) dos Estados Unidos, em torno de objectivos concretos e objectivamente observ\'e1veis, no processamento do portugu\'eas.}{\cs15\fs16\up6 \chftn {\footnote \pard\plain \s17\qj\sl360\slmult1\widctlpar\tx993\adjustright 
\f4\fs18\lang1044\cgrid {\cs15\fs16\up6 \chftn }{ Esta ideia n\'e3o \'e9 obviamente minha, nem sequer originalmente para o portugu\'eas. Foi-me sugerida (pelo menos) pela Isabel Trancoso e pelo recente relat\'f3rio estrat\'e9gico de Hovy et al. (1998).}}}
{ Tais objectivos seriam pr\'e9-definidos pela comunidade cient\'edfica, que aceitaria a classifica\'e7\'e3o resultante da competi\'e7\'e3o como (um) motivo de financiamento. O simples facto de todos os participantes se terem de envolver na defini\'e7\'e3
o de um m\'e9todo comum de avalia\'e7\'e3o iria levar a um maior consenso sobre quais as quest\'f5es dif\'edceis no tratamento computacional da nossa l\'edngua, e quais as pontes poss\'edveis entre teorias e opini\'f5es diferentes \endash  tudo na \'f3
ptica, \'e9 claro, de uma dada aplica\'e7\'e3o ou objectivo pr\'e1tico.
\par O facto de haver v\'e1rios }{\i corpora}{ e recursos textuais criados por grupos diferentes seria, neste contexto, uma garantia de que nenhum grupo teria, \'e0 partida, vantagens por afinar / ter afinado um sistema no seu }{\i corpus}{ (que, a ser o \'fa
nico, conteria tamb\'e9m o }{\i corpus}{ de teste sobre o qual a avalia\'e7\'e3o iria decorrer).
\par }\pard\plain \s2\sb240\sa120\keepn\widctlpar\outlinelevel1\adjustright \b\f4\fs22\lang1044\cgrid {Agradecimento
\par }\pard\plain \s18\qj\fi567\sl360\slmult1\widctlpar\adjustright \f4\fs22\lang1044\cgrid {Agrade\'e7o \'e0 Signe Oksefjell v\'e1rias sugest\'f5es para a melhoria do presente artigo.
\par }\pard\plain \s2\sb240\sa120\keepn\widctlpar\outlinelevel1\adjustright \b\f4\fs22\lang1044\cgrid {Refer\'eancias
\par }\pard\plain \s30\qj\fi-567\li567\ri227\sa120\widctlpar\tx993\adjustright \f4\fs22\lang1044\cgrid {Almeida, Jos\'e9 Jo\'e3o Dias de, Jos\'e9 Carlos Ramalho, Ulisses Pinto & Ricardo Reis. "Projecto Natura", }{\cs34 http://www.di.uminho.pt/~jj/pln/pln.html}
{, sem data.
\par }\pard \s30\qj\fi-567\li567\ri227\sa120\widctlpar\tx993\adjustright {Aston, Guy & Lou Burnard. }{\i The BNC Handbook: Exploring the British National Corpus with SARA}{, Edinburgh University Press, 1996.
\par }\pard \s30\qj\fi-567\li567\ri227\sa120\widctlpar\tx993\adjustright {Christ, Oliver. "A modular and flexible architecture for an integrated corpus query system", }{\i 
Proceedings of COMPLEX'94: 3rd Conference on Computational Lexicography and Text Research}{ (Budapest, July 7-10, 1994), pp.23-32.
\par Fillmore, Charles, Nancy Ide, Dan Jurafsky & Catherine Macleod. "An American National Corpus: A Proposal", in Rubio et al. (1998), Vol. 2, pp.965-9.
\par Francis, W.N. & Kucera, H. }{\i Manual of information to accompany a Standard Sample of Present-day Edited American English, for use with digital computers}{, 3rd edition, 1979 [1964].
\par Hovy, Eduard, Nancy Ide, Robert Frederking, Joseph Mariani & Antonio Zampolli. "Multilingual Information Management: Current Levels and Future Abilities", http://www.cs.cmu.edu/ ~ref/mlim/, Julho 1998.
\par Johansson, S., G. Leech & H. Goodluck. }{\i Manual of information to accompany the Lancaster-Oslo/Bergen Corpus of British English, for use with digital computers}{, Oslo, 1978.
\par Martins, Ciro, Isabel Mascarenhas, Hugo Meinedo, Jo\'e3o Neto, Lu\'eds Oliveira, Carlos Ribeiro, Isabel Trancoso & C\'e9u Viana. "Spoken Language Corpora for Speech Recognition and Synthesis in European Portuguese", }{\i 
Proc. RECPAD'98 - 10th Portuguese Conference on Pattern Recognition}{ (Lisboa, Mar\'e7o 1998), }{\cs34\ul\cf2 http://www.speech.inesc.pt{\*\bkmkstart _Hlt428176405}/{\*\bkmkend _Hlt428176405}bib/Trancoso98a/ poster.html}{
\par Macleod, Catherine. "A Plea for Consideration of Maintenance of Language Resources", in Rubio et al. (1998), Vol. 1, pp.35-40.
\par Medeiros, Jos\'e9 Carlos. "Ferramentas de processamento de corpora usando o PALAVROSO", in Santos (1992).
\par Rubio, Antonio, Natividad Gallardo, Rosa Castro & Antonio Tejada (eds.). }{\i Proceedings of The First International Conference on Language Resources and Evaluation}{ (Granada, 28-30 May 1998).
\par Santos, Diana (ed.). "Processamento de corpora de texto no INESC", Relat\'f3rio INESC n\'ba. RT/65-92, Dezembro, 1992.
\par }\pard \s30\qj\fi-567\li567\ri227\sa120\widctlpar\tx993\adjustright {Santos, Diana. "Providing access to language resources through the World Wide Web: the Oslo Corpus of Bosnian Texts", in Rubio et al. (1998), Vol. 1, pp.475-81.
\par }}