#CTI# UMA PROPOSTA DE METODOLOGIA PARA INDEXACAO AUTOMATICA UTILIZANDO SINTAGMAS NOMINAIS #FTI# #CR# Com o aparente esgotamento das estrategias atuais de representacao e indexacao de documentos, faz-se necessario investigar novas abordagens para sistemas de recuperacao de informacoes. Dentre estas abordagens, ha uma vertente que busca levar em conta a semantica intrinseca aos documentos textuais, e uma das formas de faze-lo e atraves da utilizacao de sintagmas nominais como descritores, ao inves de palavras-chave. Uma metodologia para atingir tal proposito, desenvolvida no escopo de uma tese de doutorado, e apresentada neste artigo. #FR# #CTE# 1 INTRODUCAO Para lidar com os constantes e ininterruptos ciclos de criacao e demanda de informacao, ha muito vem sendo criados sistemas de recuperacao de informacoes que utilizam diversas tecnologias mecanicas e digitais de computacao, para gerenciar grandes acervos de documentos. Podemos citar, dentre eles, a Internet, as intranets empresariais com seus portais corporativos, e as bibliotecas digitais. Muitas pesquisas vem tentando contribuir para enfrentar alguns dos muitos desafios que surgem quando lidamos com massivas quantidades de dados, como nos grandes acervos de documentos digitais, notadamente quando estes precisam ser regularmente organizados e pesquisados, recuperando em tempo habil informacao relevante para algum objetivo especifico. Neste contexto, este artigo apresenta uma metodologia proposta como resultado de uma pesquisa desenvolvida no ambito do curso de doutorado do autor, no Programa de Pos Graduacao em Ciencia da Informacao da Universidade Federal de Minas Gerais, para atribuir automaticamente descritores a documentos textuais digitalizados num processo de indexacao automatica. Com o aparente esgotamento das estrategias tradicionais de busca em sistemas de recuperacao de informacoes, entendemos que a melhoria da eficacia do servico ao usuario dos sistemas depende dos resultados em diversas linhas de pesquisa, em todo o espectro da cadeia de processos de tratamento da informacao. Temos como hipotese de trabalho que as principais frentes de atuacao sao as seguintes: I. A exploracao das informacoes semanticas e semioticas intrinsecas aos dados, de forma a expandir a compreensao das unidades e padroes de significado em textos, imagens e outras midias; II. O desenvolvimento de novas possibilidades de marcacao semantica dos dados utilizando-se metalinguagens, criando especies de indices acoplados aos proprios documentos com termos amplamente consensuais e nao ambiguos, para que estes possam ser mais facilmente manipulados e identificados por computadores e outros dispositivos e, como consequencia, pelos usuarios; III. O desenvolvimento de estrategias de apresentacao da informacao recuperada nas buscas, sob formas altamente significativas, ou contextuais - como em algumas interfaces graficas – de forma que as relacoes entre os conceitos, e em consequencia, os contextos, sejam evidentes; e tambem por estrategias que busquem estimular os varios orgaos sensoriais ao mesmo tempo – como nas ferramentas multimidias – para que a absorcao das informacoes pelos usuarios seja maior. Atraves destas interfaces e estrategias, as informacoes podem ser apresentadas de forma a possuirem conexoes visuais aos seus contextos de origem, permitindo ao usuario refinar os resultados atraves da definicao das conexoes pertinentes e a exclusao das conexoes geradas pelo ruido informacional; IV. A construcao e manutencao de perfis personalizados de utilizacao, de forma que o SRI “aprenda” com a forma de trabalho do usuario e possa utilizar estas informacoes especificas para melhorar a estrategia de busca do SRI. Uma abordagem completa para a organizacao e a recuperacao de informacoes, visando a melhoria dos Sistemas de Recuperacao atuais, deve unir estas estrategias e solucoes, buscando: a) A indexacao dos documentos utilizando representacoes mais significativas, de modo a aumentar e melhorar os pontos de acesso e a relevancia das informacoes recuperadas; b) Prover uma forma adequada de apresentar as informacoes recuperadas aos usuarios, de maneira que sejam intuitivas e facilmente compreensiveis; c) Utilizar no processo de indexacao padroes universais de registros de metadados para que os sistemas sejam interoperaveis entre si; d) Adaptar-se continuamente ao usuario, sendo preferivel que possa aprender com a forma com que trabalha, de modo que as buscas sejam continuamente refinadas atraves de um trabalho de personalizacao. Existem hoje diversas tentativas, mais ou menos coordenadas, de se abordar estas acoes fundamentais, mas uma real integracao demandaria a pesquisa em diferentes areas do conhecimento e campos de pesquisa, como a ciencia da informacao, a linguistica, a ciencia da computacao, a sociologia, a antropologia, a comunicacao, a psicologia cognitiva, entre outras. De maneira isolada, ha pesquisas em cada uma destas vertentes, mas e pouco explorada a utilizacao da semantica embutida nos proprios documentos, ou seja, das potencialidades intra-textuais da linguagem natural, para automatizar e melhorar as tarefas de indexacao, organizacao e recuperacao de informacoes. Pesquisas nesta area incluem o uso de estruturas profundas da linguagem natural, como os sintagmas verbais e nominais, para indexacao e recuperacao (KURAMOTO, 1996 e 1999; MOREIRO et al, 2003). A pesquisa apresentada neste artigo explora o potencial de uso dos sintagmas nominais como descritores de documentos em processos de indexacao. Partiu-se inicialmente da hipotese de que os sintagmas nominais, pelo maior grau de informacao semantica embutida, podem vir a se tornar mais eficazes do que as palavras-chave usualmente extraidas e utilizadas como descritores em outros processos automatizados de representacao de documentos, tais como os observados nos mecanismos de busca da Internet, ou em sistemas de leitura das palavras-chave fornecidas pelo autor dos documentos. Alguns trabalhos anteriores se apresentam como marcos a partir dos quais se pretende avancar; dentre eles, a pesquisa sobre a viabilidade do uso dos sintagmas nominais para sistemas de recuperacao de informacoes de KURAMOTO (1996 e 1999), e as ferramentas para marcacao sintatica do portugues e automatizacao da extracao de sintagmas nominais desenvolvidas no ambito dos projetos da Southern Denmark University (BICK, 2000), de VIEIRA (2000) e do PROJETO DIRPI (2001). A partir destes resultados e ferramentas, pretende-se propor uma metodologia de escolha automatica de descritores para documentos que utilize os sintagmas nominais em vez de palavras-chave para documentos textuais digitalizados em lingua portuguesa. Na secao seguinte, apresentamos alguns conceitos fundamentais ao entendimento da metodologia. 2 SINTAGMAS NOMINAIS E SISTEMAS DE RECUPERACAO DE INFORMACOES Entendemos por sintagmas certos grupos de palavras que fazem parte de sequencias maiores na estrutura de um texto, mas que mostram um grau de coesao entre eles (PERINI, 1995). Os constituintes ou sintagmas podem ou nao ser facilmente identificaveis, sendo que por vezes e necessario recorrer a outros recursos para que seja feita a “demarcacao” sintatica. Perini acredita que a intuicao “subjetiva, mas nem por isso duvidosa” que nos permite separar a oracao em seus constituintes imediatos pode ser caracterizada atraves de criterios puramente formais (1985, pp. 42-43), mas ha quem defenda que a identificacao dos constituintes e somente completa atraves de uma abordagem cognitiva e amplamente contextual (LIBERATO, 1997), que so e esperada na analise do discurso e na pragmatica; ou atraves de outros modelos gramaticais, como a analise transformacional (RUWET, 1975, pp.155-212 e 223-279). Para a analise semantica, ha tambem o problema das situacoes anaforicas, que ocorrem quando uma estrutura de uma oracao se apresenta reduzida porque ocorre na vizinhanca de outra estrutura oracional de certa forma paralela, dependendo desta para sua total compreensao (PERINI, 1986, p. 57). De acordo com MIORELLI (2001), os sintagmas nominais podem ser entendidos – e tratados – de forma sintatica, privilegiando a forma; ou semantica, buscando os significados maiores; cada uma com suas especificidades e implicacoes. A abordagem semantico-pragmatica, utilizada por LIBERATO (1997), nao prescinde de um “interpretador de contextos”, natural na cognicao humana, mas dificilmente implementado em heuristicas de inteligencia artificial. A forma sintatica, como analisada por PERINI (1986, 1995 e 1996) esta mais relacionada a estrutura das oracoes em si, e e mais facilmente tratada computacionalmente. Assim como no trabalho de MIORELLI (2001), esta e a abordagem que sera utilizada no ambito deste projeto, da mesma forma que, provavelmente, em quaisquer abordagens, e com quaisquer ferramentas, que busquem a automatizacao de extracao dos sintagmas nominais. Sistemas de recuperacao de informacoes usualmente adotam termos indices para indexacao de documentos, sendo que estes termos indice sao usualmente palavras-chave. Ha uma ideia fundamental embutida de que, a semantica dos documentos e das necessidades de informacao do usuario pode ser expressas atraves destes conjuntos de palavras, o que e, claramente, uma grande simplificacao do problema, porque grande parte da semantica do documento ou da requisicao do usuario e perdida quando se substitui o texto completo por um conjunto de palavras (BAEZA-YATES & RIBEIRO-NETO, 1999, p.19). Ha, na literatura, registros de algumas tentativas de otimizar a organizacao dos documentos em SRIs atraves de um processamento aprofundado da linguagem natural dos documentos. Dentre elas, a identificacao de “grupamentos de substantivos” (noun groups), ao inves de palavras-chave, se afigura uma boa estrategia para selecao de termos de indexacao, uma vez que os substantivos costumam carregar a maior parte da semantica de um documento, ao inves de artigos, verbos, adjetivos, adverbios e conectivos. Esta proposta estabelece uma visao conceitual do documento (ZIVIANI, in BAEZA-YATES & RIBEIRO-NETO, 1999, pp.169-170). Os grupamentos de substantivos sao conjuntos de nomes nos quais a distancia sintatica no texto (medida pelo numero de palavras entre dois substantivos) nao excede um limite predefinido. Uma metodologia que extrapola esta proposta e a identificacao dos sintagmas nominais e o seu uso como descritores, como proposto neste projeto. SALTON & MCGILL (1983, pp. 90-94) discutem algumas abordagens teoricas para o uso de metodos linguisticos na recuperacao de informacoes; entre elas, a analise da estrutura sintatica (parsing) dos documentos de forma a identificar as estruturas sintagmaticas. Estes autores, entretanto, apontam as dificuldades intrinsecas ao processo de analise semantica atraves da analise sintatica e exemplificam casos em que e impossivel o reconhecimento nao ambiguo de relacoes semanticas atraves dos componentes da sentenca, sugerindo que um modelo baseado em gramaticas transformacionais poderia trazer melhores resultados. Neste ponto, parecem entao concordar com LIBERATO (1997), que entende que a analise completa das estruturas semanticas so e possivel atraves da analise cognitiva dos contextos. Ao indicar a maior eficacia relativa dos algoritmos de geracao de frases, baseadas em frequencia de palavras, talvez aponte uma alternativa para a melhoria do algoritmo proposto neste trabalho. Outra alternativa apontada e a interferencia humana no processo de desambiguacao atraves de uma interface, o que seria pouco desejavel num processo que pretende ser automatico. Um importante caminho de pesquisa que visa resolver os problemas de desambiguacao semantica atraves da analise dos contextos e resolucao de correferencia, ou resolucao anaforica (VIEIRA, 1998 e 2000; SANT’ANNA, 2000; ROSSI et al, 2001; GASPERIN et al, 2003). Uma cadeia de correferencia e uma sequencia de expressoes em um discurso que se referem a uma mesma entidade, objeto ou evento. Essas cadeias sao uteis para a representacao semantica de um modelo de dominio, e podem melhorar a qualidade dos resultados em diversas aplicacoes de processamento de linguagem natural, como recuperacao e extracao de informacoes, geracao automatica de resumos, traducoes automaticas, entre outros (ROSSI et al, 2001). O processo de resolucao de correferencias envolve a identificacao e extracao dos sintagmas nominais. LE GUERN e BOUCHE (apud KURAMOTO, 1999) apontam o sintagma nominal como a menor unidade de informacao contida em um texto. O grupo de pesquisas SYDO, ao qual pertencem estes pesquisadores, tem como fundamento teorico a utilizacao de sintagmas nominais como descritores (Ibidem, 1996). Ao trabalhar em parceria com este grupo, KURAMOTO (1999), em sua tese de doutorado, desenvolveu uma pesquisa fundamental para a consideracao da utilizacao de sintagmas nominais como descritores. Ja em um trabalho anterior, KURAMOTO (1996) vislumbrou a maquete proposta na tese e ja apontava o potencial natural de organizacao dos sintagmas nominais que, se explorado convenientemente, poderia propiciar aos usuarios maior facilidade no uso de um SRI e resultados mais precisos em resposta a um processo de busca de informacao. O sistema desenvolvido por Kuramoto pode ser considerado uma inspiracao para o presente trabalho, na medida em que, em ambos, busca-se uma alternativa para uma melhor indexacao utilizando-se sintagmas nominais. Entretanto, em sua maquete, “a extracao dos sintagmas nominais foi realizada de forma manual, simulando uma extracao automatica. Este procedimento foi adotado em funcao da nao-existencia ainda de um sistema de extracao automatica de SN em acervos contendo documentos em lingua portuguesa”. (1996, p. 6). Ao menos um sistema deste tipo, entretanto, se encontra hoje disponivel, e foi disponibilizado para o proposito deste trabalho (GASPERIN et al, 2003). Uma outra diferenca fundamental e o objetivo. Se no projeto de Kuramoto buscava-se apresentar uma maquete de um SRI baseado em sintagmas nominais, o objetivo deste trabalho e propor uma metodologia de auxilio a indexacao automatica, utilizando uma metodologia aplicada sobre os sintagmas nominais extraidos automaticamente a partir de textos digitalizados em lingua portuguesa. Diferencas a parte, o fundo filosofico e bastante comum. 3 A METODOLOGIA PROPOSTA O objetivo da pesquisa era desenvolver uma metodologia para escolha automatica de descritores para documentos textuais digitalizados, em lingua portuguesa, utilizando como descritores as estruturas gramaticais conhecidas como sintagmas nominais. O principal pressuposto motivador e a crenca de que a utilizacao de sintagmas nominais como descritores em um processo de indexacao automatica apresenta vantagens em relacao ao uso de palavras-chave, devido ao fato destes possuirem, em comparacao, maior densidade informacional, e serem mais bem relacionados ao contexto semantico do documento. Para a consecucao da extracao automatica de sintagmas nominais foram utilizadas ferramentas de software, que serao apresentadas na proxima secao. Na figura a seguir, podemos notar um detalhamento da metodologia proposta para a indexacao automatica, com os passos delineados em seguida. A area de conhecimento dos documentos selecionados foi a ciencia da Informacao, sendo tambem da CI o tesauro utilizado na metodologia (SOUZA, 2005): Representacao esquematica da metodologia proposta de indexacao automatica 1. Escolher um corpus significativo de documentos reconhecidamente inseridos dentro de uma area de conhecimento; 2. Converter os formatos de arquivo para texto simples; 3. Retirar os resumos e as palavras-chave atribuidas pelos autores; 4. Extrair os sintagmas nominais do corpo do texto; 5. Ordenar os SNs nas planilhas atraves da verificacao da frequencia de ocorrencia dos sintagmas nominais nos documentos; 6. Descartar os SNs que apresentam frequencias de ocorrencia inferiores a um patamar preestabelecido; 7. Agrupar os SNs remanescentes a partir dos determinantes em suas formas “canonicas”, e reordena-los; 8. Analisar manualmente os SNs pre-escolhidos e decidir sobre a sua relevancia como descritores, para fins de construcao de uma stoplist e verificar se algum SN escolhido consta em uma stoplist, dinamicamente construida, para, se for o caso, descarta-lo (em 11); 9. Verificar a incidencia dos SNs nos outros documentos do corpus; 10. Analisar a estrutura e o nivel dos SNs; 11. Atribuir pontuacao e ranquear os SNs remanescentes de acordo com formula estabelecida (explicitada a seguir), levando em conta a frequencia de ocorrencias no texto e a frequencia de saturacao definida; a quantidade de textos do corpus em que ocorrem, a estrutura sintatica e o nivel do SN. Estes criterios de relevancia sao regidos por parametros (representados na figura em L) a serem sintonizados com a sucessiva aplicacao da metodologia, e serao discutidos adiante; 12. Caso ocorram “empates” nos valores da pontuacao dos SNs, considerar a ocorrencia no tesauro da CI como fator de desempate; 13. Caso ainda ocorram “empates” nos valores da pontuacao dos SNs, considerar os seguintes criterios de desempate: a. Maior valor absoluto da frequencia de ocorrencia; b. Menor valor absoluto da ocorrencia no corpus; c. Maiores nivel e estrutura do SN; d. Maior quantidade de letras do SN; 14. Apresentar tantos descritores quanto forem desejaveis, a partir da lista ranqueada de candidatos a descritores. Alguns passos opcionais fazem parte de metodologias complementares, e sao descritos em SOUZA (2005). Os parametros customizaveis propostos, mencionados no item 11 dos passos descritos acima, possuem a caracteristica de poderem ser alterados dinamicamente, de acordo com a performance dos dados de um corpus testado. No entanto, o dimensionamento minucioso destes parametros e de suas inter-relacoes, de modo a oferecer a metodologia uma performance otima, e um desdobramento da pesquisa que ainda esta em curso. Por ora, iremos assumir alguns conjuntos de valores para os quais as observacoes preliminares conferiram boa performance. Foi proposta uma formula para atribuir a pontuacao aos SNs extraidos, para efeitos de ranqueamento, como apresentado a seguir: Pontuacao (SN) = [(k1* frequencia (Xar)) ? ( k2* ocorrencia (Ytot)) + (k3*CSN)] Sendo que: Pontuacao(SN): valor atribuido ao SN de acordo com os criterios apresentados. Quanto maior for este valor, maior sera a relevancia esperada deste SN como descritor; frequencia(Xar) = frequencia do SN no artigo, com valor possivelmente limitado a X de modo a corrigir distorcoes; ocorrencia(Ytot) = numero de artigos em que o SN ocorre com frequencia maior que Y; X, Y, k1, k2 e k3 = constantes a serem ajustadas de acordo com os testes, de modo a conseguir a performance otima; CSN = categoria do SN, que assume um valor segundo a estrutura sintatica e nivel do SN, de acordo com a tabela a seguir: CSN Estrutura e Nivel do SN Valor associado 1a Nivel 1, estrutura (D + N) 0,25 1b Nivel 1, qualquer estrutura exceto (D + N) 0,75 2 Nivel 2, qualquer estrutura 1,0 3 Nivel 3, qualquer estrutura 0,75 4 Nivel 4, qualquer estrutura 0,5 5 Nivel 5 ou superior, qualquer estrutura 0,25 Valor atribuido ao SN de acordo com sua estrutura sintatica e nivel A caracterizacao dos graus de relevancia dos SNs como descritores e a consequente validacao da metodologia sera estabelecida atraves da comparacao destes descritores com as palavras-chave e resumos atribuidos pelos autores dos documentos originais. 4 FERRAMENTAS UTILIZADAS O trabalho de analise, necessario a consecucao da metodologia, acima descrita pressupoe um enorme esforco computacional, ao longo do processo. Para que seja possivel a analise dos descritores, os SNs tiveram que ser extraidos automaticamente e de forma bastante veloz, mas este processo e composto por varias etapas. A figura a seguir explicita os relacionamentos entre os processos e as ferramentas de software utilizadas: Ferramentas utilizadas na metodologia As ferramentas foram utilizadas na seguinte sequencia: I. Os textos dos corpora foram escolhidos pelo autor e transformados em formato de texto simples, sem caracteres especiais, utilizando as ferramentas ADOBE ACROBAT e MICROSOFT WORD; II. Em seguida, os textos tratados foram submetidos sucessivamente ao processamento do analisador sintatico (parser) “PALAVRAS”, da Southern University of Denmark, e ao software “Palavras Xtractor”, desenvolvido em conjunto pela Universidade do Vale do Rio dos Sinos (Unisinos) de Sao Leopoldo, RS, e a Universidade de Evora, em Portugal, tendo como resultado, os documentos sintaticamente marcados em arquivos XML; III. Apos a identificacao sintatica das palavras dos textos, foi utilizado o software XML SPY para aplicacao da transformacao XSL nos arquivos XML com uma folha de estilos especifica (como explicado na secao 3.1.2), para extracao de arquivos HTML com os SNs, e estes SNs foram tratados estatisticamente utilizando o software MICROSOFT Excel. Nao e possivel, no escopo deste artigo, apresentar o funcionamento das ferramentas em detalhe. Este detalhamento pode ser verificado em SOUZA (2005). 5 RESULTADOS Nesta secao serao apresentados os resultados da aplicacao da metodologia delineada anteriormente a um corpus de 60 documentos textuais digitalizados, dividido nos seguintes conjuntos: a) O primeiro com 30 textos, sendo que 29 provenientes da Revista DataGramaZero, e 1 proveniente da Revista Ciencia da Informacao; b) O segundo com 30 textos, todos provenientes da Revista Ciencia da Informacao. Os textos provenientes da revista Ciencia da Informacao apresentam um tamanho ligeiramente maior. A aplicacao e analise de forma isolada da metodologia consolidada permitiram vislumbrar as diferencas decorrentes do tamanho dos documentos. Os valores de parametros constantes, como apresentado na metodologia, foram escolhidos de forma arbitraria, e devem ser modificados e testados de forma exaustiva, em subsequentes pesquisas, visando refinar paulatinamente a metodologia. Estes valores e parametros sao apresentados a seguir: a) O numero de descritores escolhidos para cada documento foi calculado tendo como base 1% dos SNs unicos identificados no documento, e levando em conta e os limites inferior de 8 e superior de 15 descritores por documento. Este valor e limitado apenas por uma conveniencia metodologica, nao havendo limitacoes reais para a escolha do numero de descritores, excetuando o total de SNs extraidos; b) Seguindo a formula introduzida na secao 6.1, os valores escolhidos para as constantes X, Y, k1, k2 e k3, nas duas aplicacoes da metodologia ao corpus final sao os apresentados na tabela a seguir: Constantes Conceituacao Conjunto de valores na primeira aplicacao Conjunto de valores na segunda aplicacao X Valor maximo a ser considerado para a frequencia do SN no documento, para fins de pontuacao. 10 7 Y Limite inferior de frequencia do SN para o qual k2 se aplica. 3 3 k1 Ponderacao da frequencia do SN no documento no calculo da pontuacao. 1 1 k2 Ponderacao (negativa) da frequencia do SN no corpus de documentos no calculo da pontuacao. 10 15 k3 Ponderacao da estrutura do SN no calculo da pontuacao. 10 15 Conjunto de valores utilizados nas aplicacoes da metodologia A tabela a seguir apresenta, para os dois conjuntos de parametros de aplicacao da metodologia apresentados acima, e para os dois subconjuntos de documentos do corpus; as medias e os valores percentuais relativos de frequencia de SNs extremamente relevantes como descritores (SNs***), razoavelmente relevantes como descritores (SNs**), moderadamente relevantes como descritores (SNs*) e nao relevantes como descritores (SNs-); alem da media e o valor percentual dos “stopwords” (SW) em relacao ao total dos SNs que foram eliminados. Os resultados, na otica do autor, superaram em muito a expectativa. Podemos perceber que nos piores casos, obtivemos os valores de 47% e 22,15%, para os SNs que constituem descritores de qualidade. Isto representa um total de quase 70% de bons descritores (extremamente relevantes + razoavelmente relevantes), como podemos observar no grafico a seguir, que representa a primeira aplicacao da metodologia, aos textos de 31 a 60: Neste grafico, pode-se perceber a quantidade expressiva de bons descritores obtidos pela aplicacao da metodologia a parte do corpus utilizado, o que confirma o sucesso da metodologia apresentada. 6 CONCLUSOES A motivacao da pesquisa surgiu da constatacao frequente da impossibilidade de organizacao manual de grandes acervos de documentos que sao continuamente produzidos, como acontece em muitos contextos digitais. Nestes contextos, observamos amiude processos de indexacao automatica que buscam descrever os documentos atraves da analise de frequencia das palavras que neles ocorrem. O objetivo central do trabalho era propor um processo de indexacao mais eficaz, que analisasse as palavras e expressoes dentro de seus contextos linguisticos. Para tal, apresentou-se uma metodologia de indexacao automatica, viabilizando um processo de atribuicao de descritores a documentos digitalizados. Estes descritores foram escolhidos atraves da extracao de SNs e analise de fatores como a frequencia de ocorrencia destes SNs nos textos dos documentos, no conjunto dos documentos; a estrutura dos SNs; o nivel dos SNs e a ocorrencia destes em um tesauro de um campo de conhecimento especifico. A consideracao destes fatores de forma conjunta permite a criacao de um ranking de candidatos a descritores, a partir dos SNs extraidos. A metodologia foi aplicada a um corpus de 60 documentos, com dois conjuntos de valores de parametros escolhidos, dentre um universo virtualmente ilimitado de possibilidades. Os testes exaustivos com outros conjuntos foram deixados como sugestoes para trabalhos futuros. Os resultados, considerados eminentemente positivos, contrariam experiencias anteriores declaradamente malsucedidas, que buscavam a extracao de descritores baseando-se em estruturas sintaticas das oracoes [(EARL, 1970; PAICE, 1981; Fum et. al., 1982) apud LANCASTER, 1993, pp. 250-251]. A bem da verdade, a inexistencia ate uma decada de ferramentas que permitissem a extracao automatica de SNs e um fator preponderante a ser levado em conta neste sentido. A teoria desenvolvida por KURAMOTO (1999, 2003), e seu modelo proposto de SRI ja apontava alguns caminhos possiveis, embora estes ainda estejam em um estagio inicial de exploracao. A pesquisa desenvolvida em sua tese de doutorado apresenta um modelo de recuperacao de informacoes, baseado em sintagmas nominais, buscando a participacao do usuario na definicao dos contextos linguisticos. Infelizmente, nao encontramos na literatura cientifica nacional nenhum indicio de continuacao destas pesquisas. Espera-se que a metodologia apresentada – ou qualquer metodologia que derive desta – seja utilizada em situacoes onde e necessaria a atribuicao automatica de descritores aos documentos, no escopo de funcionamento de SRIs. Usualmente, esta situacao acontece quando os documentos sao agregados ao sistema em uma taxa que nao permite a apreciacao manual. #FTE#