Salton (1975), "recall is the proportion of relevant material actually retrieved; precision is the proportion of retrieved material actually relevant. Ideally, everything relevant is retrieved while at the same time everything extraneous is rejected, producing recall e precision values equal to 1."
 

4. Aquisição de Conhecimento de Textos

Quando o conhecimento a ser utilizado em um sistema inteligente está disponível em forma de texto, o problema reside em extrair e mapear este conhecimento em algum tipo de formalismo de representação neste sistema, tal como casos. A extração de informação de textos é um tópico tratado pelo campo de Compreensão de Linguagem Natural descrito neste capítulo junto a outras importantes pesquisas relacionadas com o acesso ao conhecimento contido em textos.
 

4.1 Compreensão de Linguagem Natural

As implementações de Compreensão de Linguagem Natural (LN) podem ser subdivididas em dois grupos (Allen, 1994): implementações baseadas em texto e baseadas em diálogo. Entre as implementações baseadas em texto, temos: busca de documentos num banco de dados de textos, extração de informação de textos, tradução de documentos, resumos de textos e compreensão de textos. As técnicas desenvolvidas para operar tais aplicações são conhecidas como técnicas de Processamento de Linguagem Natural e o outro campo de estudo que também desenvolve técnicas associadas à compreensão da linguagem é a Lingüística Computacional.
 

4.1.1 Lingüística Computacional

A Inteligência Artificial (IA) ocupa-se com modelagem de aspectos da cognição humana. A linguagem é o meio de comunicação humana e a Lingüística Computacional (LC) é o ramo das Ciências da Computação e da IA que trata com os aspectos computacionais da linguagem. A LC usa algoritmos e estruturas de dados das Ciências da Computação para examinar os seguintes tópicos: como identificar a estrutura das frases, como modelar o conhecimento e o raciocínio, e como usar a linguagem para realizar determinadas tarefas (Allen, 1994).

Apesar da teoria de LC representar um importante papel na compreensão de textos, o foco de sua pesquisa reside em seu aspecto prático. A modelagem de faculdades humanas em sistemas computacionais é o objetivo da LC que faz interseção com a metas da IA na viabilização da interação homem-máquina na resolução de problemas. Tradutores, corretores ortográficos, e interfaces de linguagem natural são algumas metas de pesquisa da LC que vêm gerando técnicas para o tratamento da linguagem, principalmente destinados à compreensão da linguagem natural.
 

4.2 Extração de Informação

Algumas técnicas de processamento de LN originaram-se das pesquisas de compreensão de LN em aplicações baseadas em texto e em diálogos. O escopo da presente pesquisa limita-se às técnicas associadas ao recente ramo da compreensão da LN chamado Extração de Informação. Extração de Informação (EI) é a área associada com a extração de tipos específicos de informação de grandes volumes de textos irrestritos que contenham informação em determinado domínio (Lehnert, 1993, 1996). O sistema de EI deve ser alimentado com algumas diretrizes sobre o domínio que orientam sobre o que encontrar nos textos e o que extrair. No desempenho destas tarefas, os sistemas de EI não precisam compreender completamente o texto fonte; ao invés, os sistemas analisam o texto na busca de porções que possam conter a informação procurada.

Diferente de outras técnicas que também procuram por informações relevantes em textos, a saída de um sistema de EI é um banco de dados. Uma tarefa de EI prevê que um número de campos nos registros do banco de dados sejam preenchidos por um número limitado de possibilidades previamente determinadas ou por algum valor em aberto. Os valores dos campos são expressões do texto fonte. O banco de dados funciona como um modelo (vide seção 4.2.5).

A complexidade no desenvolvimento de um sistema de EI origina-se dos requerimentos de processamento de linguagem envolvidos no reconhecimento de palavras e análise de frases, bem como da compreensão ao nível de frase, e da análise de discurso até o nível de todo o documento. A pesquisa em EI foi alavancada pelos congressos Message Understanding Conferences (MUC) (Sundheim, 1991, 1992, Lehnert, & Sundheim, 1991). O método empregado pelo laboratório de processamento de linguagem natural da Universidade de Massachusetts (Lehnert, 1996) ao participar dos MUCs (MUC-3, 1991, MUC-4, 1992, MUC-5, 1993) é bastante adequado para aplicações onde a precisão das classificações é mais importante do que o reconhecimento de cada documento. Os principais tópicos que foram objeto de pesquisa por este grupo foram análise de frase (Cardie e Lehnert, 1991), rotulagem semântica (semantic tagging) (Cardie, 1993), construção de dicionários (Riloff & Lehnert, 1993, Riloff, 1993), e classificação de texto (Riloff & Lehnert, 1992 e 1994).
 

4.2.1.1 Extração de Informação baseada em conhecimento

O papel de padrões lingüísticos é sustentar a interpretação de textos na Extração de Informação baseada em conhecimento. Em função da construção de padrões lingüísticos ser um gargalo mesmo em domínios limitados, propôs-se o uso de um mecanismo de aprendizagem indutivo para construir automaticamente uma base de conhecimento de padrões. O sistema automático é construído sempre que se identifica um padrão lingüístico desconhecido. Um pressuposto importante embasando esta pesquisa é o reduzido número de expressões normalmente utilizado para descrever uma informação dentro de um domínio limitado (Kim & Moldovan, 1995).
 

4.2.2 Template Mining

Template Mining ou mineração por modelos é uma técnica de processamento de LN que extrai dados de textos que possuem padrões que permitam o reconhecimento do que se deseja extrair ou de seus arredores. Um modelo contém informação sobre o que procurar no texto e é disparado a extrair determinadas partes devidamente indicadas. Lawson et al., (1996) descreve aplicações de template mining em domínios restritos alegando que esta técnica é própria para áreas cujos textos são claros com frases objetivas e de natureza declarativa.
 

4.2.3 Text windowing

A técnica text windowing é do tipo orientada para corpus de textos que avalia palavras na busca de blocos de palavras que estejam relacionadas por sintática ou propriedades léxicas. Jacquemin (1996), descreve uma aplicação de text windowing em um método para selecionar trechos de textos motivados por propriedades léxicas, combinando informação conceitual em listas de termos com metaregras em filtros semânticos locais.
 

4.2.4 Documentos Auto-Explicativos

Consideramos adequado associar a técnica de template mining com a metodologia proposta por Branting & Lester (1996) para documentos auto-explicativos. Nesta metodologia, os textos são analisados e classificados por sua estrutura retórica. A ligação entre as técnicas se dá pelo aproveitamento das estruturas retóricas como fonte para a definição dos parâmetros dos modelos usados pela técnica de template mining para extração de dados.
 

4.2.5 Aquisição de Conhecimento de Textos

O trabalho publicado pelo Grupo de Engenharia de Conhecimentos de Textos da Universidade de Freiburg através de diversos artigos descreve os esforços para analisar textos que apresentam novas formas de conhecimento. O grupo se utiliza de um parser de LN e almeja a expansão desta base de conhecimento. Da mesma forma que os grupos que tomaram parte dos MUCs, eles também usam técnicas com modelos; entretanto, eles permitem que novos modelos sejam adicionados como resultado da aprendizagem de conceitos (Hahn, & Schnattinger, 1997).

O ponto central da pesquisa do grupo trata-se da aquisição de conhecimento de textos que ocorre com a aprendizagem de conceitos que alimenta um sistema de compreensão de linguagem natural. A aprendizagem de conceitos em uma plataforma de compreensão de linguagem natural é orientada para os recursos através do uso de um Machine Readable Dictionary MRD e é orientada por contexto. Os autores alegam que inferir o significado das palavras baseando-se em informações sobre o contexto é mais confiável do que procurar por seu significado em um MRD. A aprendizagem de conceitos é concebida com o desenvolvimento de uma abordagem de aprendizagem de raízes simbólicas. Um exemplo de aquisição de conceito é descrito em Hahn et al. (1996). O projeto do grupo visa duas aplicações práticas de aquisição de conhecimento de textos da língua alemã: artigos sobre testes de produtos de tecnologia de informação (100 documentos com 10^5 palavras) e artigos sobre descobertas médicas (120,000 documentos com 10^7 palavras).

O trabalho descrito por Mauldin (1991) usa a compreensão parcial de textos obtida através de um parser que realiza text skimming para recuperação de informação conceitual, utilizando um banco de dados de scripts que, por sua vez, é alimentado por um método de aprendizagem e um MRD que aprimora o conhecimento léxico. A recuperação de informação executada pelo sistema ferret é referida como recuperação de informação conceitual porque ao invés de realizar a busca através do uso de palavras-chave (baseada em palavras) é usado conhecimento sobre os conceitos.

Um ponto de vista interessante sobre o problema de aquisição de conhecimento de textos é descrito em Futrelle & Zhang (1994) que apresenta técnicas de bootstrap que podem descobrir a estrutura de ordem da linguagem natural e definir classes de palavras presentes em corpus de textos. A definição de classes de palavras é baseada no princípio da substituição onde o significado de uma palavra é encontrado pela comparação dos contextos onde as palavras aparecem e onde elas podem ser substituídas por outra palavra da mesma classe.
 

4.2.6 Recuperação de Informação

Recuperação de Informação (RI) é "a tarefa de encontrar documentos relevantes a partir de um corpus ou conjunto de textos em resposta a uma necessidade de informação de um usuário" (Smeaton, 1997). Os limites da RI são claros; qualquer sistema que faça algo mais do que prover documentos ao usuário não é um sistema de recuperação de informação. Entre as últimas inovações da tecnologia de RI, Smeaton (1997) indica que as aplicações de RI começam a englobar técnicas tais como agentes com componentes de busca, além de outras tarefas associadas à RI como categorização, filtragem, roteamento e clusterização. Entretanto, a RI depende muito da linguagem natural na medida que tanto o documento a ser recuperado como a consulta feita pelo usuário são expressas em linguagem natural, dificultando a tarefa de RI.

O problema da aquisição de conhecimento de textos vem sendo questionado pela comunidade de RI em função da rápida pulverização de informação impulsionada pela Internet. A pesquisa sobre atividades baseadas em corpus de textos tem sido encorajada, facilitando o desenvolvimento de soluções.

As soluções proporcionadas pela pesquisa em corpus de textos trazidas pela comunidade de RI são um aspecto da afinidade deste campo com RBC. O ponto fundamental desta afinidade trata-se do interesse da comunidade de RBC pelo fato da tarefa de RI ser essencialmente a recuperação de informação a partir de uma consulta. Na RI, a tarefa resume-se em combinar a consulta do usuário com um conjunto de documentos. De fato, o que se pretende é combinar representações de uma consulta com representações de documentos. Basicamente, os textos são representados em sistemas de RI por conjuntos de índices, e a comparação é baseada por uma equivalência no nível de palavra ou por uma equivalência conceitual.

A operação de recuperação em sistemas de RI objetiva computar graus de coincidência entre a consulta do usuário e os documentos para ordenar cada documento. Smeaton (1997) sugere algumas métricas heurísticas para tal ordenamento (coeficiente de Dice e de Cosine) e enumera áreas onde a pesquisa de recuperação de informação são bem ativas tais como a recuperação baseada em clusters, a recuperação pela combinação de diversas estratégias, indexação semântica latente, recuperação de passagem, e documentos de comprimento heterogêneo.

Motivado pela forte interdependência entre a RI e o processamento de linguagem natural, Smeaton (1995, 1995a, 1995b) questiona a real utilidade do processamento de linguagem e dos demais recursos lingüísticos para a RI. O autor alega que o processamento de linguagem natural oferece um auxílio modesto para a eficiência da RI pelo fato das técnicas de processamento de LN terem sido desenvolvidas visando aplicações de tradução automática e interfaces de linguagem natural. Uma característica que limita a ajuda oferecida pelas técnicas de processamento de LN oriunda-se na complexidade destas técnicas tornando-as eficientes apenas quando aplicadas sobre uma pequena quantidade de textos. Uma solução para este problema é proposta em Zhai (1997) que apresenta um método para indexação de documentos testado num conjunto de documentos de 250 mega bytes. Neste método, o autor propõe um modelo probabilístico para realizar um parsing de expressões ao invés da indexação por palavras, demonstrando uma significativa melhora na recuperação.

Outras técnicas além das baseadas em linguagem natural também podem beneficiar a tecnologia de RI. O método relevance feedback (Haines e Croft, 1993) aprimora a qualidade da recuperação de informação inteligente ao modificar a consulta baseando-se na retroalimentação do usuário. A consulta é modificada através de uma modificação nos pesos que caracterizam seus termos motivada pela informação dada pelo usuário. O método relevance feedback é proposto em Haines e Croft (1993) como um aprimoramento do modelo de recuperação que utiliza Redes de Inferência (Turtle, 1991). Redes de inferência são um modelo de recuperação de informação baseado em probabilidade para raciocínio com incerteza. A rede de inferência é um grafo com quatro tipos diferentes de nós: para documentos, para a representação conceitual do conteúdo dos documentos, para as consultas, e o último para a informação desconhecida. A cada nova consulta, os nós são instanciados para cada documento do conjunto e as probabilidades são propagadas para inferir uma probabilidade associada à informação desconhecida; gerando, assim, um ordenamento dos documentos.

Uma aplicação do método de redes de inferência na recuperação de informação é o sistema de recuperação (Callan, Croft, e Harding, 1992) que vem sendo implementado com sucesso sobre uma base de 1 giga byte. O sistema INQUERY contém um subsistema de parsing que comporta uma indexação sofisticada e uma complexa formulação nas consultas.

O método de relevance feedback do sistema INQUERY foi utilizado por Daniels & Rissland (1995) em uma pesquisa que também ressalta a importância do uso do paradigma de RBC na recuperação da informação. As autoras propõem um sistema híbrido de RBC-RI que realiza a busca por documentos similares em uma pequena base de conhecimento de casos em função das fortes necessidades de representação de conhecimento que ofereceria uma base maior. O resultado gerado pelo sistema baseado em casos é um conjunto de textos que sugerem uma lista de termos que é usada para definir uma consulta que conduz a recuperação de documentos baseada em textos.
 

4.2.7 Recuperação de Textos

A pesquisa em recuperação de informação de textos tem como marco histórico a publicação do artigo de Blair e Maron intitulado An Evaluation of Retrieval Effectiveness for a Full-Text Document-Retrieval System em 1985, que descreve um experimento para avaliar a eficiência da recuperação de um sistema de recuperação de textos. Neste artigo, os autores avaliaram o sistema STAIRS da IBM e propuseram um método para calcular o índice de recuperação (recall). As conclusões relatadas demonstraram a dificuldade em obter uma alto índice de recuperação usando um simples sistema de recuperação de textos com um grande banco de dados. Este trabalho foi atualizado por Blair (1996) quando ele discute o método antigo e como reduzir os cinco tipos principais de incerteza nas estimativas do índice de recuperação. A lição mais importante resultante deste trabalho refere-se à importância da informação textual. Alguns trechos do artigo reiteram: "Os documentos são onde os dados tornam-se conhecimento, são a inteligência de uma organização – a memória organizacional está mais presente em seus documentos do que em seus bancos de dados. Se as organizações não detiverem um acesso razoável a sua informação textual, estas correm o risco de administrar por amnésia – de não estarem aptas a lembrar de seus triunfos passados (e construir a partir dos mesmos) nem de seus fracassos (e evitá-los no futuro).
 

4.2.7.1 Índices de Recuperação e Precisão

A avaliação da eficiência dos bancos de dados de texto pode ser efetuada através de dois parâmetros – índice de recuperação (recall) e o índice de precisão (precision) (Salton, 1975; Blair & Maron, 1985). O índice de recuperação é a proporção de documentos úteis do total de documentos na base. O índice de precisão indica a taxa de documentos úteis entre o total de documentos recuperados. Blair e Maron (1985) indicam que os sistemas de bancos de dados de texto limitam-se a um índice de recuperação que oferece apenas 25% de documentos relevantes, o que significa que o usuário deve ler todos os textos recuperados para concluir que somente 25% lhe serão úteis. Além disso, a faixa do índice de precisão varia causando uma baixa eficiência, o que pode ser extremamente perigoso em domínios como o Direito, por exemplo, onde questões de extrema relevância estão em jogo.

A baixa eficiência dos bancos de dados de texto originam-se principalmente dos métodos de indexação estatísticos empregados. Os métodos estatísticos não levam em conta o conhecimento, ou seja, eles selecionam termos dependendo apenas de sua freqüência de ocorrência. Em contrapartida, a recuperação baseada em similaridade empregada nos sistemas de RBC pode ser exclusivamente baseada em conhecimento. Um processo de indexação baseado em conhecimento garante mais eficiência na medida que o índice de recuperação aumenta pelo fato dos índices que orientam a similaridade serem escolhidos em função de conhecimento especialista, aumentando as chances de recuperação de documentos relevantes e úteis. Além disso, a indexação baseada em conhecimento evita baixos índices de precisão na medida que decrescem as chances de recuperação de documentos sem relevância.

Uma comparação dos três tipos básicos de modelos para gerenciamento de textos é apresentada por Gelbart e Smith (1993) onde os autores introduzem o Modelo de Representação de Conhecimento Flexicon (seção 2.3.1). Os modelos são: exact match (combinação exata), best match (melhor combinação) e modelos probabilísticos.

4.2.7.2 Modelo Booleano ou Exact Match (Combinação Exata)

A expressão combinação exata origina-se da busca pela perfeita combinação entre a consulta e os documentos do banco de dados que o modelo prevê. Este modelo é simplificado na medida que aceita grupos de palavras e não requer nenhuma estruturação determinada para os textos. Entretanto, as consultas têm uma estrutura distinta com palavras-chave e operadores Booleanos do tipo e, ou, e não; gerando uma rigidez que não permite distinção no nível de relevância entre os documentos recuperados.

O maior problema de implementar o modelo Booleano no domínio do Direito reside na necessidade dos usuários utilizarem interfaces para construção de consultas com lógica Booleana, normalmente uma habilidade não dominada por profissionais da área.

Salton (1984) definiu um modelo que chamou de Booleano Estendido, onde usa operadores no intuito de sobrepujar a rigidez dos operadores tradicionais. Entretanto, esta proposta de solução torna a construção da consulta uma tarefa ainda mais difícil. Na busca de soluções para a complexidade da construção das consultas, Das-Gupta (1987) propôs informação semântica e sintática para localizar operadores e e or embutidos em textos de linguagem natural. Ainda em 1990, JC Smith abordou o problema traduzindo consultas em linguagem natural para consultas Booleanas.
 

4.2.7.3 O Modelo de Vetor Espacial ou Best Match- Não Booleana

Ao contrário do modelo Booleano, o vetor espacial ou best match (melhor combinação) não aceita grupos de palavras. Ambos termos das consultas e os documentos são associados a pesos baseados na distribuição estatística (freqüencial) dos termos no banco de dados no sentido de determinar sua importância. Desta forma, os documentos podem ser apresentados em ordem de relevância com relação à necessidade de informação representada pela consulta. O modelo representa tanto os documentos como as consultas através de vetores multidimensionais, cujas dimensões são palavras que representam textos. O grau de relevância dos documentos recuperados com relação à demanda do usuário é obtida pela comparação dos vetores da consulta com os dos documentos através de uma medida de correlação de similaridade. Gelbart & Smith (1993) alegam que o modelo obteve bons resultados em comparação a modelos de processamento de linguagem natural propostas na literatura: Dillon & Gray (1982), Fagan (1987), Smeaton (1991), e ainda um baseado em conhecimento de Gey & Chan (1989).
 

4.2.7.4 Modelos Probabilísticos

Os modelos probabilísticos são baseados no princípio do ordenamento de probabilidade (Robertson, 1977). Estes métodos seguem a abordagem de ordenar os documentos baseados na probabilidade da relevância com relação à consulta baseados na distribuição estatística dos termos nos textos.
 

4.3 Conclusão

A Extração da Informação é um novo campo da compreensão da linguagem natural que oferece resultados promissores no tratamento da aquisição automática de conhecimento de textos.

Da Lingüística Computacional, um campo que compartilha metas com a compreensão da linguagem natural, a análise de textos para definição de sua estrutura retórica pode proporcionar a informação necessária para a construção de um método de mineração por modelos.

A pesquisa pertinente à aquisição de conhecimento de textos tem sido enriquecida pelos estudos orientados à Recuperação de Informação de bases textuais. Em resposta ao modesto auxílio que as técnicas de processamento de linguagem natural podem proporcionar à RI, as pesquisas passam a propor combinações de técnicas que tendem a evitar estes métodos tradicionais.

Especificamente relacionado à recuperação de banco de dados de textos, três modelos de representação são apresentados oferecendo alternativas para o aprimoramento da recuperação. Com relação ao parâmetros de avaliação, os índices de recuperação e de precisão mantém-se válidos.