Salton (1975), "recall is the proportion of relevant material
actually retrieved; precision is the proportion of retrieved material actually
relevant. Ideally, everything relevant is retrieved while at the same time
everything extraneous is rejected, producing recall e precision values
equal to 1."
Quando o conhecimento a ser utilizado em um sistema inteligente está
disponível em forma de texto, o problema reside em extrair e mapear
este conhecimento em algum tipo de formalismo de representação
neste sistema, tal como casos. A extração de informação
de textos é um tópico tratado pelo campo de Compreensão
de Linguagem Natural descrito neste capítulo junto a outras importantes
pesquisas relacionadas com o acesso ao conhecimento contido em textos.
Apesar da teoria de LC representar um importante papel na compreensão
de textos, o foco de sua pesquisa reside em seu aspecto prático.
A modelagem de faculdades humanas em sistemas computacionais é o
objetivo da LC que faz interseção com a metas da IA na viabilização
da interação homem-máquina na resolução
de problemas. Tradutores, corretores ortográficos, e interfaces
de linguagem natural são algumas metas de pesquisa da LC que vêm
gerando técnicas para o tratamento da linguagem, principalmente
destinados à compreensão da linguagem natural.
Diferente de outras técnicas que também procuram por informações relevantes em textos, a saída de um sistema de EI é um banco de dados. Uma tarefa de EI prevê que um número de campos nos registros do banco de dados sejam preenchidos por um número limitado de possibilidades previamente determinadas ou por algum valor em aberto. Os valores dos campos são expressões do texto fonte. O banco de dados funciona como um modelo (vide seção 4.2.5).
A complexidade no desenvolvimento de um sistema de EI origina-se dos
requerimentos de processamento de linguagem envolvidos no reconhecimento
de palavras e análise de frases, bem como da compreensão
ao nível de frase, e da análise de discurso até o
nível de todo o documento. A pesquisa em EI foi alavancada pelos
congressos Message Understanding Conferences (MUC) (Sundheim, 1991,
1992, Lehnert, & Sundheim, 1991). O método empregado pelo laboratório
de processamento de linguagem natural da Universidade de Massachusetts
(Lehnert, 1996) ao participar dos MUCs (MUC-3, 1991, MUC-4, 1992, MUC-5,
1993) é bastante adequado para aplicações onde a precisão
das classificações é mais importante do que o reconhecimento
de cada documento. Os principais tópicos que foram objeto de pesquisa
por este grupo foram análise de frase (Cardie e Lehnert, 1991),
rotulagem semântica (semantic tagging) (Cardie, 1993), construção
de dicionários (Riloff & Lehnert, 1993, Riloff, 1993), e classificação
de texto (Riloff & Lehnert, 1992 e 1994).
O ponto central da pesquisa do grupo trata-se da aquisição de conhecimento de textos que ocorre com a aprendizagem de conceitos que alimenta um sistema de compreensão de linguagem natural. A aprendizagem de conceitos em uma plataforma de compreensão de linguagem natural é orientada para os recursos através do uso de um Machine Readable Dictionary MRD e é orientada por contexto. Os autores alegam que inferir o significado das palavras baseando-se em informações sobre o contexto é mais confiável do que procurar por seu significado em um MRD. A aprendizagem de conceitos é concebida com o desenvolvimento de uma abordagem de aprendizagem de raízes simbólicas. Um exemplo de aquisição de conceito é descrito em Hahn et al. (1996). O projeto do grupo visa duas aplicações práticas de aquisição de conhecimento de textos da língua alemã: artigos sobre testes de produtos de tecnologia de informação (100 documentos com 10^5 palavras) e artigos sobre descobertas médicas (120,000 documentos com 10^7 palavras).
O trabalho descrito por Mauldin (1991) usa a compreensão parcial de textos obtida através de um parser que realiza text skimming para recuperação de informação conceitual, utilizando um banco de dados de scripts que, por sua vez, é alimentado por um método de aprendizagem e um MRD que aprimora o conhecimento léxico. A recuperação de informação executada pelo sistema ferret é referida como recuperação de informação conceitual porque ao invés de realizar a busca através do uso de palavras-chave (baseada em palavras) é usado conhecimento sobre os conceitos.
Um ponto de vista interessante sobre o problema de aquisição
de conhecimento de textos é descrito em Futrelle & Zhang (1994)
que apresenta técnicas de bootstrap que podem descobrir a
estrutura de ordem da linguagem natural e definir classes de palavras presentes
em corpus de textos. A definição de classes de palavras
é baseada no princípio da substituição onde
o significado de uma palavra é encontrado pela comparação
dos contextos onde as palavras aparecem e onde elas podem ser substituídas
por outra palavra da mesma classe.
O problema da aquisição de conhecimento de textos vem sendo questionado pela comunidade de RI em função da rápida pulverização de informação impulsionada pela Internet. A pesquisa sobre atividades baseadas em corpus de textos tem sido encorajada, facilitando o desenvolvimento de soluções.
As soluções proporcionadas pela pesquisa em corpus de textos trazidas pela comunidade de RI são um aspecto da afinidade deste campo com RBC. O ponto fundamental desta afinidade trata-se do interesse da comunidade de RBC pelo fato da tarefa de RI ser essencialmente a recuperação de informação a partir de uma consulta. Na RI, a tarefa resume-se em combinar a consulta do usuário com um conjunto de documentos. De fato, o que se pretende é combinar representações de uma consulta com representações de documentos. Basicamente, os textos são representados em sistemas de RI por conjuntos de índices, e a comparação é baseada por uma equivalência no nível de palavra ou por uma equivalência conceitual.
A operação de recuperação em sistemas de RI objetiva computar graus de coincidência entre a consulta do usuário e os documentos para ordenar cada documento. Smeaton (1997) sugere algumas métricas heurísticas para tal ordenamento (coeficiente de Dice e de Cosine) e enumera áreas onde a pesquisa de recuperação de informação são bem ativas tais como a recuperação baseada em clusters, a recuperação pela combinação de diversas estratégias, indexação semântica latente, recuperação de passagem, e documentos de comprimento heterogêneo.
Motivado pela forte interdependência entre a RI e o processamento de linguagem natural, Smeaton (1995, 1995a, 1995b) questiona a real utilidade do processamento de linguagem e dos demais recursos lingüísticos para a RI. O autor alega que o processamento de linguagem natural oferece um auxílio modesto para a eficiência da RI pelo fato das técnicas de processamento de LN terem sido desenvolvidas visando aplicações de tradução automática e interfaces de linguagem natural. Uma característica que limita a ajuda oferecida pelas técnicas de processamento de LN oriunda-se na complexidade destas técnicas tornando-as eficientes apenas quando aplicadas sobre uma pequena quantidade de textos. Uma solução para este problema é proposta em Zhai (1997) que apresenta um método para indexação de documentos testado num conjunto de documentos de 250 mega bytes. Neste método, o autor propõe um modelo probabilístico para realizar um parsing de expressões ao invés da indexação por palavras, demonstrando uma significativa melhora na recuperação.
Outras técnicas além das baseadas em linguagem natural também podem beneficiar a tecnologia de RI. O método relevance feedback (Haines e Croft, 1993) aprimora a qualidade da recuperação de informação inteligente ao modificar a consulta baseando-se na retroalimentação do usuário. A consulta é modificada através de uma modificação nos pesos que caracterizam seus termos motivada pela informação dada pelo usuário. O método relevance feedback é proposto em Haines e Croft (1993) como um aprimoramento do modelo de recuperação que utiliza Redes de Inferência (Turtle, 1991). Redes de inferência são um modelo de recuperação de informação baseado em probabilidade para raciocínio com incerteza. A rede de inferência é um grafo com quatro tipos diferentes de nós: para documentos, para a representação conceitual do conteúdo dos documentos, para as consultas, e o último para a informação desconhecida. A cada nova consulta, os nós são instanciados para cada documento do conjunto e as probabilidades são propagadas para inferir uma probabilidade associada à informação desconhecida; gerando, assim, um ordenamento dos documentos.
Uma aplicação do método de redes de inferência na recuperação de informação é o sistema de recuperação (Callan, Croft, e Harding, 1992) que vem sendo implementado com sucesso sobre uma base de 1 giga byte. O sistema INQUERY contém um subsistema de parsing que comporta uma indexação sofisticada e uma complexa formulação nas consultas.
O método de relevance feedback do sistema INQUERY foi
utilizado por Daniels & Rissland (1995) em uma pesquisa que também
ressalta a importância do uso do paradigma de RBC na recuperação
da informação. As autoras propõem um sistema híbrido
de RBC-RI que realiza a busca por documentos similares em uma pequena base
de conhecimento de casos em função das fortes necessidades
de representação de conhecimento que ofereceria uma base
maior. O resultado gerado pelo sistema baseado em casos é um conjunto
de textos que sugerem uma lista de termos que é usada para definir
uma consulta que conduz a recuperação de documentos baseada
em textos.
A baixa eficiência dos bancos de dados de texto originam-se principalmente dos métodos de indexação estatísticos empregados. Os métodos estatísticos não levam em conta o conhecimento, ou seja, eles selecionam termos dependendo apenas de sua freqüência de ocorrência. Em contrapartida, a recuperação baseada em similaridade empregada nos sistemas de RBC pode ser exclusivamente baseada em conhecimento. Um processo de indexação baseado em conhecimento garante mais eficiência na medida que o índice de recuperação aumenta pelo fato dos índices que orientam a similaridade serem escolhidos em função de conhecimento especialista, aumentando as chances de recuperação de documentos relevantes e úteis. Além disso, a indexação baseada em conhecimento evita baixos índices de precisão na medida que decrescem as chances de recuperação de documentos sem relevância.
Uma comparação dos três tipos básicos de modelos para gerenciamento de textos é apresentada por Gelbart e Smith (1993) onde os autores introduzem o Modelo de Representação de Conhecimento Flexicon (seção 2.3.1). Os modelos são: exact match (combinação exata), best match (melhor combinação) e modelos probabilísticos.
O maior problema de implementar o modelo Booleano no domínio do Direito reside na necessidade dos usuários utilizarem interfaces para construção de consultas com lógica Booleana, normalmente uma habilidade não dominada por profissionais da área.
Salton (1984) definiu um modelo que chamou de Booleano Estendido, onde
usa operadores no intuito de sobrepujar a rigidez dos operadores tradicionais.
Entretanto, esta proposta de solução torna a construção
da consulta uma tarefa ainda mais difícil. Na busca de soluções
para a complexidade da construção das consultas, Das-Gupta
(1987) propôs informação semântica e sintática
para localizar operadores e e or embutidos em textos de linguagem natural.
Ainda em 1990, JC Smith abordou o problema traduzindo consultas em linguagem
natural para consultas Booleanas.
Da Lingüística Computacional, um campo que compartilha metas com a compreensão da linguagem natural, a análise de textos para definição de sua estrutura retórica pode proporcionar a informação necessária para a construção de um método de mineração por modelos.
A pesquisa pertinente à aquisição de conhecimento de textos tem sido enriquecida pelos estudos orientados à Recuperação de Informação de bases textuais. Em resposta ao modesto auxílio que as técnicas de processamento de linguagem natural podem proporcionar à RI, as pesquisas passam a propor combinações de técnicas que tendem a evitar estes métodos tradicionais.
Especificamente relacionado à recuperação de banco de dados de textos, três modelos de representação são apresentados oferecendo alternativas para o aprimoramento da recuperação. Com relação ao parâmetros de avaliação, os índices de recuperação e de precisão mantém-se válidos.