1.1 Reconhecimento de
Padrões
Durante as duas
últimas décadas houve um considerável crescimento do
interesse em problemas de Reconhecimento de Padrões, com consequente
aumento da necessidade de métodos para uso na elaboração
de sistemas nesta área.
Aplicações de Reconhecimento de Padrões
incluem reconhecimento de caracteres, diagnóstico médico
[Mangasarian et al,1990], [Wolberg et al,1990],[Blamey et al,1983], [Steiner
et al, 1993], problemas bancários [Grinold,1972], [Tam et al, 1992],
análise de sinais e imagens biomédicas, reconhecimento e
compreensão de línguas, identificação de faces
humanas [Samal et al,1992] e impressões digitais, confiabilidade,
automação industrial, socioeconomia, arqueologia, controle
de qualidade [Steiner et al, 1994] e outras.
As várias técnicas diferentes usadas para resolver problemas de Reconhecimento de Padrões podem ser agrupadas em duas abordagens gerais [Fu,1982] :
- A abordagem da decisão teórica ou discriminante;
- A abordagem sintática ou estrutural.
Na abordagem da decisão teórica, um conjunto
de medidas de características é extraído de padrões.
O reconhecimento de cada padrão, ou seja, a designação
de uma classe padrão, é normalmente feita particionando o
espaço das características. Nos problemas de Reconhecimento
de Padrões a informação estrutural que descreve cada
padrão é importante e o processo inclui não somente
a capacidade de designar o padrão a uma classe particular, e
classificá-lo, mas também a capacidade de descrever aspectos
do padrão que o tornem inelegível para designá-lo para
a outra classe.
A abordagem sintática, por sua vez, ao enfatizar
a descrição estrutural dos padrões, tenta fazer uma
analogia entre a estrutura de padrões e a sintaxe de uma linguagem.
A analogia é atraente por causa da disponibilidade de linguística
matemática como fundamentação teórica. Os
padrões são especificados como sendo construídos de
sub-padrões de várias maneiras de composição,
assim como as frases e sentenças são construídas juntando
palavras, as palavras são construídas juntando caracteres.
O presente trabalho trata de problemas de Reconhecimento
de Padrões e suas aplicações através do uso da
abordagem da decisão teórica. Padrões são formados
através de agrupamentos de partículas elementares,
descrições de elementos primitivos ou blocos de
informação. O Reconhecimento de Padrões desenvolve uma
estrutura que deve ser "guardada" e comparada com padrões desconhecidos
para reconhecimento.
É comum, neste contexto, trabalhar-se com grandes
massas de dados numéricos e , por este motivo, é conveniente
conceituar o problema de Reconhecimento de Padrões em 3 estágios
ou espaços [H. Andrews, 1972] : espaço dos padrões,
espaço das características e espaço de
classificação. A figura 1.1 faz a ilustração
desse conceito.
Figura 1.1. Ilustração do conceito do problema de Reconhecimento de Padrões
O mundo físico é percebido por alguns sistemas de transducers que recebem seus dados no espaço dos padrões. O mundo físico pode ser representado por um continuum de parâmetros e é essencialmente infinito em dimensão. Os transducers descrevem uma representação do mundo e explicitam isto por valores escalares R, tipicamente muito grande.
É desejável reduzir a dimensão de R mantendo o poder discriminatório para propósitos de classificação. Então o espaço das características é colocado com dimensão N, muito menor do que R. O espaço de classificação é, simplesmente, o espaço de decisão no qual uma de K classes foi selecionada e, portanto, é de dimensionalidade K.
Conceitualmente, então, o Problema de Reconhecimento
de Padrões pode ser descrito como uma transformação
do espaço de padrões P, no espaço das características
F, e finalmente no espaço de classificação C.
1.2 Objetivo do trabalho
O presente trabalho tem como objetivo desenvolver uma metodologia para o Reconhecimento de Padrões multivariados com resposta dicotômica. Visando dar uma
melhor estrutura a este trabalho, facilitar a sua análise e permitir uma implementação gradativa das propostas aqui formuladas, os objetivos foram divididos em objetivos principais ( a e b) e objetivos secundários (c,d, e) apresentados a seguir :
a) Dos pontos coletados "em campo", cada qual com n variáveis (ou n características), avaliar possíveis procedimentos para analisar estes pontos, representativos dos padrões dos conjuntos A e B, estatisticamente.
b) Com os pontos (ou padrões) de A e B analisados estatisticamente, verificar a performance de seis métodos utilizados para o Reconhecimento de Padrões visando detectar o método que apresente maior percentagem de acerto na classificação de novos pontos. Almeja-se, assim, determinar o método que mais eficientemente reconheça os padrões de A e de B.
c) Visando enfatizar a metodologia apresentada nos itens a e b anteriores, fazer a sua aplicação em casos reais. No presente trabalho foram tratados dois casos : do diagnóstico médico preliminar, identificando pacientes ictéricos com câncer ou cálculo no fígado; e da indústria de papel, discriminando bobinas de papel de boa e baixa qualidade.
d) Avaliar possíveis procedimentos para se fazer uma simulação de dados nos casos em que o número de padrões disponíveis "em campo" seja insuficiente para a adoção da metodologia apresentada em a e b, e identificar com a simulação a técnica de Reconhecimento de Padrões mais eficaz.
e) Finalmente, construir um modelo matemático,
que acoplado a um método de Reconhecimento de Padrões,
forneça uma ferramenta para o controle de qualidade na indústria
de papel.
1.3 Importância do
Trabalho
Como o interesse em problemas de Reconhecimento de Padrões Multivariados com resposta dicotômica tem crescido consideravelmente nestes últimos anos,
com aplicações nas mais diferentes áreas, entre as quais algumas das aplicações citadas no item 1.1, vê-se a necessidade de obter uma metodologia, para mais eficientemente poder-se fazer o Reconhecimento de Padrões.
Dado um problema de Reconhecimento de Padrões
qualquer, não basta apenas aplicar alguma técnica de Reconhecimento
de Padrões, mas sim, mostra-se a necessidade de se analisar os
padrões obtidos "em campo" estatisticamente, para então aplicar-se
diferentes técnicas para verificar qual delas é a mais eficiente
para aquele caso específico.
1.4 Estrutura do Trabalho
O trabalho divide-se em sete capítulos, incluindo
esta introdução.
No Capítulo II são mostrados possíveis procedimentos para se fazer a análise estatística dos dados. Deve-se observar que faz-se necessário, na fase de coleta de dados, assegurar a qualidade destes dados.
Nesta fase, algumas questões são levantadas :
1a. "Como abordar os dados coletados 'em campo' ? Qualitativamente ou quantitativamente ? "
A característica populacional de interesse pode ser classificada como qualitativa ou quantitativa e tratada como uma variável. A variável que representa uma determinada característica populacional é chamada de qualitativa quando resultar de uma classificação por tipos ou atributos. Já as variáveis quantitativas podem ser classificadas em
discretas ou contínuas, se seu domínio for
finito (ou infinito enumerável) ou real, respectivamente.
Alguns pesquisadores, como Grotschel et al, 1988 e Mangasarian et al, 1990, que aplicaram seus métodos em zoologia, economia, ciências políticas e outros e no diagnóstico de tumores, respectivamente, trataram as variáveis qualitativamente. Batista, 1990, tratou as variáveis de maneira mista.
No presente trabalho, para o problema médico, trabalhou-se com 14 variáveis, sendo que destas apenas uma (sexo) é qualitativa e as demais quantitativas, sendo
que algumas são discretas e outras contínuas.
Para o problema da indústria do papel, todas as variáveis são
quantitativas contínuas.
2a. " O que fazer com os dados coletados 'em campo' ? "
Batista, 1990, desenvolveu uma análise
estatística sobre os dados, preliminar à análise de
agrupamento (clustering). Efetuou padronização dos dados,
análise fatorial, análise de variância e análise
discriminante. Já outros pesquisadores como Mangasarian et al, 1990,
Tam et al, 1992, que trabalharam na predição de falência
em bancos, Grotschel et al, 1988, Grinold, 1972, que fizeram
aplicações como no credit scoring e outros, não
mencionam qualquer tipo de análise sobre os dados preliminar à
aplicação dos métodos.
São apresentados, neste trabalho, alguns procedimentos alternativos para se efetuar a análise estatística sobre os dados coletados "em campo". Testes são feitos para comparar o desempenho dos métodos pesquisados ao utilizar os dados coletados "em campo" diretamente e ao utilizar os dados analisados estatisticamente.
No Capítulo III são apresentados os Métodos Pesquisados :
Dentro da abordagem
teórica mencionada no item 1.1, os métodos de Reconhecimento
de Padrões são aqueles capazes de fazer a análise
discriminante e de classificação de um dado ponto
(observação) em um de muitos grupos. Um caso especial, do qual
trata o presente trabalho, é a classificação binária
na qual o número de grupos é limitado a dois. Os pontos do
espaço Rn de duas populações 1 e 2 (ou A e
B) representados pelas amostras A e B, tomadas de 1 e 2 respectivamente
e com A = m e B = k são tratados matricialmente : Amxn e Bkxn.
A análise discriminante e de classificação [Johnson et al, 1988] são técnicas multivariadas preocupadas com a separação de conjuntos distintos de pontos e com a alocação de novos pontos aos grupos definidos previamente. Assim, os objetivos da discriminação e classificação, respectivamente, são :
- Descrever graficamente (em 3 ou menos dimensões) ou algebricamente, as características diferenciais dos pontos de duas coleções (populações) conhecidas.
- Designar pontos para uma das duas classes. A ênfase
está em derivar uma regra que possa ser usada para, otimamente, designar
um novo ponto para uma das classes.
Neste trabalho, seis métodos capazes de efetuar a análise discriminante e de classificação foram pesquisados, estudados, implementados computacionalmente e aplicados a dois exemplos reais, descritos posteriormente. Os métodos são os seguintes :
Dois envolvem a técnica da Programação Linear :
1. Geração de uma superfície linear por partes [Mangasarian et al, 1990];
2. Geração de uma superfície que minimiza os erros [Bennett et al, 1992b];
Três métodos são estatísticos :
3. Função Discriminante Linear de Fisher [Johnson et al, 1988];
4. K'-vizinhos mais próximos, segundo a distância de Mahalanobis [Johnson et al, 1988];
5. Modelo de Regressão Logística [Dobson, 1983], [Cordeiro, 1986];
E o último método envolve Redes Neurais :
6. Geração de uma superfície linear
por partes utilizando o algoritmo Back-propagation [Krose et al,
1993], [Rumelhart et al, 1986].
Na descrição destes métodos, dá-se
ênfase ao último, que envolve Redes Neurais. Procedimentos para
encontrar uma topologia adequada para a Rede Neural, trabalhar convenientemente
com os pesos entre os neurônios e com os parâmetros, taxa de
aprendizagem e constante momento, para utilizar o algoritmo Back-Propagation
eficientemente, são estudados.
No Capítulo IV, é feita a aplicação da metodologia apresentada a Casos Reais. Dois problemas reais foram considerados neste trabalho com o objetivo de poder avaliar a metodologia apresentada.
Considerou-se um problema médico onde procura-se fazer a discriminação entre pacientes que possuem câncer no fígado daqueles que possuem cálculo no fígado.
Já no problema da indústria de papel objetiva-se fazer a discriminação entre bobinas de papel de boa qualidade das de baixa qualidade. Consideraram-se bobinas de boa qualidade aquelas que tiveram seus testes de tração longitudinal, rasgo transversal e índice
de qualidade dentro dos limites de especificação. As bobinas de baixa qualidade são as que não satisfizeram a pelo menos um dos testes citados.
A descrição destes problemas encontra-se
no Apêndice 2.
No Capítulo V são apresentados procedimentos para se fazer a simulação de dados :
Neste ponto, outra questão é abordada :
"O número de pontos utilizados na avaliação da performance das técnicas de análise discriminante pesquisadas, para os casos reais abordados, é suficiente ?"
As amostras disponíveis de 118 pacientes com 14
características cada no caso do exemplo médico e 145 bobinas
de papel com 18 características no caso do papel industrial podem
não ser totalmente satisfatórias e conclusivas. Pode-se,
então, simular dados, numa tentativa de "imitar a natureza". Esta
simulação deve ser feita, no entanto, conservando a estrutura
de correlação, conforme resultado 5.1 obtido, entre as
características componentes de cada paciente ou de cada bobina.
Três possíveis simulações
foram consideradas para a geração de dados sintéticos,
neste trabalho, e aplicadas ao caso do diagnóstico médico.
Analogamente, poder-se-ia gerar dados para o caso do papel industrial ou
qualquer outro.
No Capítulo
VI é apresentada a construção de um modelo
matemático : Identificado o método com melhor performance,
o Reconhecimento de Padrões no caso do problema médico fica
resolvido. Dado um novo ponto, ou seja, os exames clínicos de um novo
paciente, aplica-se o método em questão para classificá-lo.
Porém, para o problema do papel industrial, o objetivo vai além
da classificação de um novo ponto. Precisa-se antever a
classificação da bobina, de boa ou de baixa qualidade, via
método de análise discriminante mais eficiente, e assim poder
variar alguma(s) característica(s) visando obter bobinas de papel
de boa qualidade e ainda a um mínimo custo.
Com este objetivo é apresentada a
construção de um modelo de Programação Não
Linear. É uma proposta para o controle da Qualidade Total a um
Mínimo Custo em uma indústria de papel.
Finalmente, no
CapítuloVII,
apresentam-se as conclusões e sugestões para futuros trabalhos.