4.0 Introdução
Para poder efetivamente comparar a performance dos métodos pesquisados quanto à classificação de novos pontos, dois exemplos reais, de áreas totalmente distintas, foram considerados : o problema do diagnóstico médico preliminar e o problema da investigação da qualidade do papel industrial.
No problema médico, os conjuntos de pontos A e B representam as características numéricas resultantes de exames clínicos de pacientes com câncer ou cálculo no fígado.
No caso do problema do papel industrial, os conjuntos A e B representam as características numéricas da composição da pasta e dos cilindros da máquina de papel que produzem bobinas de papel de boa qualidade ou de baixa qualidade.
No Apêndice 2, é feita uma descrição sucinta de cada um destes problemas reais, enfatizando o problema da produção do papel que será objeto de estudo, no Capítulo VI, na continuidade do trabalho.
Para ambos os casos, fez-se uma análise estatística multivariada sobre os dados coletados "em campo", utilizando os três procedimentos alternativos expostos no Fluxograma 2.1 e descritos no Capítulo II.
Para a aplicação do teste T2 de Hotelling e para a padronização das variáveis foi desenvolvido um programa em linguagem Pascal. Através deste teste foi verificado que as populações, pacientes com câncer e pacientes com cálculo são distintas e, que as populações de bobinas de boa qualidade e bobinas de baixa qualidade também são distintas, a um nível de significância de 5%, ou seja, com uma probabilidade de 95% de acerto pode-se dizer que as populações anteriormente referidas são distintas. A aplicação deste teste se justifica pela necessidade de se mostrar quantitativamente as evidências da distinção entre as populações.
Já para aplicar o método para possível descarte de variáveis foi utilizado o pacote estatístico Minitab, sendo que o descarte foi efetuado conforme procedimento descrito no item 2.3. A eliminação de variáveis redundantes e desnecessárias no processo de classificação resulta em economia de custos, no futuro, em razão do seu não acompanhamento.
Para o "ajuste" logístico, utilizou-se o pacote estatístico GLIM (Generalized Linear Interactive Modeling), que também foi usado para o possível descarte de pontos, analisando os resíduos de cada um destes pontos. Estes procedimentos se seguiram conforme os itens 2.4 e 2.5. Os pontos atípicos tiveram as suas origens investigadas, e quando a área técnica ligada ao processo assumia que a natureza do ponto era externa ao processo, ele era eliminado.
Obtidas, então, as matrizes 1, 2, 3, fez-se a aplicação dos seis métodos. Todos os métodos pesquisados foram implementados em linguagem Pascal, utilizando os pacotes computacionais GAMS (General Algebraic Modeling System) como subrotina nos dois primeiros (Geração de uma Superfície Linear por Partes e Geração de uma Superfície que Minimiza Erros), para resolver os programas lineares envolvidos nestes dois métodos e GLIM no quinto (Regressão Logística), para a obtenção dos coeficientes da superfície separadora.
Procedendo-se de modo análogo ao executado em
Bennett e Mangasarian, 1992b, a metodologia para testes consistiu em dividir
os conjuntos de pontos aleatoriamente em 2 subconjuntos : um dos subconjuntos,
P.T., serviu para "treinar" o programa, e o outro subconjunto, P.N.T., serviu
para testar o "programa treinado". Este procedimento foi repetido 3 vezes,
variando-se os subconjuntos P.T. e consequentemente P.N.T., e a média
das percentagens dos erros foi calculada e é apresentada nos quadros
4.1 e 4.2. Observe-se, nestes quadros, que o subconjunto P.T. foi usado para
testar os métodos também.
4.1 Aplicação no problema
médico
Para o problema médico foram coletados dados,
exames clínicos, de 118 pacientes, sendo que comprovadamente 35 possuiam
câncer no fígado e 83, cálculo. As 14 características,
exames clínicos de cada paciente, descritas no Apêndice 2, foram
abreviadamente as seguintes : id, sex, bt, bd, bi, sgpt, sgot, fa, ami, tap,
alb, cr, le, vg.
Na análise estatística multivariada feita, descrita no Capítulo II, faz-se necessário destacar o seguinte :
a. O teste T2 de Hotelling, com estatística T2 (m+k-n-1)/(m+k-2)n, comparada com Fn,m+k-n-1 (0.95), para cada uma das matrizes de dados M1, M2 e M3, forneceu os seguintes valores: M1 : 4.84 > 1.78896 = F14,103 (0.95); M2 : 6.02 > 1.96768 = F9,108 (0.95); M3 : 12.54 > 1.82239 = F13,97 (0.95). Consequentemente, rejeita-se fortemente, nos três casos, a hipótese de que as populações estão centradas no mesmo vetor de médias. Asim, a população de cancerosos é distinta da de ictéricos com cálculo nas variáveis estudadas.
b. Pelo 2o procedimento, conforme o método para possível descarte de variáveis, foram descartadas as seguintes variáveis : sex, bi, sgpt, vg, le. As variáveis que permaneceram para participar do processo foram as 9 restantes, obtendo-se assim a matriz 2. Então, estas quatro variáveis não são importantes para diferenciação entre ictérico com câncer e ictérico com cálculo. Neste sentido, estes exames clínicos podem ser eliminados no futuro, levando a economia de custos.
c. No "ajuste" logístico, para a definição da matriz 3, ficaram definidas as seguintes variáveis : id, bt, bd2 (= bd.bd), bd, ami, lnam (= loge ami), st2 (= st.st), st (=sgot/sgpt), fa, fa2n (=fa.fa/1000), vg, vg2 (= vg.vg), bt2 (= bt.bt), ou seja, 13 variáveis. Observe-se que foram decartadas : sex, bi, tap, alb, cr, le, sendo que destas, três coincidem com as do item anterior e que sgpt e sgot entram no ajuste através da razão colocada em st.
Como o que se desejava era o prognóstico ("1" ou "0") com o menor erro possível, analisou-se o relacionamento da variável resposta com as 14 covariáveis originais e outras variáveis derivadas destas com base na função desvio. Conforme o valor da função desvio fosse estatisticamente significativo ou não, a covariável era incorporada ao modelo, ajustado ou não. Algumas variáveis foram transformadas, na escala, na tentativa de se captar melhor a sua informação.
d. No procedimento para descarte de pontos, foram descartados
7 pontos, 6% do total, pontos estes considerados atípicos. Esta
consideração foi definida após discussão com
os especialistas da área e apontadas as causas. Obtém-se assim
a matriz 3.
Finalmente, têm-se três matrizes (M1, M2, M3) respectivamente com ordens:
118 x 14, 118 x 9, 111 x 13.
Aplicando os métodos de Reconhecimento de Padrões, seguindo o procedimento para testes, as médias das percentagens de erros dos 3 testes feitos com M1, M2 e M3 encontram-se a seguir no quadro 4.1.
Quadro 4.1.
Média das percentagens dos erros dos métodos no caso do exemplo
médico, com a matriz sem ajuste e com as matrizes
ajustadas
M1 : 118 x 14, P.T. = 106, P.N.T. = 12
M2 : 118 x 9, P.T. = 103, P.N.T. = 15
M3 : 111 x 13, P.T. = 100, P.N.T. = 11
4.2 Aplicação no problema
do papel
Neste caso, os conjuntos de pontos representam as
características numéricas da composição da pasta
e dos cilindros da máquina de papel que forneceram 145 bobinas, sendo
40 de boa qualidade e 105 de baixa qualidade. As 18 características
medidas de cada bobina, descritas no Apêndice 2, foram abreviadamente
as seguintes : m1, m2, m3, m4, m5, m6, m7, ce, tmp, pm, tr1, r1, tr2, r2,
tr3, r3, con, v.
No procedimento da análise estatística, faz-se necessário destacar as seguintes observações :
a. O teste T2 de Hotelling, com estatística T2 (m+k-n-1)/(m+k-2)n, comparada com Fn,m+k-n-1 (0.95), para cada uma das matrizes de dados M1, M2 e M3, forneceu os seguintes valores : M1 : 2.0916 > 1.68628 = F18,126 (0.95); M2 : 2.3602 >
1.90203 = F10,134 (0.95); M3 : 3.2968 > 1.61674 = F24,110 (0.95), o que leva à rejeição da hipótese de que as populações de bobinas de boa qualidade e de baixa qualidade estejam centradas no mesmo vetor médio.
b. Pelo 2o. procedimento, as variáveis descartadas foram as seguintes : m2, m3, m4, pm, tr1, tr2, r3, v. Continuaram no processo 10 variáveis. Obteve-se assim a matriz 2. Portanto, estas oito variáveis não são importantes na distinção entre bobinas de boa e de baixa qualidade; elas guardam uma certa correlação com as outras variáveis. As informações trazidas por elas não são significativas para a estrutura de correlação dos dados.
c. No "ajuste logístico" ficaram definidas as seguintes variáveis : m1, ce, pm, m12 (= m1.m1), m22 (=m2.m2), m32(=m3.m3), m42(=m4.m4), m72(=m7.m7), tmp2(=tmp.tmp), pm2(=pm.pm), lnm22(=logem22), lnm42(=logem42), lnm62(=logem62), lnce(=logece), r12(=r1.r1), tr2, tr22(=tr2.tr2), r2, r22(=r2.r2), tr3, tr32(=tr3.tr3), r1, m5, m52(m5.m5). Com este procedimento, a matriz 3 fica com 24 variáveis. Observe-se que foram descartadas as variáveis : tr1, r3, v, todas as três incluídas no descarte do item anterior.
d. No procedimento para descarte de pontos, para a
obtenção da matriz 3, foram descartados 10 pontos, 7% do total,
após discussão com os especialistas da área e apontadas
as causas.
Assim, têm-se as matrizes M1, M2, M3 de ordem respectivamente :
145 x 18, 145 x 10, 135x24.
No Reconhecimento de Padrões, seguindo o procedimento
para testes, as médias das percentagens de erros dos 3 testes feitos
com M1, M2 e M3, para este caso, encontram-se a seguir no quadro
4.2.
Quadro 4.2.
Média das percentagens dos erros dos métodos, para o caso do
exemplo do papel, para a matriz sem ajuste e para as matrizes ajustadas
M1 : 145 x 18, P.T. = 130, P.N.T. = 15
M2 : 145 x 10, P.T. = 130, P.N.T. = 15
M3 : 135 x 24, P.T. = 120, P.N.T. = 15
4.3 Redes Neurais via MATLAB - Neural
Network Toolbox [Demuth, 1994]
Com o objetivo de avaliar
o procedimento adotado para a utilização de RN como uma
técnica de Análise Discriminante, descrito no item 3.6, utilizou-se
o pacote computacional MATLAB - Neural Network Toolbox para
também efetuar esta análise nos casos reais abordados no presente
capítulo.
Os testes foram realizados apenas com a matriz 3, ou seja, a matriz obtida após o ajuste logístico e descarte de pontos atípicos, para a qual todos os métodos pesquisados apresentaram menor percentagem de erros. Para o problema médico, a ordem da matriz 3 é : 111 x 13, sendo A = 31 e B = 80. Dos 111 pontos, 100 pontos, P.T., foram usados para "treinar" o programa , e os restantes 11 pontos, P.N.T., para testar o programa treinado. Destes 111 pontos, em cada um dos 3 testes realizados, a cardinalidade de A variou da seguinte forma : A = 28 ou A = 29 e, consequentemente de B, B = 71 ou B = 72. Para o problema do papel industrial, a ordem da matriz 3 é : 135 x 24, sendo
A = 32 e B = 103. Dos 135 pontos, 120 pontos, P.T., foram
usados para "treinar" o programa , e os restantes 15 pontos, P.N.T., para
testar o programa treinado. Destes 120 pontos, em cada um dos 3 testes
realizados, a cardinalidade de A variou da seguinte forma : A = 28 ou A =
29 e, consequentemente de B, B = 91 ou B = 92.
Trabalhou-se com uma topologia semelhante à adotada no item 3.6, ou seja, 3 camadas de neurônios : de entrada, escondida e de saída, esta última apenas com um neurônio. A função de ativação utilizada nas camadas escondida e de saída foi a função sigmoidal.
Testes foram feitos para se determinar o "melhor" número de neurônios na camada escondida, ou seja, que fornecesse o menor erro, sendo que este número i variou :
1 i 50; testes foram feitos, também, para se determinar uma adequada taxa de aprendizagem e constante momento.
Os pesos iniciais se mostraram bastante decisivos na
utilização desta ferramenta : pesos iniciais "bons" faziam
a RN convergir rapidamente, enquanto que pesos iniciais "ruins" levavam a
RN para um mínimo local "ruim" da qual ela não mais "conseguia"
sair.
Como nos demais métodos, três testes foram
feitos, variando-se os conjuntos P.T. e, consequentemente, os conjuntos P.N.T.
A média das percentagens de erros foi calculada e é apresentada
no quadro 4.3, comparativamente com o procedimento em 3.6.
Quadro 4.3.
Comparação do desempenho da técnica de RN via
procedimento exposto em 3.6 e via pacote
computacional MATLAB
4.4 Análise dos resultados
Analisando-se os resultados contidos nos quadros 4.1
e 4.2, nota-se, inicialmente, que todos os métodos apresentaram uma
melhoria significativa na sua performance com a adoção do
3o. procedimento na análise estatística dos dados. O
2o. procedimento não revelou melhoria alguma em relação
ao 1o. procedimento, no qual trabalha-se diretamente com os dados
coletados "em campo". No caso médico as percentagens de erros foram
até maiores. Através deste 2o. procedimento a técnica
de Redes Neurais apresentou boa performance para os conjuntos P.T., porém
mostrou-se ineficiente para os conjuntos P.N.T.
Considerando então apenas as percentagens encontradas
via 3o. procedimento, observa-se que o método da
Geração de uma Superfície Linear por Partes apresenta
o melhor resultado com relação ao subconjunto P.T., aliás,
é o único método dentre os pesquisados, que sempre fornece
percentagem de erros zero para os pontos treinados. Obteve-se bons resultados
com os outros métodos também.
Com relação ao subconjunto P.N.T., os
métodos Geração de uma Superfície que Minimiza
Erros e Redes Neurais apresentaram a melhor performance para o problema
médico e para o problema do papel industrial, os métodos
Geração de uma Superfície que Minimiza Erros e de Fisher
foram os que apresentaram melhor desempenho. O Método da Regressão
Logística teve o 2o. melhor resultado para os dois exemplos,
acompanhado do Método da Geração de uma Superfície
Linear por Partes para o problema do papel.
Analisando-se, agora, os resultados contidos no quadro 4.3, observa-se que a performance de Redes Neurais segundo o procedimento adotado em 3.6 se mostrou melhor para o problema médico, porém menos eficiente para o problema do papel industrial. Observou-se também, em ambos os procedimentos, adotado em 3.6 e via MATLAB, que o número de pontos contidos em A, A = 28 ou A = 29, foi insuficiente para que a Rede Neural "conseguisse" aprender, devido principalmente ao número de características, n = 24, que é relativamente elevado, comparativamente à cardinalidade de A.