CAPÍTULO IV

4. APLICAÇÃO DOS MÉTODOS EM CASOS REAIS

4.0 Introdução

Para poder efetivamente comparar a performance dos métodos pesquisados quanto à classificação de novos pontos, dois exemplos reais, de áreas totalmente distintas, foram considerados : o problema do diagnóstico médico preliminar e o problema da investigação da qualidade do papel industrial.

No problema médico, os conjuntos de pontos A e B representam as características numéricas resultantes de exames clínicos de pacientes com câncer ou cálculo no fígado.

No caso do problema do papel industrial, os conjuntos A e B representam as características numéricas da composição da pasta e dos cilindros da máquina de papel que produzem bobinas de papel de boa qualidade ou de baixa qualidade.

No Apêndice 2, é feita uma descrição sucinta de cada um destes problemas reais, enfatizando o problema da produção do papel que será objeto de estudo, no Capítulo VI, na continuidade do trabalho.

Para ambos os casos, fez-se uma análise estatística multivariada sobre os dados coletados "em campo", utilizando os três procedimentos alternativos expostos no Fluxograma 2.1 e descritos no Capítulo II.

Para a aplicação do teste T2 de Hotelling e para a padronização das variáveis foi desenvolvido um programa em linguagem Pascal. Através deste teste foi verificado que as populações, pacientes com câncer e pacientes com cálculo são distintas e, que as populações de bobinas de boa qualidade e bobinas de baixa qualidade também são distintas, a um nível de significância de 5%, ou seja, com uma probabilidade de 95% de acerto pode-se dizer que as populações anteriormente referidas são distintas. A aplicação deste teste se justifica pela necessidade de se mostrar quantitativamente as evidências da distinção entre as populações.

Já para aplicar o método para possível descarte de variáveis foi utilizado o pacote estatístico Minitab, sendo que o descarte foi efetuado conforme procedimento descrito no item 2.3. A eliminação de variáveis redundantes e desnecessárias no processo de classificação resulta em economia de custos, no futuro, em razão do seu não acompanhamento.

Para o "ajuste" logístico, utilizou-se o pacote estatístico GLIM (Generalized Linear Interactive Modeling), que também foi usado para o possível descarte de pontos, analisando os resíduos de cada um destes pontos. Estes procedimentos se seguiram conforme os itens 2.4 e 2.5. Os pontos atípicos tiveram as suas origens investigadas, e quando a área técnica ligada ao processo assumia que a natureza do ponto era externa ao processo, ele era eliminado.

Obtidas, então, as matrizes 1, 2, 3, fez-se a aplicação dos seis métodos. Todos os métodos pesquisados foram implementados em linguagem Pascal, utilizando os pacotes computacionais GAMS (General Algebraic Modeling System) como subrotina nos dois primeiros (Geração de uma Superfície Linear por Partes e Geração de uma Superfície que Minimiza Erros), para resolver os programas lineares envolvidos nestes dois métodos e GLIM no quinto (Regressão Logística), para a obtenção dos coeficientes da superfície separadora.

Procedendo-se de modo análogo ao executado em Bennett e Mangasarian, 1992b, a metodologia para testes consistiu em dividir os conjuntos de pontos aleatoriamente em 2 subconjuntos : um dos subconjuntos, P.T., serviu para "treinar" o programa, e o outro subconjunto, P.N.T., serviu para testar o "programa treinado". Este procedimento foi repetido 3 vezes, variando-se os subconjuntos P.T. e consequentemente P.N.T., e a média das percentagens dos erros foi calculada e é apresentada nos quadros 4.1 e 4.2. Observe-se, nestes quadros, que o subconjunto P.T. foi usado para testar os métodos também.

4.1 Aplicação no problema médico

Para o problema médico foram coletados dados, exames clínicos, de 118 pacientes, sendo que comprovadamente 35 possuiam câncer no fígado e 83, cálculo. As 14 características, exames clínicos de cada paciente, descritas no Apêndice 2, foram abreviadamente as seguintes : id, sex, bt, bd, bi, sgpt, sgot, fa, ami, tap, alb, cr, le, vg.

Na análise estatística multivariada feita, descrita no Capítulo II, faz-se necessário destacar o seguinte :

a. O teste T2 de Hotelling, com estatística T2 (m+k-n-1)/(m+k-2)n, comparada com Fn,m+k-n-1 (0.95), para cada uma das matrizes de dados M1, M2 e M3, forneceu os seguintes valores: M1 : 4.84 > 1.78896 = F14,103 (0.95); M2 : 6.02 > 1.96768 = F9,108 (0.95); M3 : 12.54 > 1.82239 = F13,97 (0.95). Consequentemente, rejeita-se fortemente, nos três casos, a hipótese de que as populações estão centradas no mesmo vetor de médias. Asim, a população de cancerosos é distinta da de ictéricos com cálculo nas variáveis estudadas.

b. Pelo 2o procedimento, conforme o método para possível descarte de variáveis, foram descartadas as seguintes variáveis : sex, bi, sgpt, vg, le. As variáveis que permaneceram para participar do processo foram as 9 restantes, obtendo-se assim a matriz 2. Então, estas quatro variáveis não são importantes para diferenciação entre ictérico com câncer e ictérico com cálculo. Neste sentido, estes exames clínicos podem ser eliminados no futuro, levando a economia de custos.

c. No "ajuste" logístico, para a definição da matriz 3, ficaram definidas as seguintes variáveis : id, bt, bd2 (= bd.bd), bd, ami, lnam (= loge ami), st2 (= st.st), st (=sgot/sgpt), fa, fa2n (=fa.fa/1000), vg, vg2 (= vg.vg), bt2 (= bt.bt), ou seja, 13 variáveis. Observe-se que foram decartadas : sex, bi, tap, alb, cr, le, sendo que destas, três coincidem com as do item anterior e que sgpt e sgot entram no ajuste através da razão colocada em st.

Como o que se desejava era o prognóstico ("1" ou "0") com o menor erro possível, analisou-se o relacionamento da variável resposta com as 14 covariáveis originais e outras variáveis derivadas destas com base na função desvio. Conforme o valor da função desvio fosse estatisticamente significativo ou não, a covariável era incorporada ao modelo, ajustado ou não. Algumas variáveis foram transformadas, na escala, na tentativa de se captar melhor a sua informação.

d. No procedimento para descarte de pontos, foram descartados 7 pontos, 6% do total, pontos estes considerados atípicos. Esta consideração foi definida após discussão com os especialistas da área e apontadas as causas. Obtém-se assim a matriz 3.

Finalmente, têm-se três matrizes (M1, M2, M3) respectivamente com ordens:

118 x 14, 118 x 9, 111 x 13.

Aplicando os métodos de Reconhecimento de Padrões, seguindo o procedimento para testes, as médias das percentagens de erros dos 3 testes feitos com M1, M2 e M3 encontram-se a seguir no quadro 4.1.

Quadro 4.1. Média das percentagens dos erros dos métodos no caso do exemplo médico, com a matriz sem ajuste e com as matrizes ajustadas

M1 : 118 x 14, P.T. = 106, P.N.T. = 12

M2 : 118 x 9, P.T. = 103, P.N.T. = 15

M3 : 111 x 13, P.T. = 100, P.N.T. = 11


4.2 Aplicação no problema do papel

Neste caso, os conjuntos de pontos representam as características numéricas da composição da pasta e dos cilindros da máquina de papel que forneceram 145 bobinas, sendo 40 de boa qualidade e 105 de baixa qualidade. As 18 características medidas de cada bobina, descritas no Apêndice 2, foram abreviadamente as seguintes : m1, m2, m3, m4, m5, m6, m7, ce, tmp, pm, tr1, r1, tr2, r2, tr3, r3, con, v.

No procedimento da análise estatística, faz-se necessário destacar as seguintes observações :

a. O teste T2 de Hotelling, com estatística T2 (m+k-n-1)/(m+k-2)n, comparada com Fn,m+k-n-1 (0.95), para cada uma das matrizes de dados M1, M2 e M3, forneceu os seguintes valores : M1 : 2.0916 > 1.68628 = F18,126 (0.95); M2 : 2.3602 >

1.90203 = F10,134 (0.95); M3 : 3.2968 > 1.61674 = F24,110 (0.95), o que leva à rejeição da hipótese de que as populações de bobinas de boa qualidade e de baixa qualidade estejam centradas no mesmo vetor médio.

b. Pelo 2o. procedimento, as variáveis descartadas foram as seguintes : m2, m3, m4, pm, tr1, tr2, r3, v. Continuaram no processo 10 variáveis. Obteve-se assim a matriz 2. Portanto, estas oito variáveis não são importantes na distinção entre bobinas de boa e de baixa qualidade; elas guardam uma certa correlação com as outras variáveis. As informações trazidas por elas não são significativas para a estrutura de correlação dos dados.

c. No "ajuste logístico" ficaram definidas as seguintes variáveis : m1, ce, pm, m12 (= m1.m1), m22 (=m2.m2), m32(=m3.m3), m42(=m4.m4), m72(=m7.m7), tmp2(=tmp.tmp), pm2(=pm.pm), lnm22(=logem22), lnm42(=logem42), lnm62(=logem62), lnce(=logece), r12(=r1.r1), tr2, tr22(=tr2.tr2), r2, r22(=r2.r2), tr3, tr32(=tr3.tr3), r1, m5, m52(m5.m5). Com este procedimento, a matriz 3 fica com 24 variáveis. Observe-se que foram descartadas as variáveis : tr1, r3, v, todas as três incluídas no descarte do item anterior.

d. No procedimento para descarte de pontos, para a obtenção da matriz 3, foram descartados 10 pontos, 7% do total, após discussão com os especialistas da área e apontadas as causas.

Assim, têm-se as matrizes M1, M2, M3 de ordem respectivamente :

145 x 18, 145 x 10, 135x24.

No Reconhecimento de Padrões, seguindo o procedimento para testes, as médias das percentagens de erros dos 3 testes feitos com M1, M2 e M3, para este caso, encontram-se a seguir no quadro 4.2.

Quadro 4.2. Média das percentagens dos erros dos métodos, para o caso do exemplo do papel, para a matriz sem ajuste e para as matrizes ajustadas

M1 : 145 x 18, P.T. = 130, P.N.T. = 15

M2 : 145 x 10, P.T. = 130, P.N.T. = 15

M3 : 135 x 24, P.T. = 120, P.N.T. = 15


4.3 Redes Neurais via MATLAB - Neural Network Toolbox [Demuth, 1994]

Com o objetivo de avaliar o procedimento adotado para a utilização de RN como uma técnica de Análise Discriminante, descrito no item 3.6, utilizou-se o pacote computacional MATLAB - Neural Network Toolbox para também efetuar esta análise nos casos reais abordados no presente capítulo.

Os testes foram realizados apenas com a matriz 3, ou seja, a matriz obtida após o ajuste logístico e descarte de pontos atípicos, para a qual todos os métodos pesquisados apresentaram menor percentagem de erros. Para o problema médico, a ordem da matriz 3 é : 111 x 13, sendo A = 31 e B = 80. Dos 111 pontos, 100 pontos, P.T., foram usados para "treinar" o programa , e os restantes 11 pontos, P.N.T., para testar o programa treinado. Destes 111 pontos, em cada um dos 3 testes realizados, a cardinalidade de A variou da seguinte forma : A = 28 ou A = 29 e, consequentemente de B, B = 71 ou B = 72. Para o problema do papel industrial, a ordem da matriz 3 é : 135 x 24, sendo

A = 32 e B = 103. Dos 135 pontos, 120 pontos, P.T., foram usados para "treinar" o programa , e os restantes 15 pontos, P.N.T., para testar o programa treinado. Destes 120 pontos, em cada um dos 3 testes realizados, a cardinalidade de A variou da seguinte forma : A = 28 ou A = 29 e, consequentemente de B, B = 91 ou B = 92.

Trabalhou-se com uma topologia semelhante à adotada no item 3.6, ou seja, 3 camadas de neurônios : de entrada, escondida e de saída, esta última apenas com um neurônio. A função de ativação utilizada nas camadas escondida e de saída foi a função sigmoidal.

Testes foram feitos para se determinar o "melhor" número de neurônios na camada escondida, ou seja, que fornecesse o menor erro, sendo que este número i variou :

1 i 50; testes foram feitos, também, para se determinar uma adequada taxa de aprendizagem e constante momento.

Os pesos iniciais se mostraram bastante decisivos na utilização desta ferramenta : pesos iniciais "bons" faziam a RN convergir rapidamente, enquanto que pesos iniciais "ruins" levavam a RN para um mínimo local "ruim" da qual ela não mais "conseguia" sair.

Como nos demais métodos, três testes foram feitos, variando-se os conjuntos P.T. e, consequentemente, os conjuntos P.N.T. A média das percentagens de erros foi calculada e é apresentada no quadro 4.3, comparativamente com o procedimento em 3.6.

Quadro 4.3. Comparação do desempenho da técnica de RN via procedimento exposto em 3.6 e via pacote computacional MATLAB


4.4 Análise dos resultados

Analisando-se os resultados contidos nos quadros 4.1 e 4.2, nota-se, inicialmente, que todos os métodos apresentaram uma melhoria significativa na sua performance com a adoção do 3o. procedimento na análise estatística dos dados. O 2o. procedimento não revelou melhoria alguma em relação ao 1o. procedimento, no qual trabalha-se diretamente com os dados coletados "em campo". No caso médico as percentagens de erros foram até maiores. Através deste 2o. procedimento a técnica de Redes Neurais apresentou boa performance para os conjuntos P.T., porém mostrou-se ineficiente para os conjuntos P.N.T.

Considerando então apenas as percentagens encontradas via 3o. procedimento, observa-se que o método da Geração de uma Superfície Linear por Partes apresenta o melhor resultado com relação ao subconjunto P.T., aliás, é o único método dentre os pesquisados, que sempre fornece percentagem de erros zero para os pontos treinados. Obteve-se bons resultados com os outros métodos também.

Com relação ao subconjunto P.N.T., os métodos Geração de uma Superfície que Minimiza Erros e Redes Neurais apresentaram a melhor performance para o problema médico e para o problema do papel industrial, os métodos Geração de uma Superfície que Minimiza Erros e de Fisher foram os que apresentaram melhor desempenho. O Método da Regressão Logística teve o 2o. melhor resultado para os dois exemplos, acompanhado do Método da Geração de uma Superfície Linear por Partes para o problema do papel.

Analisando-se, agora, os resultados contidos no quadro 4.3, observa-se que a performance de Redes Neurais segundo o procedimento adotado em 3.6 se mostrou melhor para o problema médico, porém menos eficiente para o problema do papel industrial. Observou-se também, em ambos os procedimentos, adotado em 3.6 e via MATLAB, que o número de pontos contidos em A, A = 28 ou A = 29, foi insuficiente para que a Rede Neural "conseguisse" aprender, devido principalmente ao número de características, n = 24, que é relativamente elevado, comparativamente à cardinalidade de A.