CAPÍTULO II

2. ANÁLISE ESTATÍSTICA DOS DADOS

2.0 Introdução

A análise estatística multivariada [Johnson et al, 1988] se preocupa com métodos estatísticos para descrever e analisar dados multivariados. A necessidade de entender o relacionamento entre as diversas variáveis aleatórias faz da análise multivariada uma metodologia com grande potencial de aplicação, principalmente na época atual com a computação eletrônica veloz e barata.

O uso de técnicas estatísticas [Gorni, 1993] pode ser muito útil na análise preliminar dos dados, refinando as informações a serem fornecidas às técnicas de Reconhecimento de Padrões e, desse modo, promover a minimização do tempo e esforço requeridos em seus desenvolvimentos, aumentando a precisão do modelo final.

Pondera-se, neste trabalho, sobre a necessidade de se efetuar uma análise estatística dos dados, preliminar à utilização dos métodos de Reconhecimento de Padrões. Pesquisou-se, então, diversos procedimentos alternativos para desenvolver esta possível análise sobre os dados dos dois conjuntos, Amxn e Bkxn, previamente coletados "em campo" e organizados em uma matriz X = [xij], i = 1, ..., (m+k), j = 1, ..., n . O Fluxograma 2.1 ilustra estes procedimentos.

Fluxograma 2.1. Possíveis procedimentos para Análise dos Dados.

A descrição das técnicas estatísticas multivariadas envolvidas nestes procedimentos encontra-se a seguir.

2.1 Teste T2 de Hotelling [Johnson et al,1988]

O teste T2 de Hotelling é usado para testar a igualdade dos vetores médios de duas populações multivariadas. Trata-se de um teste derivado a partir do princípio geral de construção de procedimentos de teste denominado Método da Razão de Verossimilhança e é apropriado para comparar duas populações representadas por amostras independentes.

Sendo a amostra A, de tamanho m, da população 1 com média 1 e matriz de covariância 1 e a amostra B, de tamanho k, da população 2 com média 2 e matriz de covariância 2 , então as estatísticas amostrais que estimam os parâmetros de cada distribuição (população) multivariada podem ser resumidas no quadro 2.1 a seguir [Johnson et al, 1988].

Quadro 2.1. Resumo das Estatísticas Amostrais que estimam os parâmetros de cada população.

O objetivo do teste T2 é verificar se 1 = 2 ou melhor, testar a hipótese nula H0 : 1 = 2 contra a alternativa H1 : 1 2 , o que significa verificar se as populações estão centradas no mesmo ponto.

Assume-se que as amostras das duas populações, xA1, xA2, ..., xAm e xB1, xB2, ..., xBk são independentes. Isto significa que as unidades experimentais não são as mesmas. Quando m e k são pequenos, pode-se assumir que ambas as populações são normais multivariadas e também que 1 = 2, desde que isto seja verificado por algum teste apropriado. Contudo, quando as amostras são de tamanho de moderado para grande, o que ocorre nas aplicações abordadas aqui, isto é desnecessário. Por outro lado, o teste T2 de Hotelling é considerado como um método bastante robusto, significando que algum afastamento das premissas básicas para sua aplicação não produz prejuízo nenhum nas conclusões [Johnson et al, 1988].

Quando 1 = 2 = , j=1,m (xAj - xA)(xAj - xA)' é uma estimativa de

(m-1) e j=1,k (xBj - xB)(xBj - xB)' é uma estimativa de (k-1) , pode-se então combinar a informação das duas amostras para estimar a matriz de covariância comum :

Sp = j=1,m (xAj - xA)(xAj - xA)' + j=1,k (xBj - xB)(xBj - xB)'

m + k - 2

Sp = (m - 1) SA + (k - 1) SB

m + k - 2

Ainda,

E(XA - XB) = E(XA) - E(XB) = 1 - 2

e como XA e XB são independentes, Cov(XA, XB) = 0, então,

Cov(XA - XB) = Cov(XA) + Cov(XB) = 1/m + 1/k = (1/m + 1/k)

Como Sp estima , uma estimativa de Cov(XA - XB) é :

Cov(XA - XB) = (1/m + 1/k) Sp

Sendo 0 um vetor específico, o teste da hipótese de que 1 - 2 = 0 considera a distância quadrática estatística de xA - xB até 0.

O teste de H0 : 1 - 2 = 0, baseado na distância quadrática estatística, T2, a seguir, rejeita H0 se T2 > c2, onde c2 é a distância crítica, ou melhor, é o valor da distribuição teórica de T2 que separa a região de aceitação de H0 da região de rejeição,

T2 = (XA - XB - 0)' [ (1/m + 1/k) Sp ]-1 (XA - XB - 0)

e T2 ~ (m + k - 2) n / (m + k - n - 1) Fn, m+k-n-1

quando se tem as amostras xA1, xA2, ..., xAm, de tamanho m, da Nn(1, ) e xB1, xB2, ..., xBk de tamanho k da Nn(2, ). Tem-se aí representada por Fn,m+k-n-1 a distribuição F de Snedecor e por Nn(i, ) a distribuição normal n-variada com vetor de médias i, i = 1, 2 e matriz de covariância .

Se H0 é rejeitada, conclui-se que a separação entre as duas populações 1 e 2, representadas por suas amostras A e B, é significativa, ou seja, as populações são distintas nas suas várias características médias.


2.2 Padronização [Johnson et al,1988], [Batista, 1990]

Os dados coletados em campo e organizados na matriz X = [xij], i = 1, ..., (m+k), j = 1, ..., n, apresentam, muitas vezes, observações em diferentes escalas. Para que todas as n variáveis da matriz de dados fiquem dentro de uma mesma escala, pode-se aplicar a seguinte padronização :

Zj = (Xj - Xj) / sj ,

onde Xj é a média amostral da v.a. Xj, j= 1, 2, ..., n e sj é o desvio-padrão amostral. Desta forma, todas as variáveis aleatórias ficam com distribuição centrada em 0 (média) e com variância 1. A variação presente nas v.a.'s Xj permanece nos escores Zj, porém dentro da mesma escala. No caso de Xj ~ N (, 2), obtém-se uma padronização Zj ~ N (0, 1).

2.3 Método para Possível Descarte de Variáveis [Mardía, 1979]

O método descrito a seguir foi indicado por Mardía et al. em 1979 e define uma possível maneira de descartar variáveis (variáveis redundantes) usando a técnica de Componentes Principais. Eliminando-se variáveis dessa categoria obtém-se uma nova matriz de dados com menor ordem. Este descarte é feito visando aumentar a precisão das estimativas com as variáveis retidas e reduzir o número de medidas necessárias em dados semelhantes no futuro.

O procedimento para o descarte é o seguinte :

- Determine os autovalores (j, j = 1, 2, ..., n) e autovetores (ej, j = 1, 2, ..., n) da matriz de correlação das variáveis independentes (covariáveis).

- Considere o autovetor (ej) correspondente ao menor autovalor (j < q, q j, q = 1, 2, ..., n). Descarte, aí, a variável cujo coeficiente no autovetor for o maior (valor absoluto). É claro que o autovetor com menor autovalor é o menos importante e uma variável importante nele será a menos importante no conjunto.

- O número de variáveis descartadas pode ser igual ao número de autovalores menores ou iguais a 0,70.

2.4 "Ajuste" Logístico [Dobson, 1983], [Cordeiro, 1986]

Na procura de um Modelo Logístico Linear Múltiplo, detalhado no item 3.5.2-c, para ajuste da variável resposta dicotômica (uma variável que assume apenas um de dois valores (0 e 1)) e várias covariáveis, uma medida da adequação do modelo é feita com base na função desvio, introduzida por Nelder e Wedderburn, 1972, definida a seguir.

Existem dois modelos que são casos limites no procedimento de ajustamento: o modelo nulo e o modelo saturado. O modelo nulo tem um único parâmetro representativo para todos os Yi's e entende-se que toda a variação nos dados é devida à componente aleatória. Já o modelo saturado tem (m+k) parâmetros, um para cada observação Yi, ajusta-se exatamente aos dados, isto é, as estimativas das médias são iguais às próprias observações e toda variação é devida à componente sistemática.

Na realidade deve-se procurar um modelo com p parâmetros, situado entre esses modelos limites. O modelo saturado é degradado pois não assume os dados, os repete, porém é útil como limite da discrepância para o modelo em investigação por meio da chamada função desvio ("deviance"), definida por :

sp = -2 { Lp - L(m+k)} ,

onde Lp é o máximo da função logaritmo da verossimilhança para o modelo em investigação com p parâmetros e L(m+k) é o máximo da função logarítmica da verossimilhança para o modelo saturado.

Um modelo mal ajustado tem grande desvio e obviamente um modelo bem ajustado tem pequeno desvio (igual a zero no modelo saturado). Os graus de liberdade associados ao desvio são definidos por = (m+k) - p.

O desvio é uma medida da distância dos valores ajustados 's aos valores observados Y's, ou equivalentemente, do modelo corrente ao modelo saturado. Em geral, procura-se modelos com desvios moderados.

O teste da razão de verossimilhança pode ser usado para decidir sobre o modelo mais adequado. A estatística do teste é :

sp = -2 {Lp - Lp+1} ~ 2

e com base no valor-p correspondente a sp, P(2 > sp p+1 = 0), mantém-se ou retira-se a covariável do modelo.





2.5 Descarte de Pontos Atípicos

Ao se definir um Modelo Logístico Múltiplo adequado ao problema tem-se condições de calcular os resíduos de Pearson para as observações. Este resíduo é definido por :

ei = (yi - i ) / (i (1 - i))1/2 ,

onde yi é o valor assumido pela variável resposta (dicotômica, Yi é 0 ou 1) no modelo e i é a estimativa deste valor feita pelo modelo. Um valor de ei 1 indica que a observação i está sendo classificada erroneamente pelo modelo, ou seja, a observação i encontra-se "deslocada" em relação a sua população, o que a caracteriza como atípica.

Sugere-se que para os casos em que ei 1.5 sejam procuradas justificativas para tal ocorrência, como por exemplo, medição errada, quebra de máquina, e outras. Se encontrada, a observação atípica i pode ser descartada da amostra e, por conseguinte, do modelo. Observe-se que, neste caso, as estimativas para o modelo devem ser recalculadas. Não se descartam observações sem justificativa de erro externo ao modelo.

É importante acrescentar que ei assume somente dois possíveis valores ai e

-1/ai para cada valor de i, onde :

ai = - [i / (1 - i] 1/2 .

Quando se faz análise dos resíduos resultantes de um ajuste de um Modelo Logístico Múltiplo, isto é feito com base nos resíduos de Pearson.

2.6 Ilustração Geométrica dos Procedimentos

Para ilustrar os procedimentos anteriormente apresentados, considerou-se dois conjuntos de pontos pertencentes ao R2, A e B, com cardinalidades A = 53 (= m) e

B = 46 (= k), conforme Figura 2.1. O referido exemplo foi utilizado por Bennett e Mangasarian, 1992b.

Considerou-se, inicialmente, apenas as variáveis X1 e X2 para comporem o modelo. Fez-se o teste T2 de Hotelling para verificar se os referidos conjuntos, A e B, pertencem a amostras distintas. Comparando-se os valores de

T2 (m + k - n - 1) / (m + k -2) n com Fn,m+k-n-1 ( )

tem-se 48.43 > > F2,96 (0.05) = 3.09, mostrando que as duas amostras são provenientes de populações multivariadas centradas em médias distintas. Fazendo-se o ajuste logístico destes pontos obteve-se para a função desvio sp = 70.27, sendo que 14 pontos estão sendo classificados erroneamente. Destes 14 pontos, 6 apresentam resíduos de Pearson ei > 1.5, podendo ser descartados, se encontradas justificativas para tal. Uma ilutração deste procedimento encontra-se na Figura 2.1. A reta (tracejada) da figura, = X' , foi determinada conforme procedimento detalhado no item 3.5.

Considerando-se, agora, as variáveis X1, X2 e X22 (=X2.X2) para comporem o modelo, fez-se o teste T2 de Hotelling, e obteve-se os valores 32.99 > > F3,95 (0.05) = 2.69, mostrando que as duas populações são distintas na média. Fazendo-se o ajuste logístico obteve-se para a função desvio sp = 67.85, sendo que 10 pontos estão sendo classificados erroneamente. Destes 10 pontos, 6 apresentam resíduos de Pearson ei > 1.5.

Veja Figura 2.2. Nesta figura encontra-se a projeção da superfície (tracejada), = X' , que foi determinada conforme procedimento detalhado no item 3.5.