2.0 Introdução
A análise estatística multivariada [Johnson
et al, 1988] se preocupa com métodos estatísticos para descrever
e analisar dados multivariados. A necessidade de entender o relacionamento
entre as diversas variáveis aleatórias faz da análise
multivariada uma metodologia com grande potencial de aplicação,
principalmente na época atual com a computação
eletrônica veloz e barata.
O uso de técnicas estatísticas [Gorni, 1993] pode ser muito útil na análise preliminar dos dados, refinando as informações a serem fornecidas às técnicas de Reconhecimento de Padrões e, desse modo, promover a minimização do tempo e esforço requeridos em seus desenvolvimentos, aumentando a precisão do modelo final.
Pondera-se, neste trabalho, sobre a necessidade de se
efetuar uma análise estatística dos dados, preliminar à
utilização dos métodos de Reconhecimento de Padrões.
Pesquisou-se, então, diversos procedimentos alternativos para desenvolver
esta possível análise sobre os dados dos dois conjuntos, Amxn
e Bkxn, previamente coletados "em campo" e organizados em uma matriz X =
[xij], i = 1, ..., (m+k), j = 1, ..., n . O Fluxograma 2.1 ilustra estes
procedimentos.
Fluxograma
2.1. Possíveis procedimentos
para Análise dos Dados.
A descrição das técnicas
estatísticas multivariadas envolvidas nestes procedimentos encontra-se
a seguir.
2.1 Teste T2 de Hotelling [Johnson et al,1988]
O teste T2 de Hotelling é usado para testar a
igualdade dos vetores médios de duas populações
multivariadas. Trata-se de um teste derivado a partir do princípio
geral de construção de procedimentos de teste denominado
Método da Razão de Verossimilhança e é apropriado
para comparar duas populações representadas por amostras
independentes.
Sendo a amostra A, de tamanho m, da população
1 com média 1 e matriz de covariância 1 e a amostra B,
de tamanho k, da população 2 com média 2 e matriz
de covariância 2 , então as estatísticas amostrais que
estimam os parâmetros de cada distribuição
(população) multivariada podem ser resumidas no quadro 2.1
a seguir [Johnson et al, 1988].
Quadro 2.1. Resumo
das Estatísticas Amostrais que estimam os
parâmetros de cada população.
O objetivo do teste T2 é verificar se 1
= 2 ou melhor, testar a hipótese nula H0 : 1 = 2
contra a alternativa H1 : 1 2 , o que significa verificar se as
populações estão centradas no mesmo ponto.
Assume-se que as amostras das duas populações,
xA1, xA2, ..., xAm e xB1, xB2, ..., xBk
são independentes. Isto significa que as unidades experimentais
não são as mesmas. Quando m e k são pequenos, pode-se
assumir que ambas as populações são normais multivariadas
e também que 1 = 2, desde que isto seja verificado por algum teste
apropriado. Contudo, quando as amostras são de tamanho de moderado
para grande, o que ocorre nas aplicações abordadas aqui, isto
é desnecessário. Por outro lado, o teste T2 de Hotelling é
considerado como um método bastante robusto, significando que algum
afastamento das premissas básicas para sua aplicação
não produz prejuízo nenhum nas conclusões [Johnson et
al, 1988].
Quando 1 = 2 = , j=1,m (xAj - xA)(xAj - xA)' é uma estimativa de
(m-1) e j=1,k (xBj - xB)(xBj -
xB)' é uma estimativa de (k-1) , pode-se então combinar
a informação das duas amostras para estimar a matriz de
covariância comum :
Sp = j=1,m (xAj - xA)(xAj - xA)' + j=1,k (xBj - xB)(xBj - xB)'
m + k - 2
Sp = (m - 1) SA + (k - 1) SB
m + k - 2
Ainda,
E(XA - XB) = E(XA) - E(XB)
= 1 - 2
e como XA e XB são independentes, Cov(XA, XB) = 0, então,
Cov(XA - XB) = Cov(XA) + Cov(XB) = 1/m + 1/k = (1/m + 1/k)
Como Sp estima , uma estimativa de Cov(XA -
XB) é :
Cov(XA - XB) = (1/m + 1/k) Sp
Sendo 0 um vetor específico, o teste da hipótese de que 1 - 2 = 0 considera a distância quadrática estatística de xA - xB até 0.
O teste de H0 : 1 - 2 = 0, baseado
na distância quadrática estatística, T2, a seguir, rejeita
H0 se T2 > c2, onde c2 é a distância crítica, ou melhor,
é o valor da distribuição teórica de T2 que separa
a região de aceitação de H0 da região de
rejeição,
T2 = (XA - XB - 0)' [ (1/m + 1/k)
Sp ]-1 (XA - XB - 0)
e T2 ~ (m + k - 2) n / (m + k - n - 1) Fn, m+k-n-1
quando se tem as amostras xA1, xA2, ...,
xAm, de tamanho m, da Nn(1, ) e xB1, xB2, ...,
xBk de tamanho k da Nn(2, ). Tem-se aí representada
por Fn,m+k-n-1 a distribuição F de Snedecor e por Nn(i,
) a distribuição normal n-variada com vetor de médias
i, i = 1, 2 e matriz de covariância .
Se H0 é rejeitada, conclui-se que a
separação entre as duas populações 1 e 2,
representadas por suas amostras A e B, é significativa, ou seja, as
populações são distintas nas suas várias
características médias.
2.2 Padronização [Johnson
et al,1988], [Batista, 1990]
Os dados coletados em campo e organizados na matriz X = [xij], i = 1, ..., (m+k), j = 1, ..., n, apresentam, muitas vezes, observações em diferentes escalas. Para que todas as n variáveis da matriz de dados fiquem dentro de uma mesma escala, pode-se aplicar a seguinte padronização :
Zj = (Xj - Xj) / sj ,
onde Xj é a média amostral da v.a. Xj, j=
1, 2, ..., n e sj é o desvio-padrão amostral. Desta forma,
todas as variáveis aleatórias ficam com distribuição
centrada em 0 (média) e com variância 1. A variação
presente nas v.a.'s Xj permanece nos escores Zj, porém dentro da mesma
escala. No caso de Xj ~ N (, 2), obtém-se uma padronização
Zj ~ N (0, 1).
2.3 Método para Possível
Descarte de Variáveis [Mardía, 1979]
O método descrito
a seguir foi indicado por Mardía et al. em 1979 e define uma
possível maneira de descartar variáveis (variáveis
redundantes) usando a técnica de Componentes Principais. Eliminando-se
variáveis dessa categoria obtém-se uma nova matriz de dados
com menor ordem. Este descarte é feito visando aumentar a precisão
das estimativas com as variáveis retidas e reduzir o número
de medidas necessárias em dados semelhantes no futuro.
O procedimento para o descarte é o seguinte :
- Determine os autovalores (j, j = 1, 2, ..., n) e autovetores (ej, j = 1, 2, ..., n) da matriz de correlação das variáveis independentes (covariáveis).
- Considere o autovetor (ej) correspondente ao menor autovalor (j < q, q j, q = 1, 2, ..., n). Descarte, aí, a variável cujo coeficiente no autovetor for o maior (valor absoluto). É claro que o autovetor com menor autovalor é o menos importante e uma variável importante nele será a menos importante no conjunto.
- O número de variáveis descartadas pode
ser igual ao número de autovalores menores ou iguais a 0,70.
2.4 "Ajuste" Logístico [Dobson,
1983], [Cordeiro, 1986]
Na procura de um Modelo
Logístico Linear Múltiplo, detalhado no item 3.5.2-c, para
ajuste da variável resposta dicotômica (uma variável
que assume apenas um de dois valores (0 e 1)) e várias covariáveis,
uma medida da adequação do modelo é feita com base na
função desvio, introduzida por Nelder e Wedderburn, 1972, definida
a seguir.
Existem dois modelos que são casos limites no
procedimento de ajustamento: o modelo nulo e o modelo saturado. O modelo
nulo tem um único parâmetro representativo para todos os Yi's
e entende-se que toda a variação nos dados é devida
à componente aleatória. Já o modelo saturado tem (m+k)
parâmetros, um para cada observação Yi, ajusta-se exatamente
aos dados, isto é, as estimativas das médias são iguais
às próprias observações e toda variação
é devida à componente sistemática.
Na realidade deve-se procurar um modelo com p parâmetros, situado entre esses modelos limites. O modelo saturado é degradado pois não assume os dados, os repete, porém é útil como limite da discrepância para o modelo em investigação por meio da chamada função desvio ("deviance"), definida por :
sp = -2 { Lp - L(m+k)} ,
onde Lp é o máximo da função
logaritmo da verossimilhança para o modelo em investigação
com p parâmetros e L(m+k) é o máximo da função
logarítmica da verossimilhança para o modelo saturado.
Um modelo mal ajustado tem grande desvio e obviamente
um modelo bem ajustado tem pequeno desvio (igual a zero no modelo saturado).
Os graus de liberdade associados ao desvio são definidos por = (m+k)
- p.
O desvio é uma medida da distância dos valores
ajustados 's aos valores observados Y's, ou equivalentemente, do modelo corrente
ao modelo saturado. Em geral, procura-se modelos com desvios moderados.
O teste da razão de verossimilhança pode
ser usado para decidir sobre o modelo mais adequado. A estatística
do teste é :
sp = -2 {Lp - Lp+1} ~ 2
e com base no valor-p correspondente a sp, P(2 > sp p+1 = 0), mantém-se ou retira-se a covariável do modelo.
2.5 Descarte de Pontos Atípicos
Ao se definir um Modelo Logístico Múltiplo adequado ao problema tem-se condições de calcular os resíduos de Pearson para as observações. Este resíduo é definido por :
ei = (yi - i ) / (i (1 - i))1/2 ,
onde yi é o valor assumido pela variável
resposta (dicotômica, Yi é 0 ou 1) no modelo e i é a
estimativa deste valor feita pelo modelo. Um valor de ei 1 indica que a
observação i está sendo classificada erroneamente pelo
modelo, ou seja, a observação i encontra-se "deslocada" em
relação a sua população, o que a caracteriza
como atípica.
Sugere-se que para os casos em que ei 1.5 sejam procuradas
justificativas para tal ocorrência, como por exemplo, medição
errada, quebra de máquina, e outras. Se encontrada, a
observação atípica i pode ser descartada da amostra
e, por conseguinte, do modelo. Observe-se que, neste caso, as estimativas
para o modelo devem ser recalculadas. Não se descartam
observações sem justificativa de erro externo ao modelo.
É importante acrescentar que ei assume somente dois possíveis valores ai e
-1/ai para cada valor de i, onde :
ai = - [i / (1 - i] 1/2 .
Quando se faz análise dos resíduos resultantes
de um ajuste de um Modelo Logístico Múltiplo, isto é
feito com base nos resíduos de Pearson.
2.6 Ilustração
Geométrica dos Procedimentos
Para ilustrar os procedimentos anteriormente apresentados, considerou-se dois conjuntos de pontos pertencentes ao R2, A e B, com cardinalidades A = 53 (= m) e
B = 46 (= k), conforme Figura 2.1. O referido exemplo
foi utilizado por Bennett e Mangasarian, 1992b.
Considerou-se, inicialmente, apenas as variáveis
X1 e X2 para comporem o modelo. Fez-se o teste T2 de Hotelling para verificar
se os referidos conjuntos, A e B, pertencem a amostras distintas. Comparando-se
os valores de
T2 (m + k - n - 1) / (m + k -2) n com Fn,m+k-n-1 ( )
tem-se 48.43 > > F2,96 (0.05) = 3.09, mostrando
que as duas amostras são provenientes de populações
multivariadas centradas em médias distintas. Fazendo-se o ajuste
logístico destes pontos obteve-se para a função desvio
sp = 70.27, sendo que 14 pontos estão sendo classificados erroneamente.
Destes 14 pontos, 6 apresentam resíduos de Pearson ei > 1.5, podendo
ser descartados, se encontradas justificativas para tal. Uma
ilutração deste procedimento encontra-se na Figura 2.1. A reta
(tracejada) da figura, = X' , foi determinada conforme procedimento detalhado
no item 3.5.
Considerando-se, agora, as variáveis X1, X2 e X22 (=X2.X2) para comporem o modelo, fez-se o teste T2 de Hotelling, e obteve-se os valores 32.99 > > F3,95 (0.05) = 2.69, mostrando que as duas populações são distintas na média. Fazendo-se o ajuste logístico obteve-se para a função desvio sp = 67.85, sendo que 10 pontos estão sendo classificados erroneamente. Destes 10 pontos, 6 apresentam resíduos de Pearson ei > 1.5.
Veja Figura 2.2. Nesta figura encontra-se a projeção da superfície (tracejada), = X' , que foi determinada conforme procedimento detalhado no item 3.5.