5.0
Introdução
O presente capítulo aborda o caso do diagnóstico
médico preliminar apresentado anteriormente. A amostra disponível
composta por (m+k) = 118 pontos (vetores de dimensão 14, se não
ajustados, ou dimensão 13, se ajustados), permitiu a
construção dos procedimentos de Reconhecimento de Padrões
de forma satisfatória. Porém, quando se deseja uma medida
quantitativa da eficiência dos métodos pesquisados (P.L.1, P.L.2,
Fisher, K'-Vizinhos, Regressão Logística e Redes Neurais),
o indicado é fazer-se uma simulação, dada a
inexistência de casos reais em número suficiente para esta
finalidade.
Em uma tentativa de se "imitar a natureza", conjuntos
de dados sintéticos multivariados (pacientes com câncer ou
cálculo) são gerados de forma a conservar a estrutura de
correlação entre as componentes (resultados quantitativos de
exames clínicos) do vetor aleatório simulado (paciente). Os
dados sintéticos gerados guardam a estrutura de correlação
das observações originais (m+k = 118) e estão centrados
nas médias desses vetores aleatórios. Este fato é
demonstrado pelo resultado 5.1 adiante.
Três possíveis simulações
foram consideradas para a geração dos dados sintéticos.
As duas primeiras, obtidas a partir dos dados já ajustados, diferem
apenas no conjunto de pontos para treinamento do modelo, P.T., e no conjunto
de pontos para testes, P.N.T. A terceira simulação foi feita
a partir dos dados originais. Estas simulações estão
descritas a seguir.
5.1 Simulações
Para se medir e comparar a eficiência dos métodos geraram-se 500 observações sintéticas multivariadas para cada um dos dois grupos (câncer ou cálculo) a partir dos dados ajustados (simulações 1 e 2) ou dos dados originais (simulação 3).
As observações foram geradas após definir-se a distribuição de probabilidade de cada variável aleatória componente do vetor (resultados quantitativos dos exames clínicos), ou seja, modelou-se as distribuições de probabilidade, tentativamente, e adotou-se por modelo a resultante do melhor ajuste indicado pelos testes Qui-Quadrado e Kolmogorov-Smirnov, com o auxílio do pacote estatístico Statgraphics. Nos Apêndices 3a e 3b são apresentados estes testes assim como os histogramas para algumas das variáveis em estudo.
Uma nova matriz de dados W1000x13 (simulações 1 e 2) ou W1000x14 (simulação 3) foi gerada tomando-se como média para as variáveis aleatórias E(w) = A-1 , onde é o vetor de médias obtido da matriz de dados conhecida X, e A é a matriz da transformação, AW = Y, que fornecerá as observações simuladas Y.
Estas observações sintéticas, Y, foram construídas, então, com a mesma estrutura de covariância dos dados originais conhecidos e estão centradas no mesmo ponto. Isto ficou garantido pelo resultado a seguir.
Resultado 5.1
Seja a amostra aleatória [x1, x2, ..., x(m+k-7)] do vetor aleatório xi Rp (simulações 1 e 2) (ou a amostra aleatória [x1, x2, ..., x(m+k)] do vetor aleatório xi Rn para a simulação 3) tal que x ~ . (, ) e, seja wi o vetor aleatório com distribuição da forma w ~ . (A-1 , V ), com média A-1 , matriz de covariância V e matriz de transformação
A = P1/2V-1/2 , onde P é a matriz de autovetores
de e é a matriz de autovalores de . Então y = Aw
tem distribuição com média e covariância ,
y ~ . (, ).
Prova
y = A w
V(y) = A V(w) A'
V(y) = A V A'
V(y) = A V1/2 V1/2 A'
V(y) = P 1/2 V-1/2 V1/2 V1/2 V-1/2 1/2 P'
V(y) = P 1/2 1/2 P' = P P' =
Além disso,
E(y) = A E(w) = A A-1 =
Para efetuar os cálculos necessários para
a obtenção da matriz AW e as matrizes de correlação
citadas adiante foi utilizado o pacote estatístico Minitab.
1a. Simulação
Os 111 pontos, com 13 variáveis, obtidos após o ajuste logístico e descarte de pontos, foram usados para fazer a geração dos 1000 pontos (500 para cada grupo, câncer e cálculo). As matrizes de correlação de X111x13 (matriz de dados conhecida) e de AW (W1000x13 matriz de dados gerada) para cada grupo são apresentadas no Anexo 5.1.
Estes 111 pontos serviram para treinar os programas de
cada um dos seis métodos abordados. Este conjunto de pontos treinados,
P.T., foi testado e a percentagem de erros calculada. Depois, os programas
treinados foram utilizados para verificar a percentagem de erros dos 1000
pontos gerados e não usados no treinamento, P.N.T., contidos na matriz
AW. Estas percentagens são apresentadas na quadro 5.1.
2a. Simulação
A 2a.
simulação é uma variação da 1a.
simulação. Dividiu-se o conjunto de pontos gerados, 1000 ,
em dois sub-conjuntos : 600 destes pontos constituiram o conjunto P.T., usados
no treinamento, e os restantes 400 pontos, o conjunto P.N.T., não
usados no treinamento. As percentagens de erros para os dois subconjuntos
são apresentadas no quadro 5.1.
3a. Simulação
Nesta 3a. simulação os 118 pontos originais, com 14 variáveis , foram usados para fazer a geração dos 1000 pontos. As matrizes de correlação de X118x14 e de AW, (W1000x14), para cada grupo são apresentadas no Anexo 5.1. Aí então, dividiu-se este conjunto de pontos gerados em dois sub-conjuntos : 600 destes pontos gerados foram submetidos ao ajuste logístico e descarte de pontos, resultando num sub-conjunto de 579 pontos e 14 variáveis, P.T. Os restantes 400 pontos formaram o conjunto de P.N.T. As percentagens de erros encontram-se no quadro 5.1.
As simulações descritas encontram-se
esquematizadas no Fluxograma 5.1.
Quadro 5.1.
Percentagens de erros, via simulação, para o exemplo
médico.
Fluxograma 5.1. Descrição
esquemática de 3 possíveis
simulações.
5.2 Análise dos resultados
Apresentou-se uma proposta para geração de um vetor aleatório com vetor médio e matriz de covariância conhecidos. Observa-se no Anexo 5.1 que as matrizes de correlação dos dados originais e gerados são bastante similares, o que nos faz acreditar que a proposta apresentada seja consistente e, consequentemente, os dados sintéticos são adequados para a finalidade de comparação de métodos.
Pelo quadro 5.1, verifica-se que as percentagens de erros para o conjunto P.T. é bastante baixa, conforme esperado. Já para o conjunto P.N.T. a percentagem é maior, tanto em relação ao conjunto P.T., quanto em relação aos dados contidos nos quadros 4.1 e 4.2, apresentados no capítulo IV. Isto se justifica pelo fato de ao se determinar as distribuições de probabilidade para cada uma das 13 variáveis (simulações 1 e 2) e 14 variáveis (simulação 3) e suas respectivas médias, algumas aproximações foram feitas.
O método da Regressão Logística foi o que apresentou uma melhor performance, em todas as simulações, considerando os conjuntos P.N.T. O método de Redes Neurais apresentou percentagens de erros maiores.