CAPÍTULO 4

MATERIAIS, MÉTODOS E RESULTADOS

4.1 - Base De Dados Utilizada

Para realizar a presente pesquisa foram utilizadas três bases de dados contendo diversas características dos cromossomos. Tais bases foram gentilmente cedidas pelo Dr. Jim Piper, da Unidade de Citogenética do MRC em Edinburgh, Escócia. É necessário observar que tais bases contém informação adquirida através do processo de segmentação e tratamento de imagens que não é objeto do presente estudo. As bases de dados utilizadas são a seguir descritas com algum detalhe.

As três bases de dados já se tornaram padrão para estudos e testes comparativos entre diferentes abordagens de sistemas automáticos. A Tabela 4.1 apresenta as três bases de dados, mostrando a origem do tecido, o tipo de aquisição da imagem (digitalização), quantidade de cromossomos na base e a qualidade da imagem .

A primeira delas foi coletada no Rigshospitalet, Copenhagen em 1976-1978 e consiste de 180 metáfases de células de sangue periférico, padrão banda-G (trypsina-Leishmann). Os cromossomos nesta base foram fotografados e individualmente digitalizados de negativos de fotografia em um "grid" que estava paralelo com o eixo do cromossomo, usando um microdensitômetro. O tamanho do pixel foi 0,125 mm do cromossomo original (Piper, 1989). Especificamente, esta base foi usada para estudo em vários sistemas, principalmente para comparar o desemplenho do classificador usado (Errington, 1993; Groen et al, 1989; Johnston et al, 1993; Kirby, 1993; Lundsteen, 1986; Piper, 1989; Tso et al, 1991; van Vliet et al, 1990).

A segunda base foi obtida no MRC, Edinburgh em 1984, contém 125 células de sangue periférico masculina de amostras rotineiras do laboratório clínico, banda-G usando a técnica ASG (Giensa salinoacético). Esta base também foi usada em estudos comparativos (Errington, 1993; Kirby, 1993; Piper, 1989; Piper, 1986; Tso et al, 1991). As células de Edinburgh foram digitalizadas diretamente das lâminas do microscópio, novamente sendo 0,125 mm o tamanho do pixel, usando uma camera de TV Bosch "chalnicon" (Piper, 1989).


Tabela 4.1 - Detalhes das três bases de dados de chromosomos usadas em estudos (Piper, 1989).

A terceira base de dados foi obtida no Jeferson Medical College, Philadelphia, em 1987, e contém 130 células chorionic villus banda-Giemsa (culturas de 24 hs). As amostras foram preparadas rotineiramente no laboratório sendo digitalizadas e analisadas em um Cytoscan CS (Sistema de Reconhecimento de Imagem, Warrington, UK), que usa um scanner de matriz CCD (charge-coupled device) linear esquadrilhado mecanicamente com um espaço de pixel original de 0,1 mm por 0,13 mm, convertido por software para 0,13 mm quadrado de espaçamento (Piper, 1989). Esta base foi utilizada também para estudos comparativos (Errington, 1993; Kirby, 1993; Piper, 1989; Tso et al, 1991).

4.2 - Características Usadas Para Classificação

A escolha das características foi um passo importante no sentido de se obter os melhores resultados. Várias pesquisas tem demonstrado que as características mais usadas são o comprimento do cromossomo, a posição do centrômero e o padrão de bandas. Optou-se, neste trabalho, por estas características, porém, divide-se o processo de classificação em dois estágios.

No primeiro estágio utiliza-se o comprimento, a posição do centrômero e a densidade de cinza (área) como entrada para a rede, classificando assim os cromossomas em sete classes (grupo de Denver), conforme mostrado na Tabela 4.2. No segundo estágio, utiliza-se as saídas da rede do primeiro estágio como entrada para uma outra rede, que além destas 7 entradas usa-se mais 20 características extraídas do perfíl de cinza ao longo do eixo longitudinal.

Tabela 4.2 - Respectivo grupo de Denver para cada classe de cromossomo

Primeiro Estágio (Grupo de Denver)

Em cada estágio foi necessário a normalização dos dados, uma tarefa nem sempre fácil, pois sempre existe uma maneira de normalização ideal para cada problema. Foram testados dois modos de normalização. O primeiro modo foi normalizar o comprimento e a densidade pelo valor máximo encontrado em cada célula (metáfase); com isto, os valores ficavam compreendidos dentro do intervalo zero-um. A segunda maneira foi normalizar, novamente o comprimento e a densidade, pelo valor médio encontrado em cada célula (ver Anexo I). Com este modo os resultados foram melhores, parecendo que estas características ficavam melhor distribuídas, sendo que no primeiro caso elas ficavam de certa forma mais condensadas. Com a dispersão, o classificador detectava melhor as fronteiras de decisão.

Já a característica posição do centrômero foi normalizada de maneira que se pudesse utilizar o índice centromérico. Este índice é conseguido dividindo o comprimento do braço longo do cromossomo pelo comprimento total do mesmo. Desta forma, estes índices estarão dentro do intervalo [0;0,5], conforme sua relação, metacêntrico, sub-metacêntrico ou acrocêntrico.

Neste primeiro estágio utiliza-se uma RBF, e testa-se diferentes topologias, com 3 entradas e 7 saídas. Na camada escondida testamos 25, 50, 75 e 100 centros (neurônios). Convém salientar que, para a escolha dos parâmetros da rede, como taxa de aprendizado, número de iterações (epochs), etc., foi utilizado a técnica de cross-validation, ou seja, foram utilizados conjuntos de treinamento e testes reduzidos. O objetivo foi diminuir o tempo computacional, e uma vez detectados os melhores valores para os parâmetros trabalha-se com o conjunto de treinamento e teste completo. A Figura 4.1 mostra a variação da taxa de erro na classificação utilizando os diferentes números de centros.

Figura 4.1 - A variação da perfomance de classificação usando diferente número de centros (3 - X - 7)

Segundo Estágio (24 classes)

Conforme mencionado anteriormente, utilizamos neste estágio 20 características extraídas do perfíl de cinza do cromossoma ao longo do eixo mediano mais as 7 saídas do primeiro estágio. O número de pontos no perfíl de bandas de um cromossoma individual nas bases de dados variam consideravelmente. Perfís com até 140 pontos são apresentados, embora muitos perfís tenham aproximadamente 90 pontos. Para manter entradas consistentes para a RBF, que também foi utilizada neste estágio, o perfíl do cromossoma é escalado para um comprimento constante e a média local usada para produzir um número fixo de pontos médios ao longo do comprimento do cromossoma, Figura 4.2.

Optou-se por 20 pontos que foram extraídos do nível de cinza (bandas) do cromossomo porque eles representam o perfíl do cromossoma não perdendo muita informação. Assim, para os cromossomos pequenos houve a necessidade de se fazer uma extrapolação destes pontos, e para os cromossomas maiores uma interpolação. Estes características foram apresentadas para a rede como nodos de entrada. Características extras foram testadas, como incluir o comprimento, incluir o centrômero, incluir a densidade, e suas combinações. Mas, os melhores resultados foram alcançados incluindo as 7 saídas do primeiro estágio, como mostrado na Figura 4.3.

Figura 4.2 - Extração das características do perfíl de bandas do cromossomo

Durante todos os experimentos de classificação usa-se um conjunto de treinamento e um de teste. Cada um destes conjuntos continha a metade dos dados sobre estudo. Dois experimentos são conduzidos, um com a metade de todos os dados como dados para treinamento e então em um experimento subsequente como dados para teste. Similarmente, a mesma regra é aplicada a outra metade do conjunto dos dados de forma reversa. As taxas de erro de classificação apresentadas a seguir são a média das taxas de erro de classificação sobre os dois experimentos também aplicados em outros estudos.

Assim como no primeiro estágio, também no segundo usa-se diferente número de centros na camada intermediária. Tinhamos a rede com a estrutura de 27 entradas e 24 saídas, correspondentes a 24 classes dos cromossomos. Testamos 50, 100, 150 e 200 centros na camada escondida, cujo resultados estão na Figura 4.4. Como pode ser visto, com o aumento do número de centros a taxa de erro diminui e o tempo computacional aumenta. Quando o número de centros foi maior do que 200 a melhora não foi significante, sendo que o tempo de computação foi muito maior. Quando se fala em tempo de computação, entenda-se como o tempo para treinar a rede. Para treinar e testar toda uma base de dados, Philadelphia por exemplo, foram necessários aproximadamente 6 minutos numa SUN sparc 10, onde todos os algorítmos foram escritos em Matlab, versão 2.0. (Anexo 2).

Figura 4.3 - Apresentação das características para a RBF.

Em ambos os estágios utilizamos o algorítmo K-means para a determinação dos centros (camada não-supervisionada). Testou-se neste algorítmo a distância Euclidiana e a distância de Mahalanobis, sendo que a última apresentou melhores resultados. A distância de Mahalanobis utiliza a matriz covariância dos centros calculados para aumentar a funcionalidade. E para a determinação da matriz peso da saída (camada supervisionada) utilizamos o algorítmo não-interativo da pseudo-inversa que tem a seguinte forma:

W = (GTG)-1GTd (4.1)

onde W é a matriz peso da saída, G é a matriz com todos os neurônios da camada escondida e d é a matriz com as saídas desejadas, e GT representa a matriz transposta.

Figura 4.4 - A variação da perfomance de classificação usando diferente número de centros (27 - X - 24)

4.3 - Resultados

Após testadas várias topologias e combinações de parâmetros para a rede obteve-se resultados que superaram estudos anteriores. Para o primeiro estágio, houve uma melhora nas três bases de dados. Uma comparação entre esta abordagem e estudos anteriores utilizando o MLP, usado por Errington (1993), é apresentada na Tabela 4.3. Para a base de dados de Copenhagen obteve-se uma melhora de aproximadamente 25%, para a base de Edinburgh a melhora não foi significativa e para a base de Philadelphia a melhora foi ainda maior 28,5%.

Tabela 4.3 - Comparação entre a MLP e a RBF na classificação do Grupo de Denver

Para o segundo estágio, classificação dos cromossomos em 24 classes, as taxas de erro de classificação melhoraram para duas bases de dados. Na Tabela 4.4 apresentamos uma comparação da taxa de erro de classificação entre RBF e outras abordagens. Com a base de dados de Edinburgh não foi possível melhorar a taxa de erro..

Tabela 4.4 - Comparação de taxa de erro de classificação em 24 classes entre RBF e outras abordagens

Os resultados obtidos comprovaram que classificadores que usam campos receptivos podem criar regiões de decisão complexas tratando a não-linearidade com certa facilidade. Esta é uma característica das funções de base radial que usam aproximações locais de mapas de entrada-saída não-lineares. O resultado é que estas redes são capazes de aprender mais rápido e com sensibilidade reduzida com respeito a ordem de apresentação dos dados de treinamento. Isto já não acontecem com as redes que utilizam hiperplanos, como é o caso do MLP, que constrõem aproximações globais.