Para realizar a presente pesquisa foram utilizadas três bases de dados contendo diversas características dos cromossomos. Tais bases foram gentilmente cedidas pelo Dr. Jim Piper, da Unidade de Citogenética do MRC em Edinburgh, Escócia. É necessário observar que tais bases contém informação adquirida através do processo de segmentação e tratamento de imagens que não é objeto do presente estudo. As bases de dados utilizadas são a seguir descritas com algum detalhe.
As três bases de dados já se tornaram padrão para estudos e testes comparativos entre diferentes abordagens de sistemas automáticos. A Tabela 4.1 apresenta as três bases de dados, mostrando a origem do tecido, o tipo de aquisição da imagem (digitalização), quantidade de cromossomos na base e a qualidade da imagem .
A primeira delas foi coletada no Rigshospitalet, Copenhagen em 1976-1978 e consiste de 180 metáfases de células de sangue periférico, padrão banda-G (trypsina-Leishmann). Os cromossomos nesta base foram fotografados e individualmente digitalizados de negativos de fotografia em um "grid" que estava paralelo com o eixo do cromossomo, usando um microdensitômetro. O tamanho do pixel foi 0,125 mm do cromossomo original (Piper, 1989). Especificamente, esta base foi usada para estudo em vários sistemas, principalmente para comparar o desemplenho do classificador usado (Errington, 1993; Groen et al, 1989; Johnston et al, 1993; Kirby, 1993; Lundsteen, 1986; Piper, 1989; Tso et al, 1991; van Vliet et al, 1990).
A segunda base foi obtida no MRC, Edinburgh em 1984, contém 125 células de sangue periférico masculina de amostras rotineiras do laboratório clínico, banda-G usando a técnica ASG (Giensa salinoacético). Esta base também foi usada em estudos comparativos (Errington, 1993; Kirby, 1993; Piper, 1989; Piper, 1986; Tso et al, 1991). As células de Edinburgh foram digitalizadas diretamente das lâminas do microscópio, novamente sendo 0,125 mm o tamanho do pixel, usando uma camera de TV Bosch "chalnicon" (Piper, 1989).
Tabela 4.1 -
Detalhes
das três bases de dados de chromosomos usadas em estudos (Piper,
1989).
A terceira base de dados foi obtida no Jeferson Medical
College, Philadelphia, em 1987, e contém 130 células
chorionic villus
banda-Giemsa (culturas de 24 hs). As amostras foram preparadas rotineiramente
no laboratório sendo digitalizadas e analisadas em um Cytoscan CS
(Sistema
de Reconhecimento de Imagem, Warrington, UK), que usa um scanner de matriz
CCD (charge-coupled device) linear esquadrilhado mecanicamente com um
espaço
de pixel original de 0,1 mm por 0,13 mm, convertido por software para 0,13
mm quadrado de espaçamento (Piper, 1989). Esta base foi utilizada
também
para estudos comparativos (Errington, 1993; Kirby, 1993; Piper, 1989; Tso
et al, 1991).
A escolha das características foi um passo importante no sentido de se obter os melhores resultados. Várias pesquisas tem demonstrado que as características mais usadas são o comprimento do cromossomo, a posição do centrômero e o padrão de bandas. Optou-se, neste trabalho, por estas características, porém, divide-se o processo de classificação em dois estágios.
No primeiro estágio utiliza-se o comprimento, a
posição
do centrômero e a densidade de cinza (área) como entrada para
a rede, classificando
assim os cromossomas em sete classes (grupo de Denver), conforme mostrado
na Tabela 4.2. No segundo estágio, utiliza-se as saídas da
rede do primeiro
estágio como entrada para uma outra rede, que além destas 7
entradas usa-se
mais 20 características extraídas do perfíl de cinza
ao longo do eixo longitudinal.
Primeiro Estágio (Grupo de Denver)
Em cada estágio foi necessário a normalização dos dados, uma tarefa nem sempre fácil, pois sempre existe uma maneira de normalização ideal para cada problema. Foram testados dois modos de normalização. O primeiro modo foi normalizar o comprimento e a densidade pelo valor máximo encontrado em cada célula (metáfase); com isto, os valores ficavam compreendidos dentro do intervalo zero-um. A segunda maneira foi normalizar, novamente o comprimento e a densidade, pelo valor médio encontrado em cada célula (ver Anexo I). Com este modo os resultados foram melhores, parecendo que estas características ficavam melhor distribuídas, sendo que no primeiro caso elas ficavam de certa forma mais condensadas. Com a dispersão, o classificador detectava melhor as fronteiras de decisão.
Já a característica posição do centrômero foi normalizada de maneira que se pudesse utilizar o índice centromérico. Este índice é conseguido dividindo o comprimento do braço longo do cromossomo pelo comprimento total do mesmo. Desta forma, estes índices estarão dentro do intervalo [0;0,5], conforme sua relação, metacêntrico, sub-metacêntrico ou acrocêntrico.
Neste primeiro estágio utiliza-se uma RBF, e testa-se
diferentes topologias, com 3 entradas e 7 saídas. Na camada escondida
testamos
25, 50, 75 e 100 centros (neurônios). Convém salientar que,
para a escolha
dos parâmetros da rede, como taxa de aprendizado, número de
iterações (epochs),
etc., foi utilizado a técnica de cross-validation, ou seja,
foram
utilizados conjuntos de treinamento e testes reduzidos. O objetivo foi
diminuir o tempo computacional, e uma vez detectados os melhores valores
para os parâmetros trabalha-se com o conjunto de treinamento e teste
completo.
A Figura 4.1 mostra a variação da taxa de erro na
classificação utilizando
os diferentes números de centros.
Segundo Estágio (24 classes)
Conforme mencionado anteriormente, utilizamos neste estágio 20 características extraídas do perfíl de cinza do cromossoma ao longo do eixo mediano mais as 7 saídas do primeiro estágio. O número de pontos no perfíl de bandas de um cromossoma individual nas bases de dados variam consideravelmente. Perfís com até 140 pontos são apresentados, embora muitos perfís tenham aproximadamente 90 pontos. Para manter entradas consistentes para a RBF, que também foi utilizada neste estágio, o perfíl do cromossoma é escalado para um comprimento constante e a média local usada para produzir um número fixo de pontos médios ao longo do comprimento do cromossoma, Figura 4.2.
Optou-se por 20 pontos que foram extraídos do nível
de
cinza (bandas) do cromossomo porque eles representam o perfíl do
cromossoma
não perdendo muita informação. Assim, para os cromossomos
pequenos houve
a necessidade de se fazer uma extrapolação destes pontos, e
para os cromossomas
maiores uma interpolação. Estes características foram
apresentadas para
a rede como nodos de entrada. Características extras foram testadas,
como
incluir o comprimento, incluir o centrômero, incluir a densidade, e
suas
combinações. Mas, os melhores resultados foram alcançados
incluindo as
7 saídas do primeiro estágio, como mostrado na Figura
4.3.
Durante todos os experimentos de classificação usa-se um conjunto de treinamento e um de teste. Cada um destes conjuntos continha a metade dos dados sobre estudo. Dois experimentos são conduzidos, um com a metade de todos os dados como dados para treinamento e então em um experimento subsequente como dados para teste. Similarmente, a mesma regra é aplicada a outra metade do conjunto dos dados de forma reversa. As taxas de erro de classificação apresentadas a seguir são a média das taxas de erro de classificação sobre os dois experimentos também aplicados em outros estudos.
Assim como no primeiro estágio, também no
segundo usa-se
diferente número de centros na camada intermediária. Tinhamos
a rede com
a estrutura de 27 entradas e 24 saídas, correspondentes a 24 classes
dos
cromossomos. Testamos 50, 100, 150 e 200 centros na camada escondida, cujo
resultados estão na Figura 4.4. Como pode ser visto, com o aumento
do número
de centros a taxa de erro diminui e o tempo computacional aumenta. Quando
o número de centros foi maior do que 200 a melhora não foi
significante,
sendo que o tempo de computação foi muito maior. Quando se
fala em tempo
de computação, entenda-se como o tempo para treinar a rede.
Para treinar
e testar toda uma base de dados, Philadelphia por exemplo, foram
necessários
aproximadamente 6 minutos numa SUN sparc 10, onde todos os algorítmos
foram
escritos em Matlab, versão 2.0. (Anexo 2).
Em ambos os estágios utilizamos o algorítmo K-means para a determinação dos centros (camada não-supervisionada). Testou-se neste algorítmo a distância Euclidiana e a distância de Mahalanobis, sendo que a última apresentou melhores resultados. A distância de Mahalanobis utiliza a matriz covariância dos centros calculados para aumentar a funcionalidade. E para a determinação da matriz peso da saída (camada supervisionada) utilizamos o algorítmo não-interativo da pseudo-inversa que tem a seguinte forma:
W = (GTG)-1GTd (4.1)
onde W é a matriz peso da saída,
G é a matriz
com todos os neurônios da camada escondida e d é a matriz
com as
saídas desejadas, e GT representa a matriz
transposta.
Após testadas várias topologias e
combinações de parâmetros
para a rede obteve-se resultados que superaram estudos anteriores. Para
o primeiro estágio, houve uma melhora nas três bases de dados.
Uma comparação
entre esta abordagem e estudos anteriores utilizando o MLP, usado por Errington
(1993), é apresentada na Tabela 4.3. Para a base de dados de Copenhagen
obteve-se uma melhora de aproximadamente 25%, para a base de Edinburgh
a melhora não foi significativa e para a base de Philadelphia a melhora
foi ainda maior 28,5%.
Para o segundo estágio, classificação
dos cromossomos
em 24 classes, as taxas de erro de classificação melhoraram
para duas bases
de dados. Na Tabela 4.4 apresentamos uma comparação da taxa
de erro de
classificação entre RBF e outras abordagens. Com a base de
dados de Edinburgh
não foi possível melhorar a taxa de erro..
Os resultados obtidos comprovaram que classificadores que usam campos receptivos podem criar regiões de decisão complexas tratando a não-linearidade com certa facilidade. Esta é uma característica das funções de base radial que usam aproximações locais de mapas de entrada-saída não-lineares. O resultado é que estas redes são capazes de aprender mais rápido e com sensibilidade reduzida com respeito a ordem de apresentação dos dados de treinamento. Isto já não acontecem com as redes que utilizam hiperplanos, como é o caso do MLP, que constrõem aproximações globais.