Esta dissertação foi julgada adequada para obtenção do Título de "Mestre em Engenharia".
Especialidade em Engenharia de Produção e aprovada em sua forma final pelo Programa de Pós-Graduação em Engenharia de Produção.
Prof. Ricardo Miranda Bárcia, Ph. D.
Coordenador do Curso
Banca Examinadora :
Prof. Ricardo Miranda Bárcia, Ph. D.
Orientador
Prof. Fernando Gauthier, Dr.
Prof. Oscar Ciro Lopez Vaca, Dr.
Dedico esta dissertação à minha grande amiga Julianne
Fischer, meus pais, José e Verônica, e meus irmãos, Marlon,
Marlen e Marylin.
E em especial, a alguém muito especial, Marylin Ítala Tafner.
Ao meu orientador, Professor Ricardo Miranda Barcia, que sempre empenhou seus esforços em se posicionar ao lado dos seus orientandos.
À Julianne Fischer, minha companheira nas horas felizes e difíceis, pela paciência, pela compreensão e pela ajuda que dedicou a este trabalho, ora como revisora, e ora como orientadora.
Aos amigos José Gonçalves, Adalberto Gassenferth e Ilson Rodrigues Filho pelas revisões e pelo apoio.
Ao amigo Altamir Borges, por explicações relativas à aquisição e ao tratamento do sinal digital.
À Universidade Federal de Santa Catarina pela oportunidade de desenvolvimento desta pesquisa.
À Universidade Regional de Blumenau pelo apoio financeiro concedido para divulgar os resultados desta pesquisa em congressos pelo país.
Aos professores do curso de Pós-graduação em Eng. de Produção pelas experiências e conhecimentos compartilhados.
Em especial, à CAPES que financiou toda essa pesquisa através de bolsas de estudo.
Agradeço, ainda, aos demais, que de forma direta ou indireta, estiveram
envolvidos na elaboração deste trabalho.
CAPÍTULO 1 - INTRODUÇÃO
1.1 - APRESENTAÇÃO DO TEMA E JUSTIFICATIVA
1.4 - LIMITAÇÕES DO RECONHECEDOR
CAPÍTULO 2 - FUNDAMENTAÇÃO
TEÓRICA
2.1 - A INTELIGÊNCIA ARTIFICIAL E O RECONHECIMENTO DE FALA
2.2 - A IMPORTÂNCIA DO RECONHECIMENTO DE FALA
2.3 - BREVE HISTÓRIA DO RECONHECIMENTO DE FALA
2.4 - O RECONHECIMENTO DE FALA E REDES NEURAIS ARTIFICIAIS
2.5 - OS PROBLEMAS DO RECONHECIMENTO DE FALA
CAPÍTULO 3 - O SOM
CAPÍTULO 4 - A VOZ HUMANA
4.1.1 - A estrutura e as frequências das palavras
4.2.1 - O processamento do som no ouvido humano
CAPÍTULO 5 - PROCESSAMENTO DO SINAL
DE SOM
5.1 - A CAPTURA DO SINAL DE SOM
5.1.1 - Conversão analógico-digital (A/D)
5.1.1.1 - O que é a conversão do sinal
5.1.1.2 - O som como sinal elétrico
5.1.1.3 - As regras da conversão A/D
5.1.1.4 - Teorema da amostragem
5.1.1.5 - Níveis de quantização
5.2 - O PROCESSAMENTO DO SINAL DE SOM
5.2.1 - Etapas do refinamento da informação
5.2.1.1 - Eliminação do ciclo negativo do sinal amostrado
5.2.1.2 - Redução do sinal amostrado detectando a forma de onda
5.2.1.3 - Mediação do sinal reduzido
5.2.1.4 - Normalização do sinal mediado
CAPÍTULO 6 - A REDE NEURAL DE KOHONEN
6.2 - O MECANISMO DA REDE NEURAL
6.3.2 - Os vizinhos do neurônio
6.3.3 - A adaptação dos neurônios (ajuste dos pesos)
6.3.5 - O algoritmo da rede neural
6.4 - AJUSTE FINO DA REDE NEURAL
6.5 - ALTA REPRESENTAÇÃO CORTICAL
Expansão da representação da informação
CAPÍTULO 7 - IMPLEMENTAÇÃO
DO RECONHECEDOR DE PALAVRAS FALADAS
7.1 - FASES DO DESENVOLVIMENTO DA APLICAÇÃO
7.2 - A ANÁLISE ORIENTADA A OBJETOS
7.2.2 - Análise Orientada a Objetos da Rede Neural
7.2.3 - Análise Orientada a Objetos do Conjunto de Treinamento
7.3 - IMPLEMENTAÇÃO DA REDE NEURAL DE KOHONEN EM LINGUAGEM C++
7.3.1 - Definição dos neurônios eletrônicos
7.3.1.1 - Classe-&-Classe Neurônio
7.3.1.2 - Classe-&-Objeto NeurônioEntrada
7.3.1.3 - Classe-&-Objeto NeurônioSaída
7.3.2 - Definição da rede neural eletrônica
7.3.2.1 - Vizinhos : um caso à parte
7.3.3 - Definição do Conjunto de Treinamento
7.3.4 - Treinamento e Ajuste Fino
7.4.1 - Principais características
7.4.2 - Limitações do software
7.4.3 - A Leitura do sinal de som
7.4.3.3 - O sinal de som digitalizado
7.4.3.4 - Início e fim das palavras
7.4.4 - Montando o conjunto de treinamento e de sintonia
7.4.5 - Treinamento, sintonia e teste da rede neural
CAPÍTULO 8 - TESTES DO RECONHECEDOR
8.1 - CONSIDERAÇÕES SOBRE OS TESTES
8.2 - RESULTADOS OBTIDOS PARA UM CONJUNTO DE 3 PALAVRAS
8.3 - RESULTADOS OBTIDOS PARA UM CONJUNTO DE 4 PALAVRAS
8.4 - RESULTADOS OBTIDOS PARA UM CONJUNTO DE 6 PALAVRAS
CAPÍTULO 9 - CONCLUSÕES E
RECOMENDAÇÕES
FIGURA 001 - Visão bidimensional da propagação do som a partir do foco de geração xxii
FIGURA 002 - O som como uma perturbação da pressão do meio ambiente xxiii
FIGURA 003 - Gráfico de uma onda longitudinal xxiv
FIGURA 004 - Defasagem de duas ondas sinusoidais xxiv
FIGURA 005 - Frequências diferentes xxv
FIGURA 006 - Sinal de frequência periódica com amplitude modulada xxvi
FIGURA 007 - Partes da envoltória da palavra "frio" xxvi
FIGURA 008 - Extração da envoltória xxvii
FIGURA 009 - Extração da envoltória da palavra "frio" xxvii
FIGURA 010 - Zoom da palavra "ciência" em 11000 Hz. xxx
FIGURA 011 - Ouvido humano xxxii
FIGURA 012 - Propagação do sinal xxxii
FIGURA 013 - Conversão analógico/digital xxxiv
FIGURA 014 - Função contínua xxxv
FIGURA 015 - Função amostrada xxxv
FIGURA 016 - Mapeamento em 8 bits xxxvi
FIGURA 017 - Onda contínua e amostragem xxxvi
FIGURA 018 - Onda plotada com os dados amostrados xxxvii
FIGURA 019 - Sinal amostrado durante 40 milisegundos a uma taxa de 11025 Hz com precisão de 8 bits (256 níveis de quantização). lxiii
FIGURA 020 - Sinal de voz e siêncio lxiv
FIGURA 021 - Fluxo do sinal amostrado xxxviii
FIGURA 022 - Exemplo de palavras com tempos e tamanhos diferentes xxxix
FIGURA 023 - Exemplo de mediação de 3 sinais em um sinal amostrado com 15 bytes. xl
FIGURA 024 - Representação gráfica do sinal antes e depois da mediação. xl
FIGURA 025 - Exemplo de modelo hexagonal xlii
FIGURA 026 - Exemplo de um mapa de Kohonen com neurônios de saída usados de forma bidimensional. Neste exemplo todas as entradas X0..XN estão conectadas com as saídas. xlii
FIGURA 027 - Conexões sinápticas de um neurônio de saída ligado a 4 entradas xliii
FIGURA 028 - Topologia de vizinhança nos diferentes tempos em que os mapas de medidas são formados. Vi(t) é o conjunto de neurônios considerados vizinhos do neurônio i no tempo t. xlivO conjunto de vizinhos inicia extenso e vagarosamente decresce em seu tamanho (0<t1<t2). xliv
FIGURA 029 - A importância da região do corpo na sensibilidade somática para diferentes espécies. xlvii
FIGURA 030 - Mapa com representação reduzida xlviii
FIGURA 031 - Mapa com representação ampliada xlviii
FIGURA 032 - Eixos da representação tridimensional xlix
FIGURA 033 - Um mapa de informação sob dois ângulos diferentes em dois momentos diferentes do treinamento. xlix
FIGURA 034 - Composição do reconhecedor li
FIGURA 035 - Generalização-Especialização e Todo -Parte liii
FIGURA 036 - Rede neural orientada a objetos liv
FIGURA 037 - Conjunto com elementos liv
FIGURA 038 - Comparação entre o som das palavras /abacate/ e /abacaxi/ lxix
FIGURA 039 - Comparação
dos sinais processados de lápis e copo com o sinal de clips (4 pontos
de mediação) lxxi
QUADRO 001 - CLASSE-&-CLASSE NEURONIO IMPLEMENTADA EM C++ 55
QUADRO 002 - CLASSE-&-OBJETO NEURONIOENTRADA IMPLEMENTADA EM C++ 55
QUADRO 003 - CLASSE-&-OBJETO NEURONIOSAIDA IMPLEMENTADA EM C++ 56
QUADRO 004 - CLASSE-&-OBJETO REDENEURAL IMPLEMENTADA EM C++ 56
QUADRO 005 - CLASSE-&-OBJETO ELEMENTO IMPLEMENTADA EM C++ 58
QUADRO 006 - CLASSE-&-OBJETO CONJUNTO IMPLEMENTADA EM C++ 58
QUADRO 007 - DEFINIÇÃO DOS DOIS MÉTODOS NA CLASSE-&-OBJETO REDENEURAL 59
QUADRO 008 - DEFINIÇÃO DO MÉTODO NA CLASSE-&-OBJETO REDENEURAL 59
QUADRO 009 - RESULTADOS FINAIS PARA CONJUNTO DE 3 PALAVRAS PRONUNCIADAS PELO MESMO LOCUTOR 68
QUADRO 010 - RESULTADOS FINAIS PARA CONJUNTO DE 4 PALAVRAS PRONUNCIADAS PELO MESMO LOCUTOR 69
QUADRO 011 - RESULTADOS FINAIS PARA CONJUNTO DE 6 PALAVRAS PRONUNCIADAS PELO MESMO LOCUTOR 71
QUADRO 012 - RESULTADOS FINAIS PARA CONJUNTO
DE 6 PALAVRAS PRONUNCIADAS PELO MESMO LOCUTOR 72
TELA 001 - Aplicação exibindo as operações disponíveis lx
TELA 002 - Aplicação dando entrada no conjunto de treinamento / sintonia lxiv
TELA 003 - Aplicação exibindo
o treinamento lxv
GRÁFICO 001 - EVOLUÇÃO DA TAXA DE ACERTO PARA 3 PALAVRAS 68
GRÁFICO 002 - EVOLUÇÃO DA TAXA DE ACERTO PARA 4 PALAVRAS 69
GRÁFICO 003 - EVOLUÇÃO DA TAXA DE ACERTO PARA 6 PALAVRAS 70
GRÁFICO 004 - EVOLUÇÃO DA TAXA DE ACERTO PARA 6 PALAVRAS 72