Universidade Federal de Santa Catarina

Programa de Pós-Graduação em Engenharia de Produção


MALCON ANDERSON TAFNER



RECONHECIMENTO DE PALAVRAS FALADAS ISOLADAS

USANDO REDES NEURAIS ARTIFICIAIS








Dissertação submetida à Universidade Federal de Santa Catarina para obtenção do Grau de Mestre em Engenharia







Florianópolis, janeiro de 1996.


RECONHECIMENTO DE PALAVRAS FALADAS ISOLADAS

USANDO REDES NEURAIS ARTIFICIAIS


MALCON ANDERSON TAFNER



Esta dissertação foi julgada adequada para obtenção do Título de "Mestre em Engenharia".

Especialidade em Engenharia de Produção e aprovada em sua forma final pelo Programa de Pós-Graduação em Engenharia de Produção.

Prof. Ricardo Miranda Bárcia, Ph. D.

Coordenador do Curso


Banca Examinadora :

Prof. Ricardo Miranda Bárcia, Ph. D.

Orientador

Prof. Fernando Gauthier, Dr.

Prof. Oscar Ciro Lopez Vaca, Dr.



DEDICATÓRIA

Dedico esta dissertação à minha grande amiga Julianne Fischer, meus pais, José e Verônica, e meus irmãos, Marlon, Marlen e Marylin.

E em especial, a alguém muito especial, Marylin Ítala Tafner.


AGRADECIMENTOS

Ao meu orientador, Professor Ricardo Miranda Barcia, que sempre empenhou seus esforços em se posicionar ao lado dos seus orientandos.

À Julianne Fischer, minha companheira nas horas felizes e difíceis, pela paciência, pela compreensão e pela ajuda que dedicou a este trabalho, ora como revisora, e ora como orientadora.

Aos amigos José Gonçalves, Adalberto Gassenferth e Ilson Rodrigues Filho pelas revisões e pelo apoio.

Ao amigo Altamir Borges, por explicações relativas à aquisição e ao tratamento do sinal digital.

À Universidade Federal de Santa Catarina pela oportunidade de desenvolvimento desta pesquisa.

À Universidade Regional de Blumenau pelo apoio financeiro concedido para divulgar os resultados desta pesquisa em congressos pelo país.

Aos professores do curso de Pós-graduação em Eng. de Produção pelas experiências e conhecimentos compartilhados.

Em especial, à CAPES que financiou toda essa pesquisa através de bolsas de estudo.

Agradeço, ainda, aos demais, que de forma direta ou indireta, estiveram envolvidos na elaboração deste trabalho.


SUMÁRIO

LISTA DE FIGURAS

LISTA DE QUADROS

LISTA DE TELAS

LISTA DE GRÁFICOS

RESUMO

ABSTRACT


CAPÍTULO 1 - INTRODUÇÃO

1.1 - APRESENTAÇÃO DO TEMA E JUSTIFICATIVA

1.2 - OBJETIVOS

1.2.1 - Objetivos Gerais

1.2.2 - Objetivos Específicos

1.3 - ESTRUTURA DO TRABALHO

1.4 - LIMITAÇÕES DO RECONHECEDOR


CAPÍTULO 2 - FUNDAMENTAÇÃO TEÓRICA

2.1 - A INTELIGÊNCIA ARTIFICIAL E O RECONHECIMENTO DE FALA

2.2 - A IMPORTÂNCIA DO RECONHECIMENTO DE FALA

2.3 - BREVE HISTÓRIA DO RECONHECIMENTO DE FALA

2.4 - O RECONHECIMENTO DE FALA E REDES NEURAIS ARTIFICIAIS

2.5 - OS PROBLEMAS DO RECONHECIMENTO DE FALA


CAPÍTULO 3 - O SOM

3.1 - CONCEITO DE SOM

3.2 - O GRÁFICO DA ONDA

3.3 - MODULAÇÃO

3.4 - A ENVOLTÓRIA


CAPÍTULO 4 - A VOZ HUMANA

4.1 - O SINAL DE VOZ

4.1.1 - A estrutura e as frequências das palavras

4.2 - MECANISMO DE AUDIÇÃO

4.2.1 - O processamento do som no ouvido humano


CAPÍTULO 5 - PROCESSAMENTO DO SINAL DE SOM

5.1 - A CAPTURA DO SINAL DE SOM

5.1.1 - Conversão analógico-digital (A/D)

5.1.1.1 - O que é a conversão do sinal

5.1.1.2 - O som como sinal elétrico

5.1.1.3 - As regras da conversão A/D

5.1.1.4 - Teorema da amostragem

5.1.1.5 - Níveis de quantização

5.2 - O PROCESSAMENTO DO SINAL DE SOM

5.2.1 - Etapas do refinamento da informação

5.2.1.1 - Eliminação do ciclo negativo do sinal amostrado

5.2.1.2 - Redução do sinal amostrado detectando a forma de onda

5.2.1.3 - Mediação do sinal reduzido

5.2.1.4 - Normalização do sinal mediado


CAPÍTULO 6 - A REDE NEURAL DE KOHONEN

6.1 - UM PARADIGMA TOPOLÓGICO

6.2 - O MECANISMO DA REDE NEURAL

6.3 - A REDE NEURAL

6.3.1 - O neurônio

6.3.2 - Os vizinhos do neurônio

6.3.3 - A adaptação dos neurônios (ajuste dos pesos)

6.3.4 - Iterações

6.3.5 - O algoritmo da rede neural

6.3.6 - Atribuição de rótulos

6.4 - AJUSTE FINO DA REDE NEURAL

6.5 - ALTA REPRESENTAÇÃO CORTICAL

Expansão da representação da informação


CAPÍTULO 7 - IMPLEMENTAÇÃO DO RECONHECEDOR DE PALAVRAS FALADAS

7.1 - FASES DO DESENVOLVIMENTO DA APLICAÇÃO

7.2 - A ANÁLISE ORIENTADA A OBJETOS

7.2.1 - Conceitos chaves

7.2.2 - Análise Orientada a Objetos da Rede Neural

7.2.3 - Análise Orientada a Objetos do Conjunto de Treinamento

7.3 - IMPLEMENTAÇÃO DA REDE NEURAL DE KOHONEN EM LINGUAGEM C++

7.3.1 - Definição dos neurônios eletrônicos

7.3.1.1 - Classe-&-Classe Neurônio

7.3.1.2 - Classe-&-Objeto NeurônioEntrada

7.3.1.3 - Classe-&-Objeto NeurônioSaída

7.3.2 - Definição da rede neural eletrônica

7.3.2.1 - Vizinhos : um caso à parte

7.3.3 - Definição do Conjunto de Treinamento

7.3.4 - Treinamento e Ajuste Fino

7.3.5 - Teste da rede neural

7.4 - O RECONHECEDOR

7.4.1 - Principais características

7.4.2 - Limitações do software

7.4.3 - A Leitura do sinal de som

7.4.3.1 - A interface

7.4.3.2 - Conversão do sinal

7.4.3.3 - O sinal de som digitalizado

7.4.3.4 - Início e fim das palavras

7.4.4 - Montando o conjunto de treinamento e de sintonia

7.4.5 - Treinamento, sintonia e teste da rede neural


CAPÍTULO 8 - TESTES DO RECONHECEDOR

8.1 - CONSIDERAÇÕES SOBRE OS TESTES

8.2 - RESULTADOS OBTIDOS PARA UM CONJUNTO DE 3 PALAVRAS

8.3 - RESULTADOS OBTIDOS PARA UM CONJUNTO DE 4 PALAVRAS

8.4 - RESULTADOS OBTIDOS PARA UM CONJUNTO DE 6 PALAVRAS


CAPÍTULO 9 - CONCLUSÕES E RECOMENDAÇÕES


BIBLIOGRAFIA

LIVROS, REVISTAS, ARTIGOS,...

CINEMATOGRAFIA

PROGRAMAS DE COMPUTADOR

ENTREVISTAS


ANEXO I

ANEXO II

ANEXO III

ANEXO IV

ANEXO V

ANEXO VI

ANEXO VII

ANEXO VIII

ANEXO IX

ANEXO X

ANEXO XI

ANEXO XII


LISTA DE FIGURAS

FIGURA 001 - Visão bidimensional da propagação do som a partir do foco de geração xxii

FIGURA 002 - O som como uma perturbação da pressão do meio ambiente xxiii

FIGURA 003 - Gráfico de uma onda longitudinal xxiv

FIGURA 004 - Defasagem de duas ondas sinusoidais xxiv

FIGURA 005 - Frequências diferentes xxv

FIGURA 006 - Sinal de frequência periódica com amplitude modulada xxvi

FIGURA 007 - Partes da envoltória da palavra "frio" xxvi

FIGURA 008 - Extração da envoltória xxvii

FIGURA 009 - Extração da envoltória da palavra "frio" xxvii

FIGURA 010 - Zoom da palavra "ciência" em 11000 Hz. xxx

FIGURA 011 - Ouvido humano xxxii

FIGURA 012 - Propagação do sinal xxxii

FIGURA 013 - Conversão analógico/digital xxxiv

FIGURA 014 - Função contínua xxxv

FIGURA 015 - Função amostrada xxxv

FIGURA 016 - Mapeamento em 8 bits xxxvi

FIGURA 017 - Onda contínua e amostragem xxxvi

FIGURA 018 - Onda plotada com os dados amostrados xxxvii

FIGURA 019 - Sinal amostrado durante 40 milisegundos a uma taxa de 11025 Hz com precisão de 8 bits (256 níveis de quantização). lxiii

FIGURA 020 - Sinal de voz e siêncio lxiv

FIGURA 021 - Fluxo do sinal amostrado xxxviii

FIGURA 022 - Exemplo de palavras com tempos e tamanhos diferentes xxxix

FIGURA 023 - Exemplo de mediação de 3 sinais em um sinal amostrado com 15 bytes. xl

FIGURA 024 - Representação gráfica do sinal antes e depois da mediação. xl

FIGURA 025 - Exemplo de modelo hexagonal xlii

FIGURA 026 - Exemplo de um mapa de Kohonen com neurônios de saída usados de forma bidimensional. Neste exemplo todas as entradas X0..XN estão conectadas com as saídas. xlii

FIGURA 027 - Conexões sinápticas de um neurônio de saída ligado a 4 entradas xliii

FIGURA 028 - Topologia de vizinhança nos diferentes tempos em que os mapas de medidas são formados. Vi(t) é o conjunto de neurônios considerados vizinhos do neurônio i no tempo t. xlivO conjunto de vizinhos inicia extenso e vagarosamente decresce em seu tamanho (0<t1<t2). xliv

FIGURA 029 - A importância da região do corpo na sensibilidade somática para diferentes espécies. xlvii

FIGURA 030 - Mapa com representação reduzida xlviii

FIGURA 031 - Mapa com representação ampliada xlviii

FIGURA 032 - Eixos da representação tridimensional xlix

FIGURA 033 - Um mapa de informação sob dois ângulos diferentes em dois momentos diferentes do treinamento. xlix

FIGURA 034 - Composição do reconhecedor li

FIGURA 035 - Generalização-Especialização e Todo -Parte liii

FIGURA 036 - Rede neural orientada a objetos liv

FIGURA 037 - Conjunto com elementos liv

FIGURA 038 - Comparação entre o som das palavras /abacate/ e /abacaxi/ lxix

FIGURA 039 - Comparação dos sinais processados de lápis e copo com o sinal de clips (4 pontos de mediação) lxxi


LISTA DE QUADROS

QUADRO 001 - CLASSE-&-CLASSE NEURONIO IMPLEMENTADA EM C++ 55

QUADRO 002 - CLASSE-&-OBJETO NEURONIOENTRADA IMPLEMENTADA EM C++ 55

QUADRO 003 - CLASSE-&-OBJETO NEURONIOSAIDA IMPLEMENTADA EM C++ 56

QUADRO 004 - CLASSE-&-OBJETO REDENEURAL IMPLEMENTADA EM C++ 56

QUADRO 005 - CLASSE-&-OBJETO ELEMENTO IMPLEMENTADA EM C++ 58

QUADRO 006 - CLASSE-&-OBJETO CONJUNTO IMPLEMENTADA EM C++ 58

QUADRO 007 - DEFINIÇÃO DOS DOIS MÉTODOS NA CLASSE-&-OBJETO REDENEURAL 59

QUADRO 008 - DEFINIÇÃO DO MÉTODO NA CLASSE-&-OBJETO REDENEURAL 59

QUADRO 009 - RESULTADOS FINAIS PARA CONJUNTO DE 3 PALAVRAS PRONUNCIADAS PELO MESMO LOCUTOR 68

QUADRO 010 - RESULTADOS FINAIS PARA CONJUNTO DE 4 PALAVRAS PRONUNCIADAS PELO MESMO LOCUTOR 69

QUADRO 011 - RESULTADOS FINAIS PARA CONJUNTO DE 6 PALAVRAS PRONUNCIADAS PELO MESMO LOCUTOR 71

QUADRO 012 - RESULTADOS FINAIS PARA CONJUNTO DE 6 PALAVRAS PRONUNCIADAS PELO MESMO LOCUTOR 72


LISTA DE TELAS

TELA 001 - Aplicação exibindo as operações disponíveis lx

TELA 002 - Aplicação dando entrada no conjunto de treinamento / sintonia lxiv

TELA 003 - Aplicação exibindo o treinamento lxv


LISTA DE GRÁFICOS

GRÁFICO 001 - EVOLUÇÃO DA TAXA DE ACERTO PARA 3 PALAVRAS 68

GRÁFICO 002 - EVOLUÇÃO DA TAXA DE ACERTO PARA 4 PALAVRAS 69

GRÁFICO 003 - EVOLUÇÃO DA TAXA DE ACERTO PARA 6 PALAVRAS 70

GRÁFICO 004 - EVOLUÇÃO DA TAXA DE ACERTO PARA 6 PALAVRAS 72