Mô tả

A área de Processamento de Linguagem Natural - PLN (Natural Language Processing - NLP) é uma subárea da Inteligência Artificial que tem como objetivo tornar os computadores capazes de entender a linguagem humana, tanto escrita quanto falada. Alguns exemplo de aplicações práticas são: tradutores entre idiomas, tradução de texto para fala ou fala para texto, chatbots, sistemas automáticos de perguntas e respostas, sumarização de textos, geração automática de descrições para imagens, adição de legendas em vídeos, classificação de sentimentos em frases e áudios, dentre várias outras! Dentro desta área existe a classificação de áudio, que consiste em identificar sons específicos em áudios. Alguns exemplos são: identificação de sons do ambiente (carros, buzina, latidos, sirenes, etc), classificação de estilos musicais, transcrição de texto, reconhecimento de emoções pela fala e reconhecimento de comandos de voz, muito utilizado pelos assistentes virtuais.

Atualmente, o setor comercial está cada vez mais necessitando de soluções de Processamento de Linguagem Natural voltadas ao áudio, ou seja, aprender essa área pode ser a chave para trazer soluções reais para necessidades presentes e futuras. Baseado nisso, este curso foi projetado para quem deseja crescer ou iniciar uma nova carreira na área de Processamento de Linguagem Natural, trabalhando especificamente com a classificação de arquivos de áudio! O curso está dividido em sete partes:


  • Na parte 1 você aprenderá os conceitos teóricos sobre a área de áudio, como por exemplo: o que são sinais de áudio, sinal analógico e digital, amplitude, ondas, frequência, decibel, taxa de amostragem e principalmente, como representar o áudio para ser enviado para algoritmos de aprendizagem de máquina

  • Na parte 2 serão implementados na prática vários dos conceitos abordados na primeira parte! Alguns exemplos são: carregamento e execução de arquivos de áudio, separação harmônica-percursiva, sintetização de cliques, Transformada de Fourier, Coeficiente Cepstral de Frequência Mel e geração de gráfico de ondas e espectrogramas. Ao final deste módulo, você saberá como extrair dados dos áudios para envio para algoritmos de aprendizagem de máquina. Será utilizada a biblioteca Librosa

  • Na parte 3, vamos utilizar a base UrbanSound8K para classificar os seguintes sons ambientais: ar condicionado, buzina de carro, crianças brincando, latidos de cachorro, perfuração, motor em marcha lenta, tiros de arma, britadeira, sirene e música de rua. Faremos o treinamento de uma rede neural convolucional utilizando o TensorFlow, e ao final, vamos enviar um áudio e a rede neural será capaz de classificar qualquer uma dessas categorias

  • Na parte 4, vamos utilizar a arquitetura pré-treinada YAMNet para classificar 521 diferentes eventos de áudio! Logo após, utilizaremos transferência de aprendizagem para classificar o canto de 5 espécies diferentes de pássaros

  • Na parte 5 utilizarmos a base de dados RAVDESS para classificar as seguintes emoções de áudios: tristeza, surpresa, nojo, neutro, medo, felicidade e calmo

  • Na parte 6 você entenderá o básico sobre como funciona um assistente de voz! Por meio da base mini-speech-commands, vamos treinar uma rede neural para classificar 8 tipos diferentes de comandos

  • Por fim, na parte 7 utilizaremos a biblioteca SpeechRecognition para realizar a transcrição de áudio, ou seja, você fala e o algoritmo faz a transcrição em formato textual!

Todos os códigos serão implementados passo a passo, com detalhes e utilizando o Google Colab. Com isso, você não precisa se preocupar com instalações e configurações de softwares na sua própria máquina! São mais de 90 aulas e mais de 12 horas de vídeos passo a passo!

Bạn sẽ học được gì

Entender os principais conceitos relacionados à processamento de áudio, como: taxa de amostragem, amplitude, ondas, frequência, decibel, dentre outros

Como utilizar a Transformada de Fourier e o Coeficiente Cepstral de Frequência Mel (MFCC) para extrair características de áudios

Visualizar o gráfico de onda e espectrogramas de arquivos de áudio

Treinar redes neurais convolucionais com o TensorFlow para classificar diversos tipos de áudios

Classificar 10 categorias de sons ambientais: ar condicionado, buzina, crianças, latido, perfuração, motor, tiro de arma, britadeira, sirene e música de rua

Utilizar a arquitetura YAMNet para classificar 521 eventos de aúdio

Treinar a arquitetura YAMNet utilizando transferência de aprendizagem para classificar o canto de 5 espécies de pássaros

Classificar 10 emoções pela fala: tristeza, surpresa, nojo, neutro, nervosismo, medo, felicidade e calmo

Treinar uma rede neural para classificar 8 comandos de voz

Transcrição de áudio utilizando a biblioteca SpeechRecognition

Transcrever áudios do WhatsApp

Yêu cầu

  • Lógica de programação
  • Programação básica em Python
  • Conhecimentos sobre Machine Learning são desejáveis mas não obrigatórios

Nội dung khoá học

10 sections

Introdução

8 lectures
Conteúdo do curso
13:19
Mais sobre Inteligência Artificial
00:11
Recursos para download
00:12
Classificação de áudio
04:25
O que são sinais de áudio
13:16
Amostragem do sinal de áudio
05:54
Tipos de sinais de áudio
14:01
Extração de recursos de áudio
07:57

Carregamento e processamento de áudio

16 lectures
Introdução
02:22
Importação das bibliotecas
06:31
Carregamento de arquivo mono
10:30
Carregamento de arquivo stereo
04:36
Taxa de amostragem
03:51
Tipos de reamostragem
04:52
Separação harmônico-percussiva
06:22
Detecção de início e sintetização de click
11:15
Gráfico de onda (wave plot)
03:15
Transformada de Fourier - intuição
09:10
Transformada de Fourier com Librosa
14:50
Visualização de espectrograma
09:11
Coeficiente Cepstral de Frequência Mel (MFCC)
08:43
MFCCs com Librosa
06:36
Espectrograma em decibéis
04:41
Normalização média cepstral
09:26

Classificações de sons ambientais

15 lectures
Introdução
02:10
Importação das bibliotecas
09:02
Base de dados UrbanSound8K 1
04:48
Base de dados UrbanSound8K 2
15:51
Base de dados UrbanSound8K 3
04:47
Visualização dos dados
04:16
Gráfico de ondas
12:26
Espectrogramas de STFT
05:16
Espectrogramas de MFCCs
02:50
Extração de características MFCCs
06:07
Preparação dos dados
12:01
Estrutura da rede neural
11:40
Treinamento da rede neural
05:06
Avaliação da rede neural
19:10
Testes com arquivos de áudio
16:00

Classificação de sons com YAMNet

13 lectures
Introdução
01:57
Eventos de áudio 1
05:25
Eventos de áudio 2
07:26
Eventos de áudio 3
11:27
Eventos de áudio 4
11:21
Canto de pássaros 1
08:29
Canto de pássaros 2
10:52
Canto de pássaros 3
07:29
Canto de pássaros 4
05:55
Canto de pássaros 5
11:53
Canto de pássaros 6
06:19
Canto de pássaros 7
11:11
Canto de pássaros 8
15:00

Classificação de emoções pela fala

9 lectures
Introdução
01:14
Base de dados RAVDESS
09:09
Tratamento da base de dados
12:18
Visualização dos dados
03:26
Gráfico de ondas e espectrogramas
03:38
Extração de características MFCCs
05:15
Construção e treinamento da rede neural
03:54
Avaliação da rede neural
05:59
Testes com arquivos de áudio
05:22

Reconhecimento de comandos de voz

9 lectures
Introdução
01:07
Base mini speech commands 1
08:57
Base mini speech commands 2
10:53
Visualização dos dados
07:33
Extração das características MFCCs
03:45
Preparação dos dados
10:47
Construção e treinamento da rede neural
11:16
Avaliação da rede neural
06:02
Testes com arquivos de áudio
08:38

Transcrição de áudio

6 lectures
Introdução
01:32
Transcrição com speech recognition - bibliotecas
06:38
Transcrição com speech recognition - primeiro teste
07:51
Transcrição com speech recognition - remoção de ruído
04:07
Transcrição com speech recognition - microfone
07:45
Transcrição com speech recognition - WhatsApp
09:46

ANEXO 1: Redes neurais artificiais

8 lectures
Fundamentos biológicos
04:47
Perceptron de uma camada
17:51
Redes multicamada - função soma e ativação
11:01
Redes multicamada - cálculo do erro
04:21
Descida do gradiente
07:47
Cálculo do parâmetro delta
08:58
Ajuste dos pesos com backpropagation
14:11
Bias, erro, descida do gradiente estocástica e mais parâmetros
16:55

ANEXO 2: Redes neurais convolucionais

7 lectures
Introdução a redes neurais convolucionais 1
13:16
Introdução a redes neurais convolucionais 2
10:28
Etapa 1 – operador de convolução (introdução)
06:53
Etapa 1 – operador de convolução (cálculos)
13:23
Etapa 2 – pooling
07:55
Etapa 3 – flattening
06:39
Etapa 4 – rede neural densa
07:38

Considerações finais

2 lectures
Considerações finais
01:51
AULA BÔNUS
02:55

Đánh giá của học viên

Chưa có đánh giá
Course Rating
5
0%
4
0%
3
0%
2
0%
1
0%

Bình luận khách hàng

Viết Bình Luận

Bạn đánh giá khoá học này thế nào?

image

Đăng ký get khoá học Udemy - Unica - Gitiho giá chỉ 50k!

Get khoá học giá rẻ ngay trước khi bị fix.