Skip to content

albuq-alexandre/stt_tts_iesb2020

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

35 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

stt_tts_iesb2020

STT & TTS Python/Flask/Js School Project using IBM Cloud

Badge Badge Badge Badge Badge Badge Heroku App Status

Tabela de Conteúdo:

Disciplina

P8902-IANA-Computação Cognitiva 2 - Interface do usuário baseada em voz
Professor: Rafael Brasileiro de Araujo

Alunos

  • Alexandre de Sousa Albuquerque
  • Celso de Melo
  • Juliano Ortigoso Gaspar

Sobre

O IBM Cloud STT/TTS - Interface para processamento de Áudio e Texto, é constituído pelos seguintes componentes:

  • O Navigator.getUserMedia() é um método de captura de mídias e áudios mediante uma solicitação de permissão ao usuário para usar um dispositivo de entrada de vídeo (câmera ou tela compartilhada) e de áudio (microfone) como a fonte de um MediaStream.

  • A API MediaStream Recording é uma API de gravação MediaStream que torna possível capturar os dados gerados por um objeto MediaStream ou HTMLMediaElement para a análise, o processamento ou o salvamento em disco.

  • O Watson Speech to Text (STT) é um serviço de cloud que possibilita a realização de transcrição de áudio em aplicativos por meio de uma API. Com o Watson Speech to Text (STT) é possível converter áudio em texto em mais de 15 idiomas incluindo Português, Inglês, Espanhol e Mandarim, que podem ser utilizados em diferentes cenários como em chatbots automatizados com opção de voz, ferramentas de análise para dados de call-centers e transcrições multimídia.

  • O Watson Text to Speech (TTS) pode sintetizar texto em áudios de diferentes formatos, pode produzir vozes masculinas e femininas em diferentes idiomas e dialetos. Oferece vozes neuronais concatenativas e melhoradas. O potencial do SSML se estende para permitir o controle da entonação da expressão e para proporcionar capacidades de transformação de voz que podem ampliar a gama de vozes, controlando aspectos como o tom, a velocidade e o timbre.

  • MDN Web-Dictaphone, by chrisdavidmills.

  • Osciloscópio, cortesia da Sole.

  • Ícones, cortesia do Find Icons.

Instalação local

 pip install -r requirements.txt  

Run app

 python app.py runserver 0.0.0.0:5000  

Como Usar

O aplicativo está disponível no seguinte endereço:

IBM Cloud STT/TTS - Interface para processamento de Áudio e Texto

Pré-requisitos

Será solicitado a permissão para uso do microfone. Selecione PERMITIR para usar o app.

Gravar

  1. Use o botão "Gravar" para iniciar a captura do áudio do microfone. “Converter em Texto ou Voz” executará as conversões para texto ou voz conforme as opções “Gravar” ou “Digitar” tiverem sido selecionadas;
  2. Clique no botão "Parar a Gravação" para encerrar a captura de áudio;
  3. Selecione um nome para o áudio gravado. Clique no botão Ok para continuar;
  4. Clique no botão Transcrever abaixo do controle do áudio pra usar a função STT. O Áudio convertido em texto deve aparecer após alguns segundos no campo "Resposta IBM Cloud";
  5. Ouça o áudio para disponibilizar menu download;

Digitar

  1. Clique no botão "Digitar" para que uma caixa de texto apareça na tela;
  2. Digite nessa caixa o texto que deseja converter em voz;
  3. Clique no botão "Converter em voz" para obter o áudio;
  4. Ouça o novo áudio que apareceu na tela para habilitar o menu download.

Help

  1. Clique no botão "?" no canto superior direito para ler "Sobre" o aplicativo.

Tecnologias

Esse projeto usa Python, Flask e Javascript para integrar as API's citadas no tópico "Sobre". Usa o PaaS Heroku para publicação do app na web.

About

STT & TTS Python school project IBM Cloud

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published