STT & TTS Python/Flask/Js School Project using IBM Cloud
Tabela de Conteúdo:P8902-IANA-Computação Cognitiva 2 - Interface do usuário baseada em voz
Professor: Rafael Brasileiro de Araujo
- Alexandre de Sousa Albuquerque
- Celso de Melo
- Juliano Ortigoso Gaspar
O IBM Cloud STT/TTS - Interface para processamento de Áudio e Texto, é constituído pelos seguintes componentes:
-
O Navigator.getUserMedia() é um método de captura de mídias e áudios mediante uma solicitação de permissão ao usuário para usar um dispositivo de entrada de vídeo (câmera ou tela compartilhada) e de áudio (microfone) como a fonte de um MediaStream.
-
A API MediaStream Recording é uma API de gravação MediaStream que torna possível capturar os dados gerados por um objeto MediaStream ou HTMLMediaElement para a análise, o processamento ou o salvamento em disco.
-
O Watson Speech to Text (STT) é um serviço de cloud que possibilita a realização de transcrição de áudio em aplicativos por meio de uma API. Com o Watson Speech to Text (STT) é possível converter áudio em texto em mais de 15 idiomas incluindo Português, Inglês, Espanhol e Mandarim, que podem ser utilizados em diferentes cenários como em chatbots automatizados com opção de voz, ferramentas de análise para dados de call-centers e transcrições multimídia.
-
O Watson Text to Speech (TTS) pode sintetizar texto em áudios de diferentes formatos, pode produzir vozes masculinas e femininas em diferentes idiomas e dialetos. Oferece vozes neuronais concatenativas e melhoradas. O potencial do SSML se estende para permitir o controle da entonação da expressão e para proporcionar capacidades de transformação de voz que podem ampliar a gama de vozes, controlando aspectos como o tom, a velocidade e o timbre.
-
MDN Web-Dictaphone, by chrisdavidmills.
-
Osciloscópio, cortesia da Sole.
-
Ícones, cortesia do Find Icons.
pip install -r requirements.txt
python app.py runserver 0.0.0.0:5000
O aplicativo está disponível no seguinte endereço:
IBM Cloud STT/TTS - Interface para processamento de Áudio e Texto
Será solicitado a permissão para uso do microfone. Selecione PERMITIR para usar o app.
- Use o botão "Gravar" para iniciar a captura do áudio do microfone. “Converter em Texto ou Voz” executará as conversões para texto ou voz conforme as opções “Gravar” ou “Digitar” tiverem sido selecionadas;
- Clique no botão "Parar a Gravação" para encerrar a captura de áudio;
- Selecione um nome para o áudio gravado. Clique no botão Ok para continuar;
- Clique no botão Transcrever abaixo do controle do áudio pra usar a função STT. O Áudio convertido em texto deve aparecer após alguns segundos no campo "Resposta IBM Cloud";
- Ouça o áudio para disponibilizar menu download;
- Clique no botão "Digitar" para que uma caixa de texto apareça na tela;
- Digite nessa caixa o texto que deseja converter em voz;
- Clique no botão "Converter em voz" para obter o áudio;
- Ouça o novo áudio que apareceu na tela para habilitar o menu download.
- Clique no botão "?" no canto superior direito para ler "Sobre" o aplicativo.
Esse projeto usa Python, Flask e Javascript para integrar as API's citadas no tópico "Sobre". Usa o PaaS Heroku para publicação do app na web.