Real Voice is a versatile text-to-speech plugin for WordPress. It supports all major text-to-speech services in one convenient package.
It comes with a customizable audio player, a dedicated dashboard to monitor API calls to text-to-speech services, and plenty of customization options.
Text-to-speech services supported
SPEECHSYNTHESIS (WEB SPEECH API)
This option allows you to use the text-to-speech features included in your browser without subscribing to a cloud service.
Technically, text-to-speech conversion is accomplished using the SpeechSynthesis interface of the Web Speech API . Speech synthesis has now become a viable solution for any production website, as all major browsers now support it.
The customization options provided by SpeechSynthesis are available in the Real Voice plugin settings:
- Language – With this option, you can select the language of the statement.
- Voice – Select one of the voices available in the user’s browser.
- Pitch – The pitch value determines the perceived “loudness” or “lowness” of the generated voice.
- Rate – Select the speed at which the statement should be spoken.
- Volume – This determines the volume value
AMAZON POLLY
Amazon Polly is a cloud service that converts text to spoken audio that is part of Amazon Web Services (AWS) .
It supports a wide selection of standard (TTS) and neural (NTTS) voices for almost all languages.
In the Real Voice plugin, we’ve included all the essential options to get the most out of Amazon Polly. Specifically, you’ll be able to configure:
- AWS Region – The AWS region you prefer to use.
- Voice ID – Select one of the many voices available on Amazon Polly.
- Motor – Selecione entre Padrão e Neural. Recomendamos o uso do mecanismo Neural para produzir vozes de texto para fala mais naturais e humanas possíveis.
- Código de idioma – selecione um dos códigos de idioma suportados pelo Amazon Polly.
- Nomes de léxicos – Aqui você pode definir os nomes de léxicos que deseja aplicar durante a síntese.
- Formato de saída – Você pode selecionar entre mp3 ou ogg_vorbis.
- Taxa de amostragem – Várias taxas de amostragem estão disponíveis.
- Tipo de texto – Texto simples ou SSML são suportados.
Para obter mais informações, consulte os recursos do Amazon Polly aqui .
IA DE CONVERSÃO DE TEXTO EM FALA DO GOOGLE
Text-to-Speech AI é um serviço disponível no Google Cloud que converte texto em fala com som natural usando uma API desenvolvida com o melhor das tecnologias de IA do Google.
Este serviço suporta um grande número de vozes e idiomas . O Google categoriza as vozes com base na tecnologia usada para produzi-las. Detalhes técnicos sobre isso estão disponíveis aqui .
É fácil configurar o áudio gerado pelo Google Text-to-Speech AI com as opções incluídas nas configurações do Real Voice:
- Codificação de Áudio – Esta opção permite selecionar a codificação dos arquivos de áudio.
- Taxa de fala – Aqui, você pode selecionar a velocidade com que a expressão é falada.
- Tom – Selecione o agudo ou grave relativo da voz.
- Ganho – O ganho de volume aplicado ao áudio produzido.
- ID do perfil de efeitos – Com esta opção, você pode aplicar perfis de áudio específicos à fala gerada.
- Código do idioma – Aqui você pode selecionar o idioma do enunciado.
- Nome da voz – Use este campo para escolher uma das muitas vozes que o serviço oferece.
TEXTO DO AZURE PARA FALA
Texto em fala é um serviço disponível no Microsoft Azure que converte texto em fala realista.
Este poderoso serviço vem com uma grande variedade de vozes que você pode testar na galeria de vozes .
Vamos ver as opções de conversão de texto em fala do Azure incluídas no plugin Real Voice:
- Região – Selecione a região do Azure que melhor atende às suas necessidades.
- User Agent – Valor customizado utilizado para identificar as solicitações realizadas pelo plugin Real Voice ao serviço em nuvem.
- Formato de saída – O formato no qual os arquivos de áudio devem ser codificados. Esta opção determina a qualidade e o espaço ocupado pelos arquivos de áudio gerados.
ONZELABS
ElevenLabs is a software company that develops natural-sounding speech synthesis and text-to-speech software using artificial intelligence and deep learning.
This service can generate audio in multiple languages using the following AI models .
In Real Voice, we’ve included these options from ElevenLabs:
- Voice ID – This option determines the voice to be used.
- Optimize streaming latency – Use this option to optimize the AI generative process.
- Stability – Select how stable the voice and randomness are between each generation.
- Similarity Boost – Optimize for clear, artifact-free voices or enhance speaker similarity.
- Style – Select the voice style.
Plugin Manual
Please refer to the knowledge base for instructions on how to install, update, and use the plugin.