Boa tarde,
Hoje fui à Mauser comprar o Assistente de Voz Okay Nabu e estava a tentar o integrar totalmente de forma local mas está a ser uma luta.
A minha ideia seria de usar o Speech-to-text local e, se necessário, usar a OpenAI para responder àquelas perguntas mais complexas.
O problema parece ser mesmo o faster-whisper não ser bom para pt-pt. A taxa de sucesso é de 2/10 o que não é aceitável, só mesmo falando calmamente e perto dos micros é que percebe qualquer coisa.
Entretanto experimentei o speech-to-text da cloud da Nabu Casa (Home Assistant Cloud) e parece funcionar perfeitamente! Mesmo ao longe ele percebe tudo. Solução ideal mas infelizmente é paga e não muito eficiente estar a enviar voz para a cloud tendo capacidade local de a processar.
Com isto, gostaria de saber como estão a configurar a voz nos vossos sistemas?
- Qual o vosso Speech-to-text para pt-pt?
- Conseguem correr tudo localmente?
- Qual o melhor Speech-to-text na vossa opinião?
- Quais as vozes que usam?
- Que entidades estão a usar como agente para os comandos de voz?
- Usam apenas Alias para as vossas entidades?
Agradeço desde já qualquer partilha de experiências ou sugestões para melhorar a integração local deste sistema. Fico a aguardar as vossas opiniões!