- Gravação e upload no YouTube
Como Usar o Serviço de Fala para Texto do Microsoft Azure
Você está cansado de digitar textos manualmente em editores de documentos como o Word e o Bloco de Notas? Use o serviço de fala para texto da Microsoft. Este serviço foi lançado em 2020 juntamente com o serviço de conversão de texto em fala, que inclui vozes famosas geradas por computador, como Microsoft Sam e seu irmão, Mike. Portanto, nesta breve leitura, você aprenderá o que é o serviço de conversão de fala para texto do Microsoft Azure e seus recursos. Também apresentarei as melhores alternativas de STT do Microsoft Azure. Vamos nos acotovelar!
Neste artigo
Parte 1: O que é o Microsoft Azure e o Speech Studio?
O Microsoft Azure STT e o TTS fazem parte do Microsoft Cognitive Services Speech. Esses serviços cognitivos apresentam inteligência de última geração que abrange reconhecimento de voz, reconhecimento de alto-falante, tradução automática e OCR (Reconhecimento Óptico de Caracteres). O serviço de conversão de fala em texto da Microsoft usa o Azure Machine Learning (Azure ML) para reconhecer, analisar e converter automaticamente vozes humanas em textos editáveis e pesquisáveis.
Dito isto, o Azure STT permite-lhe transcrever streaming de áudio, comentários de microfone ou ficheiros de áudio locais. Ele suporta mais de 100 idiomas, incluindo inglês, alemão, francês, suaíli, hindi, ucraniano, turco, árabe e muito mais. Lembre-se de que este serviço também suporta transcrição em lote, permitindo que você transcreva vários áudios em lote.
Enquanto isso, o Azure STT está disponível em vários formatos, incluindo o SDK de Fala. O Speech SDK (Software Development Kit) permite que você use linguagens de programação populares para criar um aplicativo habilitado para fala. É compatível com Java, JavaScript, Python, Visual Studio C++, Swift e Objective-C.
Se você não é bom com linguagens de programação, use a CLI de Fala, uma ferramenta de comando que permite usar o serviço de reconhecimento de fala sem inserir um código. Simplificando, ele possui uma configuração mínima com requisitos precisos. Além disso, ele apresenta praticamente tudo o que você encontrará no Speech SDK. Então, depende de suas habilidades e preferências.
Também vale a pena notar que o Azure Speech Studio dá suporte ao reconhecimento de palavras-chave ou ao spot de palavras-chave. Você pode gerar modelos de reconhecimento de palavras-chave e especificar qualquer frase ou palavra curta. Os usuários também podem personalizar palavras-chave com as pontuações corretas. E o melhor de tudo, não há custo extra para personalizar palavras-chave.
Parte 2: Guia Passo a Passo para Transcrever Fala Para Texto com o Microsoft Speech Studio
Agora vamos aprender a usar os serviços de reconhecimento de fala do Microsoft Azure. Lembre-se, a conversão pode não ser precisa se o áudio tiver muitos jargões da indústria de domínio ou ruídos ambientes. Portanto, use áudio nítido e claro com um microfone externo ou treine o software para reconhecer palavras ou palavras-chave específicas. Vamos começar!
Passo 1 Comece criando uma conta do Microsoft Azure. Você começará com a versão gratuita, que lhe dá um crédito de US $ 200 para usar dentro de 30 dias. Depois de esgotar os créditos gratuitos, use o modelo de pagamento conforme o uso, que desbloqueia mais de 40 serviços do Azure.
Passo 2 Depois de criar um portal do Microsoft Azure, você verá todos os serviços do Azure. Clique na guia Serviços de Fala ou procure por "serviços de fala" na barra de pesquisa. Agora clique em Criar e, em seguida, preencha os detalhes do projeto. Em seguida, clique em Revisar e Criar antes de clicar em Criar.
Passo 3 O programa levará um tempo para implantar uma instância. Agora toque em Chaves e pontos de extremidade no painel esquerdo e copie o identificador de chave e região, pois você pode precisar deles mais tarde.
Passo 4 Baixe e instale o Microsoft Visual C++ e o .NET Core 3.1 Runtime. Em seguida, instale o Speech CL no .NET executando este comando “dotnet tool install -global Microsoft.CognitiveServices.Speech.CLI.” Como alternativa, baixe e instale a Speech CLI para PCs com Windows como um arquivo ZIP.
Passo 5 Agora insira o identificador regional do Azure e a chave de assinatura no Terminal do Windows ou no PowerShell. Para configurar a região e a chave, execute estes comandos; “spx config @key --set SUBSCRIPTION-KEY e spx config @region --set REGION.”
Passo 6 Agora é hora de converter fala em texto usando o Serviço STT do Azure. Para fazer isso, execute “spx recognize -microphone” no Terminal ou no PowerShell. A CLI de Fala do Azure ouvirá a entrada de som e a converterá em texto. E aí está!
Parte 3: Quais São as Alternativas Gratuitas Para o Serviço Microsoft Fala Para Texto?
Todos nós devemos concordar que usar o Serviço de Fala do Microsoft Azures não é um passeio no parque. Você precisa de algum conhecimento de programação e Prompt de Comando do Windows. Pior ainda, você terá que pagar cada vez que quiser converter fala em texto depois de esgotar os créditos gratuitos.
Felizmente, não há escassez de conversores de liberdade de expressão para texto para iniciantes. Então, nesta parte, discutiremos algumas alternativas gratuitas do Microsoft Azure STT para iniciantes.
1.Wondershare Filmora 11 - Grátis com um plano premium de $49
Vamos começar com o melhor conversor de fala para texto offline para sistemas macOS e Windows - Filmora 11. É um editor de vídeo para criar vídeos premiados sem habilidades de edição prévias. Basta fazer o upload do seu vídeo local e editá-lo como quiser. E sim, ele funciona com uma série de formatos de vídeo.
De volta ao tópico de hoje, o Filmora 11 usa Inteligência Artificial avançada, juntamente com o aprendizado de máquina profundo, para transcrever áudio com rapidez e precisão. A função STT converte áudio audível em textos editáveis ou legendas com sincronização super precisa. Esta ferramenta suporta mais de 16 idiomas, incluindo inglês, francês, alemão e muito mais. Além disso, você pode baixar o texto extraído no formato SRT.
Siga estes passos para transcrever áudio para texto com o Filmora 11:
Passo 1 Instale a versão mais recente do Wondershare Filmora ou atualize sua versão para o Filmora 11. Somente com a versão atualizada você obterá os recursos STT e TTS. No entanto, inicie um novo projeto.
Passo 2 Em seguida, clique em Importar Mídia para carregar o arquivo de vídeo ou áudio que você deseja converter em texto. Depois de carregar o vídeo, arraste-o para a linha do tempo de edição e separe o áudio do vídeo. Para fazer isso, clique com o botão direito do mouse no vídeo e escolha Desanexar áudio. A ideia é extrair textos do seu arquivo de áudio.
Passo 3 Agora selecione a faixa de áudio e clique no ícone Fala para Texto. Ou, clique com o botão direito do mouse na faixa de áudio e escolha Fala em Texto. Você verá uma janela pop-up onde selecionará o idioma e o modo de transcrição. Você pode transcrever um clipe específico ou toda a linha do tempo. Clique em Ok para começar a digitalizar e transcrever o áudio para texto.
Passo 4 Após um processo de transcrição bem-sucedido, você verá uma linha do tempo de texto adicionada. Clique duas vezes para exibir as faixas de texto e editá-las. Você pode adicionar uma nova faixa de legendas, alterar o texto, ajustar o tamanho, alterar a cor e muito mais. Se estiver satisfeito com o texto extraído, clique com o botão direito do mouse na linha do tempo do texto e clique em Exportar Arquivo de Legendas. Agora foi fácil!
2. Google Docs - Gratuito
Se você está procurando um software gratuito de digitação por voz, é melhor usar o Google Docs. A maioria de vocês pode não estar ciente de que o Google Docs pode converter com precisão a fala em texto. Isso o torna uma ferramenta útil se você achar que falar é mais fácil do que escrever. Como esperado, esta ferramenta de transcrição de voz reconhece centenas de idiomas, como inglês, francês, italiano, hindi, etc.
Mas, embora faça um trabalho louvável, o áudio menos claro não fornecerá transcrições precisas. Além disso, ele não apresenta sutilezas como pontos, vírgulas e outras pontuações. Como tal, atenha-se a um aplicativo profissional como o Filmora para transcrever seu áudio para texto.
Passos para converter voz em texto com o Documentos Google:
Passo 1 Abra um novo documento no Documentos Google e clique em Digitação por voz. O microfone embutido será iniciado automaticamente.
Passo 2 Em seguida, clique na seta suspensa de idioma no microfone para escolher o idioma de transcrição. Você pode ditar textos em inglês, espanhol, francês, italiano, africâner, árabe e muito mais.
Passo 3 Clique no ícone Microfone para começar a ditar textos no Google Docs. Depois de ditar textos suficientes, toque no ícone vermelho Microfone e edite o texto. Simples assim!
3.Audtext - $60 $60 taxa única
Se o serviço de reconhecimento de voz do Google for muito lento para o seu gosto, considere o Audtext. É um programa on-line altamente avaliado que usa tecnologia de aprendizado de máquina de ponta para transcrever áudio para texto em mais de 60 idiomas. Você pode facilmente treinar este programa para identificar o orador em sua entrevista ou arquivo de podcast.
Enquanto isso, o Audtext pode transcrever formatos típicos de vídeo e áudio, incluindo MP3, WAV, M4A, MP4, MOV e muito mais. E depois de transcrever áudio para texto, explore o editor de texto embutido para retocar e tornar seu texto apresentável.
Vamos descobrir como funciona esse serviço STT:
Passo 1 Crie uma conta de transcrição no Audtext e clique em Novo Upload para escolher o modo de transcrição. Você pode selecionar a transcrição automática que usa IA ou transcrição humana real profissional. Então, vamos escolher Automático.
Passo 2 Arraste e solte seu arquivo de vídeo ou áudio no programa e, em seguida, escolha o idioma de transcrição. Depois de adicionar o arquivo, clique em Carregar para digitalizá-lo e transcrevê-lo. Isso deve demorar um pouco.
Passo 3 Finalmente, clique no arquivo de texto transcrito para editá-lo com novos textos e pontuações no editor embutido. Você pode exportar sua transcrição em formatos .txt, .srt ou .docx. A exportação direta para o Google Drive também está disponível.
Palavras Finais
Até este ponto, você deve estar pronto para começar a usar o Microsoft Cognitive Services Speech. O recurso de fala em texto permite converter vozes ilimitadas em texto no seu computador. No entanto, o programa pode ser um desafio para configurar se você não é um técnico.
Nesse caso, use uma opção mais direta, como o Documentos Google, para ditar textos no editor de texto. Você também pode querer considerar o Filmora 11 para codificar qualquer arquivo de áudio ou vídeo local para texto editável. Hora de tentar!
A atualização do Filmora para a versão 14 já está oficialmente disponível.
por João Pedro Oct 18, 2024 10:00 AM
Descubra as últimas versões e recursos do Filmora 14 para Mac.
por João Pedro Oct 18, 2024 10:00 AM
Este é o guia completo sobre o recurso Auto Reframe do Filmora.
por João Pedro Oct 18, 2024 09:38 AM
João Pedro
staff Editor
Comentário(s)