De ferramentas básicas de texto para fala a dispositivos analógicos mecânicos avançados, a clonagem de voz evoluiu nas últimas décadas. Isso não é surpreendente, pois a tecnologia está avançando em ritmo acelerado. A leitura casual de um livro evoluiu para que seu assistente de voz pessoal lesse seu livro com sua voz enquanto realizava suas tarefas diárias.
Isso só foi possível com a clonagem de voz AI. A clonagem de voz envolve a criação de uma cópia digital da voz de uma pessoa. Na verdade, plataformas como o GitHub criaram um caminho para realizar essa clonagem de voz usando repositórios para treinar Inteligência Artificial (IA) para reconhecer e replicar padrões de fala, sotaques, entonações e inflexões de voz distintos.
Isso parece intrigante? Continue lendo para entender como funciona a tecnologia de clonagem de voz, acesse recursos para clonagem de voz para iniciantes no GitHub, e aprenda como escolher o repositório certo que satisfaça suas necessidades.
Neste artigo
Parte 1. Como as clonages de voz com IA são criadas
Antes, o software de conversão de texto em fala (TTS) era usado para criar vozes sem emoções ou nuances humanas. No entanto, com o aparecimento da inteligência artificial e da aprendizagem profunda, a qualidade destas vozes artificiais melhorou.
- Um software de clonagem de IA como o Wondershare Filmora é alimentado com amostras de áudio da voz de um locutor em diferentes estados de espírito.
- O software estuda todos os detalhes da voz do locutor, incluindo seu tom e padrões de fala.
- Em seguida, constrói um modelo de IA para recriar a amostra de áudio e até mesmo gerar novas palavras e frases usando o algoritmo.
- No final, você obtém uma versão clonada da voz de uma pessoa real que soa idêntica ao áudio original, se feita corretamente.
Parte 2: Como funciona a clonagem de voz do GitHub
O GitHub não realiza clonagem de voz diretamente. Pelo contrário, fornece uma plataforma para os desenvolvedores compartilharem códigos, ferramentas e recursos que podem ser usados para construir software de clonagem de voz de IA.
Em outras palavras, as clonagens de voz do GitHub são projetos de código aberto que clonam vozes usando uma estrutura de aprendizado de máquina chamada PyTorch, que facilita o treinamento e o uso de modelos de aprendizagem. Esta estrutura permite trabalhar com modelos de aprendizagem como o Tracotron2 e é usada para desenvolver e implementar software e ferramentas.
O software é composto de três elementos principais: o codificador, o sintetizador e o vocoder.
- O codificador gera incorporações a partir da voz do locutor,
- O sintetizador utiliza essas incorporações para gerar um espectrograma e
- O vocoder transforma este espectrograma em fala audível
Os desenvolvedores usam esses projetos de código aberto para criar ou melhorar ferramentas GitHub de clonagem de voz que podem ser aplicáveis de qualquer uma das seguintes maneiras.
- Na criação de conteúdo para produção de audiolivros e dublagens
- Como assistentes de voz como Siri e Alexa
- Em edição de áudio
- No desenvolvimento de tecnologia que melhore a acessibilidade para pessoas com deficiência. Por exemplo, em tecnologia avançada de saúde, para fornecer uma solução para pessoas com deficiência de fala.
- Em aplicativos avançados de conversão de texto em fala
- Em telecomunicações e atendimento ao cliente
- Em filmes e videogames para replicar as vozes dos dubladores ou para desenvolver novos personagens
Parte 3: Diferentes repositórios de clonagem de voz no GitHub
Existem vários repositórios GitHub de clonagens de voz louváveis. Embora alguns sejam mais versáteis que outros, todos são aplicáveis em vários casos de uso. Aqui estão alguns deles.
- Intelligent TransSpeaker da Coffee-Expert
Esta ferramenta de clonagem de voz do GitHub usa inteligência artificial e aprendizado de máquina para traduzir vídeos em diferentes idiomas, mantendo as nuances emocionais do locutor e proporcionando uma experiência de visualização natural para vários públicos. Este software com IA de clonagem de voz GitHub foi desenvolvido para superar as barreiras linguísticas no conteúdo de vídeo online.
Linguagens/Ferramentas
CSS, SCSS, JupyterNotebook, HTML, JavaScript.
Funcionalidades principais:
- Tradução de vídeo multilíngue: Este recurso permite que os vídeos sejam traduzidos para vários idiomas. Preserva as emoções do orador em diferentes idiomas, garantindo que seus vídeos traduzidos ressoem em diferentes culturas.
- Redução de ruído alimentada por IA: Este repositório GitHub de clonagem de voz de IA reduz a distração de fundo usando algoritmos de redução de ruído para melhorar a clareza do áudio. Isto melhora o reconhecimento de fala durante a clonagem de voz e melhora a precisão da tradução.
- Integração de áudio e vídeo: Após a tradução, o novo áudio é perfeitamente integrado ao vídeo original. Vários áudios podem ser integrados para produzir arquivos de vídeo multilíngues de alta qualidade prontos para compartilhamento.
- Clonagem de voz: Você tem a opção de gerar áudio no seu idioma de destino usando um modelo de clonagem de voz pré-treinado. Este recurso de clonagem de voz permite imitar o locutor original, mantendo suas características de voz e emoções projetadas. Isso aumenta a autenticidade dos vídeos traduzidos.
Casos de uso
O Intelligent TransSpeaker é usado para software de edição de vídeo e aplicativos que exigem tradução e síntese de voz, como ferramentas de conferência internacional e aplicativos de aprendizagem de idiomas. Os criadores de conteúdo também podem achar isso útil.
- TTS da Coqui.ai
Esta é uma ferramenta GitHub de clone de voz de IA de aprendizado profundo para geração avançada de conversão de texto em fala. Com modelos pré-treinados em mais de 1.100 idiomas, é versátil o suficiente para gerar clones de voz nos idiomas mais populares e falados em todo o mundo. Em situações em que os idiomas existentes não incluem o idioma de destino, você pode treinar novos modelos ou ajustar os modelos existentes em qualquer idioma.
Aqui está um guia para iniciantes sobre como instalar o TTS.
Linguagens/Ferramentas
Python, Jupyter Notebook, HTML, Shell, Makefile.
Recursos
- Treinamento de modelo eficiente
- Registros de treinamento detalhados no terminal e no Tensorboard
- Modelos de IA prontos para usar
- TTS com oradores
- Modelos de conversão de texto em fala de alto desempenho que incluem codificador de orador para calcular incorporações de alto-falante, modelos de conversão de texto em fala como Tacotron2 e modelos de codificador de voz como GAN-TTS e WaveGrad
- Ferramentas para treinar e testar seus modelos
- Uma base de código modular que permite a implementação de novas ideias
Casos de uso
Para desenvolvedores que procuram TTS flexíveis e ferramentas de clonagem de voz que podem ser aplicadas de várias maneiras, como capacitar assistentes de voz para responder às dúvidas dos usuários e enviar anúncios automatizados.
Você pode instalar o TTS no Ubuntu ou Windows. Se você estiver interessado apenas em síntese de voz com os modelos TTS lançados, é recomendável instalar a partir do PyPI. Se você planeja codificar e treinar modelos, clone o TTS e instale-o localmente.
- GPT-SoVITS do RCV-Boss
Esta ferramenta GitHub de clonagem de voz de IA é uma conversão de voz e WebUI de texto para fala que requer dados de voz de um minuto para treinar um modelo TTS para clonagem de voz em poucos disparos.
Linguagens/Ferramentas
Python, Jupyter Notebook
Recursos
- Utiliza GPT para gerar entrada de texto de alta qualidade.
- Bom controle sobre o ritmo e a entonação da fala.
- Zero-shot TTS – Realiza conversões de texto para fala instantaneamente com uma amostra vocal de 5 segundos.
- Few-shot TTS - Os modelos são treinados usando dados de áudio de 1 minuto, para melhorar a similaridade e o realismo da voz.
- Suporte multilíngue – Resultados em idiomas diferentes do conjunto de dados de treinamento. O GPT-SoVITS atualmente oferece suporte a inglês, japonês e chinês.
- Ferramentas WebUI – Ferramentas como segmentação automática de conjunto de treinamento, separação de acompanhamento de voz, ASR chinês e rotulagem de texto são integradas para ajudar iniciantes na criação de conjuntos de dados e modelos GPT-SoVITS.
Casos de uso
Locuções realistas para documentários. Qualquer software ou ferramenta que exija conversões de áudio de alta qualidade ou de texto para fala.
O GPT-SoVITS possui diferentes diretrizes de instalação para usuários de Windows, macOS e Linux. Os usuários na China podem experimentar todas as funcionalidades on-line do GPT-SoVITS usando o AutoDL Cloud Docker.
- OpenVoice da My Shell AI
O OpenVoice é uma ferramenta GitHub de clonagem instantânea de voz com IA que replica vozes e gera fala em vários idiomas. Esta ferramenta identifica, controla e replica tipos e estilos de voz, incluindo sotaque, emoção, ritmo, pausas e entonação.
Linguagens/Ferramentas
Python, Jupyter Notebook
Recursos
- Clonagem precisa da cor do tom de voz e geração de fala em vários idiomas
- Controle granular sobre o estilo de voz
- Clonagem de voz multilíngue zero-shot
Em abril de 2022, o OpenVoice V2 foi lançado e os seguintes recursos foram atualizados:
- Melhor qualidade de áudio
- Suporte multilíngue nativo em inglês, francês, espanhol, chinês, japonês e coreano
- Gratuito para uso comercial
Casos de uso
Adequado para integração com vários outros aplicativos, especialmente aqueles com recursos de processamento de fala, como traduções multilíngues em tempo real – por exemplo, videoconferência e ferramentas de suporte ao cliente.
- Bark com clonagem de voz do Serp AI
Como uma melhoria no Bark AI, esta ferramenta de clonagem de voz no GitHub é um modelo de áudio generativo solicitado por texto com a capacidade de gerar áudio a partir de prompts de texto e clonar vozes a partir de amostras curtas de áudio. Você precisa de uma amostra de áudio de 5 a 12 segundos para criar uma clonagem de voz. Para obter os melhores resultados, gere vários clones de sua amostra de áudio até obter uma clonagem de voz próxima o suficiente da voz original do locutor.
Linguagens/Ferramentas
Python, Jupyter Notebook
Recursos
- Idioma Estrangeiro: O Bark suporta vários idiomas e automaticamente o idioma do texto de entrada. Emprega sotaques nativos do idioma identificado para melhorar a qualidade da saída. No entanto, esse recurso ainda está em melhoria.
- Música: Esta ferramenta GitHub de clone de voz de IA pode gerar texto como música. Para ajudá-lo a ter um desempenho mais eficiente, adicione notas musicais ao redor da letra no prompt de texto.
- Predefinições de voz e clonagem de voz: Ao clonar vozes, o Bark identifica e replica tons e estilos de voz, preservando a música e a música ambiente da amostra de áudio original.
- Predefinições de voz e clonagem de voz: Ao clonar vozes, o Bark identifica e replica tons e estilos de voz, preservando a música e a música ambiente da amostra de áudio original.
Casos de uso
Aplicável em projetos que exigem síntese de voz realista, como notificações de voz personalizadas, reprodutores de música interativos e software de aprendizagem de idiomas.
- Bancos de dados de fala por LianaMikael
Embora este não seja um repositório GitHub de clonagem de voz, pode ser útil se você planeja treinar os modelos de IA de ferramentas de clonagem de voz nos repositórios listados neste artigo.
Esta é uma coleção de conjuntos de dados de fala disponíveis publicamente, criados para resolver tarefas independentes de texto, já que a maioria dos conjuntos de dados de áudio se concentra no domínio de fala para texto. Além de treinar modelos de clonagem de voz de IA, ele pode ser usado para identificação biométrica de oradores, aprimoramento de fala e tarefas de eliminação de ruído.
Este repositório contém conjuntos de dados de clonagem de voz do GitHub de mais de 7.000 falantes de diversas etnias, emoções, tons, sotaques e idades. Também possui uma coleção de sons de fundo naturais de diferentes configurações da vida real que podem ser usados para treinar modelos em ruídos de fundo do ambiente real.
Ao escolher uma clonagem de voz do GitHub, procure repositórios com;
- Modelos como Tacotron2 ou WaveNet, pois tendem a oferecer resultados de maior qualidade.
- Documentação clara e abrangente para ajudá-lo a entender como configurar e usar a ferramenta.
- Suporte para o(s) idioma(s) que você precisa. Alguns modelos são desenvolvidos especificamente para inglês, enquanto outros podem oferecer suporte a vários idiomas. Além disso, considere se o modelo pode processar vários sotaques e tons de voz.
Bônus: Apresentando o Filmora – A melhor escolha para clonagem direta de voz
Embora as clonagens de voz do GitHub forneçam soluções personalizáveis de clonagem de voz de código aberto, podem apresentar algumas limitações. As ferramentas de clonagem de voz no GitHub são criadas para desenvolvedores com conhecimento técnico para instalar, configurar, treinar modelos de IA e usar essas ferramentas de maneira eficaz.
Alguns desses repositórios podem ter fluxos de trabalho complexos que não são adequados para iniciantes. Sem mencionar que a qualidade do resultado é inconsistente e depende muito do conjunto de dados usado no treinamento do modelo, da sofisticação do modelo e da sua capacidade de ajustar esses modelos para fornecer um resultado de qualidade.
Com ferramentas como o Wondershare Filmora, esses problemas são atenuados. O Filmora oferece um fluxo de trabalho simplificado e fácil de usar que permite produzir resultados de alta qualidade, independentemente da sua formação técnica. Aqui estão alguns dos principais recursos do Filmora:
- O Filmora é uma ferramenta alimentada por IA que promove edição de vídeo perfeita, edição co-piloto e edição baseada em texto. Também possui um recurso de texto para vídeo que ajuda você a dar vida às suas ideias de vídeo. Pode ser usado para escrever descrições de vídeos e legendas atraentes e para mascarar ou cortar objetos indesejados dos vídeos.
- A funcionalidade do Filmora não para na manipulação de vídeo; esta versátil ferramenta de IA também pode gerar música, reduzir ruído ou esticar áudio, clonar vozes, converter texto em fala e vice-versa.
- O Filmora integra manipulação de vídeo e edição de áudio com clonagem de voz. Este recurso de clone de voz permite gravar e replicar sua voz em diferentes idiomas e para diversos fins. Também permite ajustar vozes para diferentes canais de entrega – de notícias a mídias sociais e apresentações.
Lembre-se; Este incrível recurso de clonagem de voz está à sua disposição em qualquer altura.
Como clonar sua voz usando o Filmora
- Passo 1: Inicie o Filmora no seu celular ou computador. Se você não possui o aplicativo Filmora, baixe um aqui.
- Passo 2: Vá para o ícone Texto. Arraste e solte uma caixa de texto na área destacada.
- Passo 3: Clique na barra de conversão de Texto em Fala ou de conversão de Texto em Vídeo.
- Passo 4: Selecione o idioma escolhido.
- Passo 5: clique em Clonar Voz para adicionar sua voz
- Passo 6: Você deverá dar consentimento de áudio para gravar sua voz.
- Passo 7: Depois disso, você receberá um roteiro para ler em voz alta. Leia o roteiro para gravar sua voz.
- Passo 8: Quando terminar, clique em Clonar Voz.
- Passo 9: A ferramenta de IA analisará sua amostra de voz e capturará o tom e a emoção de sua voz
- Passo 10: Sua clonagem de voz aparecerá na aba de conversão de texto em fala.
Conclusão
Concluindo, a clonagem de voz está gradualmente se tornando aplicável em uma ampla gama de indústrias – desde entretenimento e desenvolvimento de jogos até criação de conteúdo e atendimento ao cliente. Para se adaptar a esses avanços tecnológicos, recursos como os repositórios de clonagem de voz do GitHub estão disponíveis para ajudar os desenvolvedores na construção, treinamento, uso e adaptação de ferramentas de clonagem de voz para diversos fins.
Para iniciantes que procuram uma maneira mais simples e menos técnica de explorar a clonagem de voz, ferramentas como o Filmora oferecem um bom ponto de partida. O Filmora torna a clonagem de voz muito fácil para desenvolvedores e não desenvolvedores!