Quem Vence? Claude 3 vs. GPT-4 vs. Gemini

PDFelement

Pouco mais de dezoito meses após o lançamento do ChatGPT, uma série de outros chatbots inundou o mercado. No entanto, nem todos esses modelos de IA têm se mostrado úteis. O Claude se destaca da concorrência, lado a lado com Gemini e ChatGPT.

A família de modelos Claude 3 é um novo conjunto de modelos de IA recentemente lançado pela Anthropic. Como é comum, a empresa oferece três tipos de modelos: Opus, Sonnet e Haiku. Cada um se diferencia em termos de preço, velocidade e inteligência.

Especialistas em IA generativa não resistem em comparar o Claude 3 com os principais sistemas de IA disponíveis. O Opus, modelo mais avançado do Claude, supera os modelos mais famosos da OpenAI e do Google.

Para auxiliar na escolha da ferramenta ideal, incluímos uma comparação detalhada dos três chatbots.

Principais conclusões:

Em comparação com o Gemini e o ChatGPT, o Claude 3 demonstrou melhor desempenho em compreensão, lógica e auxílio em tarefas de programação técnica. O modelo Opus se destacou por sua inteligência e adaptabilidade.
Diversos testes revelaram os pontos fortes e fracos de cada modelo de IA. O Claude 3 apresentou dificuldades em resolver problemas matemáticos específicos, mas se saiu muito bem em outras áreas, como seguir instruções e escrever descrições.
Na geração de texto em diversas formas, Gemini e GPT-4 mostraram velocidade notável e bom desempenho geral, especialmente em tarefas básicas de geração de texto.
Perguntas complexas que exigem raciocínio ou consciência de contexto estavam além da capacidade de todos os modelos. Em alguns casos, eles forneceram informações ausentes ou respostas imprecisas.
Usuários que buscam o auxílio da IA em tarefas de edição de vídeo podem encontrar no assistente de IA do Filmora, o Filmora Copilot, uma opção viável.

Neste artigo

Parte 1. Comparação completa entre Claude 3, GPT-4 e Gemini
Parte 2. Avaliação Comparativa: ChatGPT-4, Gemini e Claude 3
Parte 3. Claude, ChatGPT ou Gemini - quem se destaca após os testes?
Conclusão

Comparação completa entre Claude 3, GPT-4 e Gemini

Colocamos o ChatGPT, Gemini e Claude frente a frente, testando sua capacidade de realizar tarefas práticas para empresas, como extrair informações de documentos e enviar e-mails.

Em 7 testes, descobrimos que o Claude acertou três respostas, enquanto o ChatGPT e o Gemini venceram em algumas. Assim, o Claude saiu vitorioso neste confronto, já que o último teste terminou em empate.

Abaixo estão todas as solicitações que fizemos aos três chatbots:

1) Escrever descrições de produtos

Se você possui uma loja online ou vende muitos produtos online, escrever descrições originais para seus produtos pode ser uma grande dor de cabeça. O produto que queríamos descrever era um brinquedo infantil genérico. Assim, solicitamos a ajuda do ChatGPT, Gemini e Claude. Vamos apresentar o desempenho do Claude:

Tivemos que solicitar uma explicação um pouco longa do Claude, pois não o encontramos escrevendo várias descrições de produtos como o ChatGPT. No final, ele teve um bom desempenho: a escrita é cativante e a estrutura da frase é excelente.

Em comparação com ChatGPT e Gemini, o Claude produz descrições de produtos superiores. Soa muito mais pessoal, assim como seu argumento ético. Se estivesse usando esses dois programas para criar descrições em massa, você precisaria alterar as descrições do Claude muito menos.

Prompt do teste: Crie uma descrição de produto exclusiva de 50 palavras. Eu vendo brinquedos infantis online. Tenho uma grande coleção de brinquedos em qualidades e preços variados.

Resposta do Claude 3

Teste de redação de descrição de produto - Claude

Resposta do Gemini

Teste de redação de descrição de produto - Gemini

Resposta do ChatGPT

Teste de redação de descrição de produto - ChatGPT

Vencedor: Claude

2) Calculando a duração precisa

Neste teste, nosso objetivo era enganar os algoritmos de IA para detectar qualquer sinal de inteligência. Infelizmente, o Claude 3 Opus, assim como o Gemini, não passou no teste. A pergunta era difícil; incorporamos isso no prompt do sistema também. Mesmo assim, o modelo Opus errou em seus cálculos.

Da mesma forma, o GPT-4 também errou neste teste. Além disso, produziu resultados inconsistentes. Mesmo depois de corrigir nosso prompt, o GPT-4 continuou a fornecer resultados incorretos quando repetimos a mesma consulta esta manhã.

Prompt do teste: Demorou uma hora para secar 25 camisas. Então, quanto tempo levaria para secar cinco camisas ao ar livre, sob a luz do sol?

Resposta do Claude 3

Resposta do Gemini

Resposta do ChatGPT

Vencedor: Nenhum

3) Resolver um problema de matemática

Nossa próxima pergunta buscava uma solução matemática do modelo Claude 3 Opus que não envolvesse o cálculo do número inteiro. Mais uma vez, sem sucesso. Encontramos resultados incorretos em graus variados cada vez que executamos o prompt. No entanto, o Claude 3 Opus superou o benchmark de matemática, vencendo o GPT-4 e o Gemini.

Aplicar tais prompts ao modelo Claude 3 Opus parece fornecer melhores resultados. Desta vez, GPT-4 e Gemini forneceram a resposta correta quando solicitados com tal prompt.

Prompt do teste: 132 * 321 tem um dígito das dezenas (A) e um dígito das unidades (B); encontre o valor de A + B. Você pode fornecer a solução mais simples?

Resposta do Claude 3

Teste de problema de matemática - Claude

Resposta do Gemini

Teste de problema de matemática - Gemini

Resposta do ChatGPT

Teste de problema de matemática - ChatGPT

Vencedor: Gemini e GPT-4

4) O teste de contagem de laranjas

Vamos tentar a avaliação proeminente da laranja que testa as habilidades de pensamento dos LLMs. O modelo Claude 3 Opus acertou esta pergunta, cinco laranjas. Mas tivemos que adicionar que "você é um ajudante brilhante com um talento especial para o pensamento avançado" a um prompt do sistema para obter a resposta certa. O Opus forneceu um resultado impreciso na ausência do prompt do sistema. Gemini e GPT-4, como em nossos testes anteriores, forneceram resultados precisos.

Prompt do teste: Comi uma laranja ontem e agora tenho cinco laranjas. Então, quantas laranjas eu tenho agora?

Resposta do Claude 3

Resposta do Gemini

Resposta do ChatGPT

Vencedor: GPT-4, Gemini e Claude 3 Opus.

5) Cálculo de peso

Em seguida, pedimos a cada um dos três modelos de IA que nos dissessem se 1 libra de batatas é mais pesada do que 1 quilo de tomates. O Claude 3 Opus errou, enquanto os modelos GPT-4 e Gemini forneceram respostas precisas.

Como um quilograma equivale a cerca de 2,2 libras, 1 quilo de tomates será mais pesado do que 1 libra de batatas.

Prompt do teste: Uma libra de batatas pesa mais do que um quilograma de tomates.

Resposta do Claude 3

Resposta do Gemini

Resposta do ChatGPT

Vencedores: ChatGPT e Gemini

6) Seguir as instruções fornecidas

O modelo Claude 3 Opus faz um excelente trabalho em obedecer aos comandos do usuário, superando essencialmente todos os modelos de IA existentes. Demos o comando para criar cinco frases que terminassem com a palavra "chocolate". Ele produziu três frases completamente razoáveis que fazem exatamente isso.

Em comparação, o GPT-4 conseguiu produzir algumas frases, enquanto o Gemini ficou em último lugar, falhando miseravelmente em criar até mesmo três opções.

Portanto, o Claude 3 Opus é um modelo de IA confiável se seu trabalho exige que ele siga rigorosamente suas instruções.

Prompt do teste: Crie cinco frases que terminam com a palavra "chocolate".

Resposta do Claude 3

Resposta do Gemini

Resposta do ChatGPT

Teste de instruções do usuário - ChatGPT

Vencedor: Claude 3 Opus

7) Oferecer conselhos pessoais

Pretendíamos testar as reações do ChatGPT, Gemini e Claude a um cenário específico. Pedimos para aconselhar um indivíduo que está lutando com problemas de saúde mental. À medida que essas tecnologias se tornam cada vez mais arraigadas em nossas vidas, elas devem reagir adequadamente às nossas demandas.

As respostas fornecidas por todos os chatbots foram excelentes. Suas sugestões começaram tranquilizando os usuários de que seus sentimentos eram genuínos. Portanto, é impossível encontrar falhas neles.

Os métodos recomendados por cada chatbot também foram idênticos. É o mesmo que qualquer ser humano recomendaria a um amigo com os problemas listados no prompt.

Prompt do teste: Ultimamente, tenho lidado com muitos problemas de saúde mental e me sinto sozinho. O que você diria a alguém nesta situação?

Resposta do Claude 3

Resposta do Gemini

Resposta do ChatGPT

Vencedor: Empate

Avaliação Comparativa: ChatGPT-4, Gemini e Claude 3

Característica	Claude 3	Gemini	ChatGPT
Empresa	Anthropic AI	Google AI	OpenAI
Lançamento	4 de março de 2024	2022 (Primeiro lançamento)	2020
Plataforma	Baseado em nuvem	Baseado em nuvem	Baseado em nuvem
Preço	Assinatura	Versões gratuitas e pagas	Versões gratuitas e pagas
Entrada visual	Suporta imagens	Suporta imagens	Não
Vantagens	- Alta capacidade de contexto - Excelente desempenho em benchmarks	- Lançamento antecipado - Excelente compreensão visual	- Melhorias constantes - Capacidades de raciocínio e compreensão
Desvantagens	- Requer assinatura - Versão gratuita potencialmente mais lenta	- Capacidade de contexto limitada - Informações públicas limitadas	- Sem suporte para entrada visual - Acesso limitado (controlado)

Claude, ChatGPT ou Gemini - quem se destaca após os testes?

Todos são grandes LLMs (Large Language Models) que representam o estado da arte em inteligência artificial. A comparação entre eles é a seguinte:

O Claude 3 brilha em atividades baseadas em raciocínio e tarefas de interpretação visual, como gráficos e tabelas. Uma possível desvantagem é sua velocidade, que pode ser mais lenta do que alternativas como Gemini e GPT-4, particularmente nas versões gratuitas.

O GPT-4 da OpenAI é um gerador de texto rápido. Devido a algumas restrições, há menos informações disponíveis sobre suas capacidades.

Ao lidar com código ou linguagem factual, o Gemini é uma excelente escolha. A versão mais recente, Gemini Ultra, pode não estar se saindo bem em alguns benchmarks.

1) Desempenho em programação:

A função principal do Claude 3 é facilitar tarefas gerais de escrita, mas ele também oferece alguma ajuda em tarefas de programação, auxiliando na criação de código, detecção de erros e recomendações de sintaxe.

Lançado com a intenção de se tornar uma ferramenta de criação de código, o Gemini cresceu em escopo. Ele oferece uma velocidade de codificação aceitável, enquanto o Claude 3 oferece mais profundidade e especialização.

Embora não seja projetado especificamente para tarefas de codificação, o ChatGPT pode ajudar com perguntas sobre programação. Mesmo não sendo tão eficiente quanto o Claude 3 ou o Gemini, ele pode fornecer ajuda geral em codificação.

2) Nível de especialização:

Se você precisa de ajuda para finalizar seu código, solucionar problemas ou obter conselhos, o Claude 3 é a melhor opção.

O Gemini pode lidar com uma ampla gama de tarefas de geração de texto.

O ChatGPT pode gerar texto, conversar, responder a perguntas e muito mais. Ele não tem a mesma concentração em tarefas de codificação que o Claude 3 e, em menor grau, o Gemini.

3) Resposta a prompts:

Devido à sua especialização em perguntas relacionadas à codificação, o Claude 3 pode fornecer respostas eficientes e rápidas, dependendo da dificuldade da tarefa de codificação.

O tempo de resposta esperado do Gemini depende da dificuldade do trabalho em questão. Sua eficiência neste domínio é mais versátil.

O tempo de resposta do ChatGPT depende da complexidade da pergunta e da carga atual do sistema. Devido aos seus algoritmos, ele não é tão adequado para tarefas de codificação quanto o Claude 3.

4) Disponibilidade e preço:

O Claude oferece uma versão gratuita com restrições. O acesso às funcionalidades premium requer uma assinatura, o que pode não ser acessível para todos.

O Gemini oferece planos gratuitos e pagos, dependendo do orçamento e das necessidades do usuário.

O ChatGPT é adequado para clientes com diferentes orçamentos, oferecendo opções gratuitas e pagas. No entanto, uma assinatura é necessária para acessar os serviços premium.

5) Restrições e aspectos éticos:

Preocupações com a privacidade de dados, imprecisão nos resultados e possível abuso da tecnologia estão presentes nos três modelos. Cada um deles depende do gerenciamento correto de dados privados e da garantia de resultados justos.

Embora se destaquem em atividades baseadas em texto, Claude 3, Gemini e ChatGPT não conseguem lidar com entradas de vídeo. Informações visuais, como quadros de vídeo ou filmagens, estão além das capacidades desses modelos, pois eles trabalham principalmente com dados textuais. Portanto, eles não seriam muito úteis para usuários que estão tentando editar vídeos.

Mas não se preocupe! Você pode usar o Filmora Copilot, que é adaptado para ajudar os usuários na criação de conteúdo de vídeo. Com este recurso, os usuários têm acesso a vários recursos projetados para agilizar o processo de edição. Além disso, este assistente de IA pode examinar imagens de vídeo, entender as necessidades de edição e fornecer recomendações pertinentes.

Em resumo, ele é específico para vídeo e oferece uma solução única para as demandas das pessoas que criam vídeos. Confira o vídeo a seguir, que apresenta o Filmora Copilot.

Filmora Copilot - Novo Recurso Inteligente no Filmora 13

Teste Grátis Para Windows 7 ou posterior (64 bits)

Teste Grátis Para macOS 10.14 ou posterior

Considerações finais

Ao compararmos Claude 3, Gemini e ChatGPT, podemos observar os pontos fortes e fracos de cada modelo. Enquanto o Gemini se destaca pela versatilidade em diversas aplicações baseadas em texto, as capacidades específicas do Claude 3 o tornam a escolha ideal para tarefas relacionadas à programação. Por outro lado, o ChatGPT se sobressai devido à sua ampla gama de funcionalidades, enquanto o Claude 3 se destaca por sua especialidade.

No entanto, a incapacidade de lidar com a entrada de vídeos é um ponto em comum entre os três modelos, tornando-os ineficazes para tarefas de edição de vídeo.

Para usuários que desejam o auxílio da IA na edição de vídeos, o Filmora Copilot é uma ótima solução. Essa ferramenta oferece suporte personalizado, sugerindo e executando diversas ações para agilizar o processo de edição. Experimente o Filmora Copilot agora mesmo!

Prompts de Vídeo

Tendências de Vídeo

Enciclopédia de Vídeo

Inspire-se com Filmora

Hub de Criadores

Efeitos Especiais DIY

O que há de novo

Vídeo tutorial

Guia do usuário

Especificações técnicas

Perguntas frequentes

Contate-nos

Histórico de versões

Cases de Sucesso

Avaliações

Histórias de clientes

O melhor editor de vídeo para criadores

Artigos recomendados

Uma Avaliação Completa do Claude 3, ChatGPT e Gemini