Google Gemini
DesenvolvedoresGoogle AI e DeepMind
Lançamento inicial21 de março de 2023; há 3 anos (como Bard)
6 de dezembro de 2023; há 2 anos (anúncio do modelo Gemini)
Lançamento estável
3.1 Pro Preview / 19 de fevereiro de 2026; há 3 meses
Plataforma
AntecessorBard, Google Assistente (em parte, no Android), Duet AI
Disponível emInglês, Português, e mais de 40 idiomas[1]
Tipomodelo de linguagem grande
chatbot
inteligência artificial generativa
Licençaproprietário, com acesso via API e para desenvolvedores através do Google Cloud (Vertex AI)
Websitegemini.google.com

Na Inteligência artificial, o Gemini (inicialmente chamado Bard)[2][3] é uma família de modelos de linguagem grande (LLMs) multimodais e um chatbot de inteligência artificial generativa, desenvolvido pelo Google em 2023 baseado na família de modelos LaMDA.[4] Foi criado como uma resposta direta ao súbito e massivo sucesso do ChatGPT da OpenAI.

Desde então, passa por uma significativa evolução de marca e de capacidade, através de uma colaboração em larga escala entre várias equipes do Google, notavelmente a Google Brain e a DeepMind, que foram fundidas em uma única unidade, a Google DeepMind, em 2023, para consolidar os esforços de pesquisa em IA da empresa.[5] Atualmente esta na versão 3.1 Pro Preview.[6][7]

História

editar

Antecedentes

editar

Em novembro de 2022, a OpenAI lançou o ChatGPT, um chatbot baseado na família GPT-3 de modelos de linguagem grande (LLM).[8][9] Após o seu lançamento, o ChatGPT despertou o interesse mundial, alcançando uma ampla repercussão na rede mundial de computadores, tornando-se o aplicativo de consumo com o crescimento mais rápido da história.[10] Diante do possível risco do ChatGPT para o Google Busca, seu principal produto e fonte de receita, os diretores executivos do Google acionaram um sinal de "código vermelho", uma medida de emergência interna para mobilizar diversas equipes e acelerar drasticamente os esforços da empresa no campo da inteligência artificial (IA).[11] A preocupação era que uma interface de conversação pudesse substituir a necessidade de uma busca tradicional baseada em links, o que representava uma ameaça existencial ao modelo de negócios da companhia. Em uma ação rara e inédita, os cofundadores do Google, Larry Page e Sergey Brin, que haviam se afastado dos cargos de co-CEOs da empresa-mãe Alphabet em 2019, foram chamados para reuniões urgentes com os executivos da empresa para definir a estratégia do Google frente ao ChatGPT e aprovar novos planos de integração de IA em seus produtos.[12]

No começo daquele ano, a empresa já havia apresentado publicamente o LaMDA (Language Model for Dialogue Applications), um protótipo de LLM, durante a conferência Google I/O de 2021.[13][14] No entanto, o Google adotou uma postura cautelosa e não o disponibilizou para o público, citando a necessidade de refinar a segurança e mitigar riscos de geração de conteúdo prejudicial ou enviesado.[15] Em resposta a uma pergunta de funcionários em uma reunião geral sobre se o LaMDA era uma chance desperdiçada para o Google disputar com o ChatGPT, o CEO do Google e da Alphabet, Sundar Pichai, acompanhado do líder do Google AI, Jeff Dean, declarou que embora a empresa possuísse competências similares ao ChatGPT, agir muito rápido nesse campo implicaria um grande "risco reputacional" devido ao Google ser consideravelmente maior que a OpenAI e ter uma base de usuários global que confia em seus produtos.[16][17] Em janeiro de 2023, o diretor executivo da DeepMind, Demis Hassabis, anunciou planos para um concorrente do ChatGPT,[18] e os funcionários do Google receberam orientações para acelerar o desenvolvimento de um rival do ChatGPT, realizando testes intensivos no "Apprentice Bard" e em outros chatbots. O Apprentice Bard, em particular, era um dos projetos mais avançados, utilizando a tecnologia LaMDA e sendo testado internamente por milhares de funcionários para refinar suas respostas e segurança.[19][20] Durante a teleconferência trimestral de resultados do Google em fevereiro, Pichai assegurou aos investidores que a empresa tinha projetos para ampliar a disponibilidade e as aplicações do LaMDA de forma mais ampla e pública em um futuro próximo.[20]

Lançamento

editar

O Google anunciou oficialmente a IA com o nome Bard em 6 de fevereiro de 2023, com Sundar Pichai descrevendo-o como um "serviço de IA conversacional experimental".[21] O lançamento inicial foi limitado a um pequeno grupo de "testadores confiáveis" nos Estados Unidos e no Reino Unido, com planos de expansão gradual. O lançamento foi visto pela imprensa como apressado, ocorrendo um dia antes do anúncio da Microsoft sobre a integração do ChatGPT ao seu buscador Bing.[22] A pressão competitiva ficou evidente quando, durante uma demonstração do Bard em um anúncio promocional, o chatbot forneceu uma resposta factualmente incorreta sobre o Telescópio Espacial James Webb. Esse erro foi amplamente divulgado e contribuiu para uma queda de 100 bilhões de dólares no valor de mercado da Alphabet no dia seguinte, destacando os riscos e a intensa fiscalização sobre a precisão da tecnologia.[23]

O Bard foi aberto ao público nos Estados Unidos e Reino Unido em 21 de março de 2023.[24]

Evolução da marca

editar

A mudança mais significativa na trajetória do produto ocorreu em 6 de dezembro de 2023, quando o Google apresentou o Gemini. O anúncio destacou que o Gemini Ultra superava o GPT-4 da OpenAI em 30 de 32 benchmarks acadêmicos amplamente utilizados.[25]

Em 8 de fevereiro de 2024, o Google consolidou sua estratégia de marca de IA, aposentando o nome "Bard" e renomeando o chatbot para Gemini.[26] Simultaneamente, a marca "Duet AI", usada para funcionalidades de IA no Google Workspace e Google Cloud, também foi unificada sob a bandeira Gemini. Nesta data, foi lançado o Gemini Advanced, um nível de assinatura premium que dá acesso a versão mais poderosa do modelo, o Gemini Ultra 1.0. Este serviço foi integrado a um novo plano do Google One chamado "AI Premium".[26]

Características

editar

A família de modelos Gemini representa um salto significativo em relação às arquiteturas anteriores como LaMDA e PaLM. Baseada em uma arquitetura Transformer otimizada, sua principal inovação é a natureza nativamente multimodal.

Multimodalidade nativa

editar

Ao contrário de modelos anteriores que eram treinados primariamente em texto e depois adaptados para outras modalidades (geralmente conectando modelos distintos para cada tarefa), o Gemini foi pré-treinado desde o início com dados de múltiplas modalidades entrelaçados (interleaved). Isso significa que o modelo aprendeu a processar e a encontrar padrões em texto, imagens, áudio, vídeo e código de forma conjunta e unificada, dentro de uma única rede neural. Essa abordagem permite uma compreensão e raciocínio mais fluidos e sofisticados sobre informações heterogêneas. Por exemplo, o Gemini pode analisar um gráfico em uma imagem (visual), ler o texto explicativo (texto), e gerar código Python para replicar os resultados (código), tudo em uma única consulta.[5]

Treinamento e infraestrutura

editar

O treinamento foi realizado utilizando a infraestrutura de TPUs (Unidades de Processamento de Tensor) v4 e v5 do Google, que são ASICs customizados para cargas de trabalho de aprendizado de máquina. O treinamento de um modelo da escala do Gemini Ultra exigiu o uso de múltiplos pods de TPUs, coordenados em uma infraestrutura massivamente paralela. O conjunto de dados de treinamento não foi divulgado em detalhes por razões competitivas, mas é descrito no relatório técnico como sendo multimodal e de escala massiva, composto por bilhões de documentos da web, livros, código-fonte, imagens, áudio e vídeos.[5] O processo de treinamento incluiu técnicas avançadas de ajuste fino, como o aprendizagem por reforço com feedback humano (RLHF), para alinhar as respostas do modelo com as preferências humanas em termos de utilidade e segurança.

Janela de contexto

editar

A versão 1.5 Pro possuía sua janela de contexto, que começou com 128 mil tokens e foi expandida para 1 milhão de tokens, com testes internos mostrando a viabilidade de até 10 milhões de tokens.[27] A janela de contexto refere-se à quantidade de informação (tokens) que o modelo pode considerar de uma só vez ao gerar uma resposta. Uma janela de 1 milhão de tokens permite que o Gemini analise e raciocine sobre volumes de dados sem precedentes em uma única solicitação, como um livro de 1.500 páginas, uma base de código com dezenas de arquivos, ou uma hora inteira de vídeo, mantendo a coerência e a relevância em suas respostas.

Modelos

editar

A estratégia do Google foi criar uma família de modelos otimizada para diferentes casos de uso, desde grandes centros de dados até dispositivos móveis.

  • Gemini Ultra 1.0: O modelo mais potente e de maior escala, projetado para tarefas de alta complexidade que exigem raciocínio profundo. É o primeiro modelo a superar o desempenho de especialistas humanos no benchmark MMLU (Massive Multitask Language Understanding), que avalia conhecimento e capacidade de resolução de problemas em 57 matérias.[28]
  • Gemini Pro e Pro 1.0: Um modelo versátil, otimizado para escalar em uma ampla gama de tarefas. É o modelo que alimenta a versão padrão do chatbot Gemini e está disponível para desenvolvedores via API.
  • Gemini 3.1 Pro: lançamento da versão preview em fevereiro de 2026., um aprimoramento na resolução de problemas avançados,[6] otimizado para uso no desenvolvimento de software, fluxos de trabalho agênticos que exige a execução confiável, simplificação de sistemas complexos, como gerar animações no formato SVG usando prompt de texto, recursos visuais escaláveis em um arquivo de pequeno tamanho (menor que vídeo tradiconal).[6] No teste ARC-AGI-2, o benchmark que avalia a habilidade de resolver padrões lógicos novos, a IA alcançou pontuação de 77,1%, sendo mais que o dobro do desempenho de raciocínio da versão 3 Pro.[6] A versão preview é para validar a tecnologia internamente e avançar no desenvolvimento de fluxos de trabalho com agentes autônomos, mas desenvolvedores e empresas podem acessar a prévia através da API do Gemini em ferramentas como o AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI e, Android Studio.[6]

Segurança, ética e, controvérsias

editar

O desenvolvimento e lançamento do Gemini foram acompanhados por um intenso foco em segurança e por controvérsias significativas que destacaram os desafios da IA generativa.

Abordagem de segurança

editar

O Google afirma seguir um conjunto de Princípios de IA e implementar um ciclo de vida de desenvolvimento robusto para segurança. Isso inclui a criação de classificadores de segurança específicos para identificar e filtrar conteúdo prejudicial (como discurso de ódio ou desinformação), e a realização de red teaming, onde equipes internas e externas tentam ativamente "quebrar" o modelo para descobrir vulnerabilidades antes do lançamento.[29] Apesar dessas medidas, os modelos de grande escala ainda enfrentam desafios como "alucinações" (geração de informações factualmente incorretas) e a reprodução de vieses presentes nos dados de treinamento.

Controvérsia da geração de imagens

editar

Em fevereiro de 2024, após o lançamento da ferramenta de geração de imagens (usando o modelo Imagen 2), usuários relataram imprecisões históricas e raciais. O problema surgiu de uma tentativa de "correção de rumo" excessiva para garantir diversidade. Por exemplo, ao solicitar imagens de soldados alemães em 1943, o modelo gerava imagens de soldados negros ou asiáticos com uniformes nazistas. Ao pedir por "pais fundadores dos Estados Unidos", gerava imagens de pessoas não brancas.[30][31]

As imprecisões levaram o Google a suspender a funcionalidade de geração de imagens de pessoas. A empresa reconheceu que os controles de diversidade foram mal calibrados, não levando em conta contextos onde a precisão histórica é primordial.[32] Na ocasião, o CEO Sundar Pichai, em um memorando interno, declarou que os equívocos gerados pela ferramenta eram "completamente inaceitáveis".[33]

Relançamento e integração no ecossistema Google

editar

A estratégia do Google com Gemini é infundir IA em todos os seus principais produtos, fazer a integração no ecossistema Google, transformando a experiência do usuário e do desenvolvedor. Em 6 de dezembro de 2023, o Google apresentou o Gemini, um poderoso modelo de IA multimodal, integrado ao Bard, que na época passou a rodar com Gemini Pro, e definido para alimentar o “Bard Advanced” em 2024. O Bard, com uma média de 220 milhões de visitantes mensais, ganhou recursos de geração de imagens usando o modelo Imagen 2 do Google Brain em fevereiro de 2024.[34] Em 8 de fevereiro de 2024, o Google unificou o Bard e o Duet AI sob a marca Gemini, lançou um aplicativo móvel no Android e integrou o serviço ao Google app no iOS. Os usuários do Android viram o Gemini substituir o Assistant como o assistente virtual padrão. O Google também apresentou o “Gemini Advanced with Ultra 1.0” por meio de uma assinatura “Google One AI Premium” e integrou o Gemini ao seu aplicativo Messages.[26]

No Google Workspace e Chrome

editar

A integração mais proeminente para consumidores e empresas é no Google Workspace. Sob a marca "Gemini for Workspace", a IA atua como um assistente de produtividade. No Gmail, ajuda a redigir, resumir e responder e-mails. No Google Docs, funciona como um parceiro de escrita, gerando rascunhos e reescrevendo textos. No Google Sheets, ajuda a organizar dados e criar fórmulas complexas. No Google Slides, gera imagens e layouts para apresentações. No Google Meet, fornece resumos de reuniões e tradução em tempo real.[35] O navegador Google Chrome também integrou o Gemini para permitir resumos de páginas e assistência de escrita diretamente na barra de endereços.

No Android e para desenvolvedores

editar

No Android, o Gemini está posicionado para ser o sucessor do Google Assistente. O aplicativo Gemini dedicado permite uma interação mais rica e contextual. A integração com o sistema operacional é aprofundada pelo Gemini Nano, que permite processamento de IA no próprio dispositivo, garantindo privacidade e velocidade para tarefas como transcrições e respostas inteligentes. Para desenvolvedores, o Google oferece acesso aos modelos Gemini através da plataforma Google Cloud, especificamente via Vertex AI e Google AI Studio. O AI Studio fornece uma interface web para prototipagem rápida, enquanto o Vertex AI oferece uma plataforma completa para construir, treinar, ajustar (fine-tune) e implantar modelos de IA em escala empresarial, com controle total sobre os dados e a infraestrutura.

Ver também

editar

Referências

  1. Redação (25 de julho de 2024). «Google anuncia IA Gemini 1.5 Flash gratuita». TI INSIDE Online. Consultado em 1 de novembro de 2024 
  2. «Google lança versão avançada do Gemini, sua inteligência artificial mais poderosa, e aposenta o nome 'Bard'». G1. 8 de fevereiro de 2024. Consultado em 9 de fevereiro de 2024 
  3. Maraccini, Gabriela. «Google lança versão avançada de Gemini e anuncia fim do Bard». CNN Brasil. Consultado em 10 de abril de 2024 
  4. «Introducing Gemini: our largest and most capable AI model». Google Blog. 6 de dezembro de 2023. Consultado em 6 de dezembro de 2024 
  5. a b c «Gemini: A Family of Highly Capable Multimodal Models (Technical Report)» (PDF). Google. 6 de dezembro de 2023. Consultado em 7 de dezembro de 2024 
  6. a b c d e Faustino, Felipe. «Google lança Gemini 3.1 Pro, com o dobro do poder de raciocínio • Tecnoblog». Tecnoblog. Consultado em 10 de abril de 2026 
  7. «Pré-lançamento do Gemini 3.1 Pro». Google Ai Dev. 1 de abril de 2026. Consultado em 10 de abril de 2026 
  8. Konrad, Alex; Cai, Kenrick (2 de fevereiro de 2023). «Inside ChatGPT's Breakout Moment And The Race To Put AI To Work». Forbes. Consultado em 6 de fevereiro de 2023. Cópia arquivada em 2 de fevereiro de 2023 
  9. Vincent, James (5 de dezembro de 2022). «AI-generated answers temporarily banned on coding Q&A site Stack Overflow». The Verge. Consultado em 5 de dezembro de 2022. Cópia arquivada em 17 de janeiro de 2023 
  10. Olson, Parmy (7 de dezembro de 2022). «Google Faces a Serious Threat From ChatGPT». The Washington Post. ISSN 0190-8286. Consultado em 6 de fevereiro de 2023. Cópia arquivada em 7 de dezembro de 2022 
  11. Grant, Nico; Metz, Cade (21 de dezembro de 2022). «A New Chat Bot Is a 'Code Red' for Google's Search Business». The New York Times. ISSN 0362-4331. Consultado em 30 de dezembro de 2022. Cópia arquivada em 21 de dezembro de 2022 
  12. Grant, Nico (20 de janeiro de 2023). «Google Calls In Help From Larry Page and Sergey Brin for A.I. Fight». The New York Times. ISSN 0362-4331. Consultado em 6 de fevereiro de 2023. Cópia arquivada em 20 de janeiro de 2023 
  13. Condon, Stephanie (18 de maio de 2021). «Google I/O 2021: Google unveils new conversational language model, LaMDA». ZDNet. Consultado em 12 de junho de 2022. Cópia arquivada em 18 de maio de 2021 
  14. Roth, Emma (5 de março de 2023). «Meet the companies trying to keep up with ChatGPT». The Verge. Consultado em 9 de março de 2023. Cópia arquivada em 5 de março de 2023 
  15. Kleinman, Zoe (1 de fevereiro de 2023). «ChatGPT firm trials $20 monthly subscription fee». BBC News. Consultado em 10 de abril de 2023. Cópia arquivada em 1 de fevereiro de 2023 
  16. Elias, Jennifer (13 de dezembro de 2022). «Google execs warn company's reputation could suffer if it moves too fast on AI-chat technology». CNBC. Consultado em 6 de fevereiro de 2023. Cópia arquivada em 13 de dezembro de 2022 
  17. Vincent, James (14 de dezembro de 2022). «Google won't launch ChatGPT rival because of 'reputational risk'». The Verge. Consultado em 6 de fevereiro de 2023. Cópia arquivada em 14 de dezembro de 2022 
  18. Cuthbertson, Anthony (16 de janeiro de 2023). «DeepMind's AI chatbot can do things that ChatGPT cannot, CEO claims». The Independent. Consultado em 6 de fevereiro de 2023. Cópia arquivada em 16 de janeiro de 2023 
  19. Elias, Jennifer (31 de janeiro de 2023). «Google is asking employees to test potential ChatGPT competitors, including a chatbot called 'Apprentice Bard'». CNBC. Consultado em 2 de fevereiro de 2023. Cópia arquivada em 2 de fevereiro de 2023 
  20. a b O'Brien, Matt (1 de fevereiro de 2023). «Google has the next move as Microsoft embraces OpenAI buzz». Associated Press. Consultado em 6 de fevereiro de 2023. Cópia arquivada em 1 de fevereiro de 2023 
  21. «An important next step on our AI journey». Google Blog. 6 de fevereiro de 2023. Consultado em 7 de dezembro de 2024 
  22. «Google announces Bard, a ChatGPT rival based on its LaMDA language model». The Verge. 6 de fevereiro de 2023. Consultado em 7 de dezembro de 2024 
  23. «Google's AI chatbot Bard blunder wipes $100 billion off Alphabet's market value». Reuters. 8 de fevereiro de 2023. Consultado em 7 de dezembro de 2024 
  24. «Bard is now available for early access». Google Blog. 21 de março de 2023. Consultado em 7 de dezembro de 2024 
  25. «Introducing Gemini: our largest and most capable AI model». Google Blog. 6 de dezembro de 2023. Consultado em 6 de dezembro de 2024 
  26. a b c «Bard becomes Gemini: Try Ultra 1.0 and a new mobile app today». Google (em inglês). 8 de fevereiro de 2024. Consultado em 31 de julho de 2024 
  27. Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as "refs" nomeadas "Gemini1.5"
  28. «Introducing Gemini: our largest and most capable AI model». Google Blog. 6 de dezembro de 2023. Consultado em 6 de dezembro de 2024 
  29. «Construído com a segurança em primeiro lugar». Google Safety Center. Consultado em 8 de dezembro de 2024 
  30. «Google pausa geração de imagens do Gemini após IA apresentar erros raciais e históricos». G1. 22 de fevereiro de 2024. Consultado em 10 de abril de 2024 
  31. «Google's Gemini image generator is producing racially diverse Nazis». The Verge. 21 de fevereiro de 2024. Consultado em 7 de dezembro de 2024 
  32. «A note on Gemini image generation». Google Blog. 23 de fevereiro de 2024. Consultado em 7 de dezembro de 2024 
  33. «Viés do Gemini é "ofensivo" e "inaceitável", diz CEO do Google». Brazil Journal. 28 de fevereiro de 2024. Consultado em 10 de abril de 2024 
  34. Kruppa, Miles (6 de dezembro de 2023). «Google Announces AI System Gemini After Turmoil at Rival OpenAI». The Wall Street Journal 
  35. «Gemini for Google Workspace». Google Workspace. Consultado em 7 de dezembro de 2024 

Ligações externas

editar

📚 Artikel Terkait di Wikipedia

Arquivos de Epstein

REMOVE NAME OF SENATOR GEORGE J. MITCHELL FROM ITS PRESTIGIOUS SCHOLARSHIP PROGRAM» (Nota de imprensa) (em inglês). US-Ireland Alliance. 1 de fevereiro de

TikTok

chat app». Associated Press News. 18 agosto 2021. Consultado em 19 agosto 2021. Arquivado do original em 18 agosto 2021  «Fretting about data security,

ChatGPT

«Lawyers blame ChatGPT for tricking them into citing bogus case law». Associated Press. Consultado em 8 de novembro de 2023. Cópia arquivada em 8 de novembro

Beverly Hills, 90210

«'Barrados' sem data de volta; Stanislaw pode virar seriado; Carlos Menem dá bolo em Xuxa; 'A Viagem' estréia em Portugal; Daniela cogita novo programa; Promoção

Guerra do Irã

attacks on Israel and on shipping routes». The Times of Israel (em inglês). Associated Press. 28 de fevereiro de 2026. ISSN 0040-7909. Consultado em 28 de fevereiro

Copa do Mundo FIFA de 2026

de 2026  Henry, Genevieve (22 de abril de 2026). «MSU Turf Management Program provides grass for World Cup». The State News. Consultado em 25 de abril

Temporada da NBA de 2025-26

2026  «Xfinity Mobile lands naming rights deal to 76ers, Flyers arena». Associated Press. ESPN. 6 de maio de 2025. Cópia arquivada em 1 de julho de 2025 

Arquivos UAP dos Estados Unidos

conspiração de longa data. A partir de 2017, o New York Times e outros meios de comunicação divulgaram os vídeos de UFOs do Pentágono e programas secretos do governo