Na Inteligência artificial, o Gemini (inicialmente chamado Bard) é uma família de modelos de linguagem grande (LLMs) multimodais e um chatbot de inteligência artificial generativa, desenvolvido pelo Google em 2023 baseado na família de modelos LaMDA. Foi criado como uma resposta direta ao súbito e massivo sucesso do ChatGPT da OpenAI.
Desde então, passa por uma significativa evolução de marca e de capacidade, através de uma colaboração em larga escala entre várias equipes do Google, notavelmente a Google Brain e a DeepMind, que foram fundidas em uma única unidade, a Google DeepMind, em 2023, para consolidar os esforços de pesquisa em IA da empresa. Atualmente esta na versão 3.1 Pro Preview.
Em novembro de 2022, a OpenAI lançou o ChatGPT, um chatbot baseado na família GPT-3 de modelos de linguagem grande (LLM). Após o seu lançamento, o ChatGPT despertou o interesse mundial, alcançando uma ampla repercussão na rede mundial de computadores, tornando-se o aplicativo de consumo com o crescimento mais rápido da história. Diante do possível risco do ChatGPT para o Google Busca, seu principal produto e fonte de receita, os diretores executivos do Google acionaram um sinal de "código vermelho", uma medida de emergência interna para mobilizar diversas equipes e acelerar drasticamente os esforços da empresa no campo da inteligência artificial (IA). A preocupação era que uma interface de conversação pudesse substituir a necessidade de uma busca tradicional baseada em links, o que representava uma ameaça existencial ao modelo de negócios da companhia. Em uma ação rara e inédita, os cofundadores do Google, Larry Page e Sergey Brin, que haviam se afastado dos cargos de co-CEOs da empresa-mãe Alphabet em 2019, foram chamados para reuniões urgentes com os executivos da empresa para definir a estratégia do Google frente ao ChatGPT e aprovar novos planos de integração de IA em seus produtos.
No começo daquele ano, a empresa já havia apresentado publicamente o LaMDA (Language Model for Dialogue Applications), um protótipo de LLM, durante a conferência Google I/O de 2021. No entanto, o Google adotou uma postura cautelosa e não o disponibilizou para o público, citando a necessidade de refinar a segurança e mitigar riscos de geração de conteúdo prejudicial ou enviesado. Em resposta a uma pergunta de funcionários em uma reunião geral sobre se o LaMDA era uma chance desperdiçada para o Google disputar com o ChatGPT, o CEO do Google e da Alphabet, Sundar Pichai, acompanhado do líder do Google AI, Jeff Dean, declarou que embora a empresa possuísse competências similares ao ChatGPT, agir muito rápido nesse campo implicaria um grande "risco reputacional" devido ao Google ser consideravelmente maior que a OpenAI e ter uma base de usuários global que confia em seus produtos. Em janeiro de 2023, o diretor executivo da DeepMind, Demis Hassabis, anunciou planos para um concorrente do ChatGPT, e os funcionários do Google receberam orientações para acelerar o desenvolvimento de um rival do ChatGPT, realizando testes intensivos no "Apprentice Bard" e em outros chatbots. O Apprentice Bard, em particular, era um dos projetos mais avançados, utilizando a tecnologia LaMDA e sendo testado internamente por milhares de funcionários para refinar suas respostas e segurança. Durante a teleconferência trimestral de resultados do Google em fevereiro, Pichai assegurou aos investidores que a empresa tinha projetos para ampliar a disponibilidade e as aplicações do LaMDA de forma mais ampla e pública em um futuro próximo.
O Google anunciou oficialmente a IA com o nome Bard em 6 de fevereiro de 2023, com Sundar Pichai descrevendo-o como um "serviço de IA conversacional experimental". O lançamento inicial foi limitado a um pequeno grupo de "testadores confiáveis" nos Estados Unidos e no Reino Unido, com planos de expansão gradual. O lançamento foi visto pela imprensa como apressado, ocorrendo um dia antes do anúncio da Microsoft sobre a integração do ChatGPT ao seu buscador Bing. A pressão competitiva ficou evidente quando, durante uma demonstração do Bard em um anúncio promocional, o chatbot forneceu uma resposta factualmente incorreta sobre o Telescópio Espacial James Webb. Esse erro foi amplamente divulgado e contribuiu para uma queda de 100 bilhões de dólares no valor de mercado da Alphabet no dia seguinte, destacando os riscos e a intensa fiscalização sobre a precisão da tecnologia.
O Bard foi aberto ao público nos Estados Unidos e Reino Unido em 21 de março de 2023.
A mudança mais significativa na trajetória do produto ocorreu em 6 de dezembro de 2023, quando o Google apresentou o Gemini. O anúncio destacou que o Gemini Ultra superava o GPT-4 da OpenAI em 30 de 32 benchmarks acadêmicos amplamente utilizados.
Em 8 de fevereiro de 2024, o Google consolidou sua estratégia de marca de IA, aposentando o nome "Bard" e renomeando o chatbot para Gemini. Simultaneamente, a marca "Duet AI", usada para funcionalidades de IA no Google Workspace e Google Cloud, também foi unificada sob a bandeira Gemini. Nesta data, foi lançado o Gemini Advanced, um nível de assinatura premium que dá acesso a versão mais poderosa do modelo, o Gemini Ultra 1.0. Este serviço foi integrado a um novo plano do Google One chamado "AI Premium".
A família de modelos Gemini representa um salto significativo em relação às arquiteturas anteriores como LaMDA e PaLM. Baseada em uma arquitetura Transformer otimizada, sua principal inovação é a natureza nativamente multimodal.
Ao contrário de modelos anteriores que eram treinados primariamente em texto e depois adaptados para outras modalidades (geralmente conectando modelos distintos para cada tarefa), o Gemini foi pré-treinado desde o início com dados de múltiplas modalidades entrelaçados (interleaved). Isso significa que o modelo aprendeu a processar e a encontrar padrões em texto, imagens, áudio, vídeo e código de forma conjunta e unificada, dentro de uma única rede neural. Essa abordagem permite uma compreensão e raciocínio mais fluidos e sofisticados sobre informações heterogêneas. Por exemplo, o Gemini pode analisar um gráfico em uma imagem (visual), ler o texto explicativo (texto), e gerar código Python para replicar os resultados (código), tudo em uma única consulta.
O treinamento foi realizado utilizando a infraestrutura de TPUs (Unidades de Processamento de Tensor) v4 e v5 do Google, que são ASICs customizados para cargas de trabalho de aprendizado de máquina. O treinamento de um modelo da escala do Gemini Ultra exigiu o uso de múltiplos pods de TPUs, coordenados em uma infraestrutura massivamente paralela. O conjunto de dados de treinamento não foi divulgado em detalhes por razões competitivas, mas é descrito no relatório técnico como sendo multimodal e de escala massiva, composto por bilhões de documentos da web, livros, código-fonte, imagens, áudio e vídeos. O processo de treinamento incluiu técnicas avançadas de ajuste fino, como o aprendizagem por reforço com feedback humano (RLHF), para alinhar as respostas do modelo com as preferências humanas em termos de utilidade e segurança.
A versão 1.5 Pro possuía sua janela de contexto, que começou com 128 mil tokens e foi expandida para 1 milhão de tokens, com testes internos mostrando a viabilidade de até 10 milhões de tokens. A janela de contexto refere-se à quantidade de informação (tokens) que o modelo pode considerar de uma só vez ao gerar uma resposta. Uma janela de 1 milhão de tokens permite que o Gemini analise e raciocine sobre volumes de dados sem precedentes em uma única solicitação, como um livro de 1.500 páginas, uma base de código com dezenas de arquivos, ou uma hora inteira de vídeo, mantendo a coerência e a relevância em suas respostas.
A estratégia do Google foi criar uma família de modelos otimizada para diferentes casos de uso, desde grandes centros de dados até dispositivos móveis.
Gemini Ultra 1.0: O modelo mais potente e de maior escala, projetado para tarefas de alta complexidade que exigem raciocínio profundo. É o primeiro modelo a superar o desempenho de especialistas humanos no benchmark MMLU (Massive Multitask Language Understanding), que avalia conhecimento e capacidade de resolução de problemas em 57 matérias.