A corrida pela inovação em inteligência artificial (IA) tem dominado as manchetes de 2023, à medida que empresas competem para encontrar maneiras inovadoras de utilizar essa tecnologia. A Microsoft se destacou ao integrar o ChatGPT ao Bing Chat, impulsionando uma onda de esforços entre líderes inovadores para proteger suas posições. Não ficando para trás, a Google lançou o Google Bard e integrou a IA em diversos de seus produtos voltados para o consumidor. Contudo, parece que a empresa possui ainda mais planos em mente, especialmente com o que almeja alcançar por meio do projeto Gemini.
De acordo com um relatório publicado pelo The Information, citando uma fonte anônima, a Google está trabalhando em seu maior projeto de IA até então, denominado “Gemini“, que poderá ser lançado já em outubro. O Gemini representa a próxima geração dos modelos fundamentais de IA da empresa e engloba um conjunto de modelos de aprendizado de máquina de grande porte.
Com o Gemini, a Google tem a ambição de superar a concorrência que até então focou predominantemente em um único meio para seus modelos de linguagem de grande porte. O projeto busca combinar capacidades textuais conversacionais com geração de imagens por IA, tornando-o mais adequado para casos de uso de propósito geral.
Dessa forma, o Gemini não apenas seria capaz de gerar texto, como o ChatGPT, mas também criar imagens contextuais e, possivelmente, ir além disso. No futuro, essa tecnologia poderá ser empregada para analisar gráficos, criar gráficos com descrições textuais e até mesmo controlar softwares por meio de comandos de texto ou voz.
Projeto já está em treinamento
Surpreendentemente, a Google está utilizando transcrições de vídeos do YouTube para treinar o Gemini. Modelos treinados com base em vídeos do YouTube podem fornecer conselhos com base no conteúdo dos vídeos, como ajudar mecânicos a diagnosticar problemas com base em vídeos de reparos de carros, por exemplo. Além disso, a utilização de conteúdo de vídeos do YouTube pode ajudar a Google a desenvolver software de texto para vídeo.
No entanto, os advogados da empresa monitoram de perto os materiais de treinamento para evitar o uso de materiais protegidos por direitos autorais. Em um caso, os advogados fizeram com que pesquisadores removessem dados de treinamento de livros didáticos devido a preocupações com possíveis reações dos detentores de direitos autorais.
A Google pode integrar o Gemini em sua gama de produtos e serviços, como o Bard, Google Docs e Slides. Espera-se ver algum tipo de lançamento para desenvolvedores do Gemini antes do final do ano, embora a empresa possa começar a usá-lo em alguns produtos para consumidores mais cedo. Desenvolvedores podem esperar ter acesso limitado ao Gemini por meio da plataforma Google Cloud.
Para alcançar esses objetivos e superar a concorrência, a Google, segundo relatos, reuniu vários membros de suas equipes Google Brain e DeepMind para trabalhar no projeto Gemini. Isso inclui Sergey Brin, co-fundador da Google, que desempenha um papel fundamental na avaliação e treinamento dos modelos Gemini. Com essa abordagem ousada, a Google busca moldar o futuro da IA e solidificar seu papel como líder inovador no campo tecnológico.
Fonte: The Information
- Categorias
- Tags