Skip to main content

Google acaba de revelar seus novos LLMs (Large Language Models, em tradução livre, Modelos de Linguagem Grande), chamados Gemini. Segundo o gigante da tecnologia, esses novos modelos são capazes de processar não somente palavras, mas também imagens e sons. O projeto, que está sendo desenvolvido pelo setor de inteligência artificial DeepMind, é mais um dos esforços da empresa para se manter dentro das tendências impostas por ferramentas como o ChatGPT, da OpenAI.

Para este novo projeto, o Google está lançando o Gemini em diversos modelos, como o Ultra, de grande porte e destinado para tarefas complexas, e o Pro, de porte médio e voltado para atividades genéricas e do cotidiano. Por fim, o menor modelo, o Nano, foi projetado para dispositivos móveis, algo que já está no radar da empresa para ser adicionado ao sistema operacional Android de um dos seus telefones celulares em 2024.

Entre os modelos atuais, o Ultra supera os resultados dos demais, alcançando uma pontuação de 90% em um teste chamado “Compreensão de Linguagem Multitarefa Massiva”, que avalia, de forma desafiadora, a capacidade de compreensão de um modelo em mais de 50 áreas do conhecimento, incluindo matemática, física, medicina e história. Segundo a empresa, este é o primeiro LLM a superar a maioria dos humanos no teste.

Esses modelos foram treinados previamente por meio do processamento de uma grande quantidade de dados por conta própria. Um porta-voz do Google comentou que os modelos foram abastecidos com dados do YouTube, mas não especificou se esse treinamento aconteceu com eles literalmente assistindoaos vídeos (uma descoberta que seria de grande impacto para o setor).

Essa funcionalidade abriria portas para inúmeras possibilidades, incluindo a capacidade de analisar objetos do mundo real através das lentes de um futuro headset de realidade aumentada, como o Apple Vision Pro. Embora recursos semelhantes possam ser desenvolvidos pela concorrência, como a Meta, de Mark Zuckerberg, a capacidade de processamento visual e auditivo em tempo real representa uma área de destaque para futuros desenvolvimentos tecnológicos.

Durante a apresentação à imprensa nesta semana, o Google exibiu um vídeo mostrando o Gemini raciocinando com um conjunto de imagens. No vídeo, uma pessoa colocou uma laranja e um brinquedo de fidget sobre a mesa diante de uma lente conectada ao Gemini. O Gemini identificou imediatamente ambos os objetos e respondeu com uma relação inteligente entre os dois itens:

Os cítricos podem ter um efeito calmante, assim como o movimento de um brinquedo de fidget, expressou a IA em voz alta.

Em outro vídeo, o Gemini foi demonstrado em um teste de matemática onde um usuário escreveu suas equações para um problema. O Gemini então identificou e explicou os erros nos cálculos do estudante.

A curto prazo, os recursos do Gemini podem ser experimentados através do chatbot do Google conhecido como Bard. A empresa afirma que ele será alimentado pelo modelo Gemini Pro, o que provavelmente concederá ao chatbot habilidades de aprendizado e raciocínio mais avançadas. Segundo Sissie Hsiao, vice-presidente e gerente geral de Assistente e Bard do Google, o Bard será atualizado para o modelo Ultra no próximo ano. Desenvolvedores e clientes corporativos terão acesso ao Gemini Pro por meio de uma API fornecida pelo Google Cloud a partir de 13 de dezembro.

* Com informações da Fast Company

 

Acompanhe o Adnews no InstagramLinkedIn e Threads. #WhereTransformationHappens ????