O esforço faz parte do plano agressivo do Google para tornar suas unidades de processamento de tensores uma alternativa viável às GPUs líderes de mercado da Nvidia.
Por Redação, com Reuters – de São Francisco
O Google está trabalhando em uma nova iniciativa para tornar seus chips de inteligência artificial melhores na execução do PyTorch, a estrutura de software de inteligência artificial mais usada no mundo, em um movimento que visa enfraquecer o domínio de longa data da Nvidia no mercado de computação de IA, de acordo com pessoas familiarizadas com o assunto.

O esforço faz parte do plano agressivo do Google para tornar suas unidades de processamento de tensores uma alternativa viável às GPUs líderes de mercado da Nvidia. As vendas de TPUs se tornaram um mecanismo de crescimento crucial da receita de computação em nuvem do Google, com a empresa buscando provar aos investidores que seus investimentos em IA estão gerando retornos.
Mas o hardware por si só não é suficiente para estimular a adoção. A nova iniciativa, conhecida internamente como “TorchTPU”, tem como objetivo remover uma barreira importante que retardou a adoção dos chips TPU, tornando-os totalmente compatíveis e fáceis de desenvolver para os clientes que já construíram sua infraestrutura tecnológica usando o software PyTorch, disseram as fontes. O Google também está considerando a possibilidade de abrir partes do software para acelerar a adoção entre os clientes, disseram algumas das fontes.
Em comparação com tentativas anteriores de oferecer suporte ao PyTorch em TPUs, o Google dedicou mais foco organizacional, recursos e importância estratégica ao TorchTPU, à medida que cresce a demanda de empresas que querem adotar os chips, mas veem a pilha de software como um gargalo, disseram as fontes.
O PyTorch, um projeto de código aberto fortemente apoiado pela Meta, é uma das ferramentas mais usadas pelos desenvolvedores que criam modelos de IA. No Vale do Silício, pouquíssimos desenvolvedores escrevem cada linha de código que os chips da Nvidia, da AMD ou do Google realmente executarão.
Em vez disso, esses desenvolvedores contam com ferramentas como o PyTorch, que é uma coleção de bibliotecas e estruturas de código pré-escrito que automatizam muitas tarefas comuns no desenvolvimento de software de IA. Lançado originalmente em 2016, a história do PyTorch está intimamente ligada ao desenvolvimento do CUDA pela Nvidia, o software que alguns analistas de Wall Street consideram o escudo mais forte da empresa contra os concorrentes.
Os engenheiros da Nvidia passaram anos garantindo que o software desenvolvido com o PyTorch fosse executado da forma mais rápida e eficiente possível em seus chips. O Google, por outro lado, há muito tempo faz com que seus exércitos internos de desenvolvedores de software usem uma estrutura de código diferente chamada Jax, e seus chips TPU usam uma ferramenta chamada XLA para fazer com que esse código seja executado com eficiência. Grande parte da pilha de software de IA e da otimização de desempenho do próprio Google foi criada em torno do Jax, ampliando a lacuna entre a forma como o Google usa seus chips e como os clientes desejam usá-los.
Um porta-voz do Google Cloud não comentou sobre as especificidades do projeto, mas confirmou à Reuters que a mudança oferecerá opções aos clientes.
– Estamos vendo uma demanda massiva e acelerada por nossa infraestrutura de TPU e GPU – disse o porta-voz. “Nosso foco é fornecer a flexibilidade e a escala de que os desenvolvedores precisam, independentemente do hardware que escolherem para construir.”
TPU para clientes
A Alphabet há muito tempo reservava a maior parte de seus próprios chips, ou TPUs, apenas para uso interno. Isso mudou em 2022, quando a unidade de computação em nuvem do Google fez um lobby bem-sucedido para supervisionar o grupo que vende TPUs. A mudança aumentou drasticamente a alocação de TPUs do Google Cloud e, como o interesse dos clientes em IA cresceu, o Google procurou capitalizar aumentando a produção e as vendas de TPUs para clientes externos.
Mas a incompatibilidade entre as estruturas PyTorch usadas pela maioria dos desenvolvedores de IA do mundo e as estruturas Jax para as quais os chips do Google estão atualmente mais bem ajustados significa que a maioria dos desenvolvedores não pode adotar facilmente os chips do Google e fazer com que eles tenham um desempenho tão bom quanto os da Nvidia sem realizar um trabalho de engenharia extra e significativo. Esse trabalho leva tempo e dinheiro na corrida acelerada da IA.
Se for bem-sucedida, a iniciativa “TorchTPU” do Google poderá reduzir significativamente os custos de troca para empresas que desejam alternativas às GPUs da Nvidia. O domínio da Nvidia foi reforçado não apenas por seu hardware, mas por seu ecossistema de software CUDA, que está profundamente incorporado ao PyTorch e se tornou o método padrão pelo qual as empresas treinam e executam grandes modelos de IA.
Os clientes corporativos têm dito ao Google que as TPUs são mais difíceis de serem adotadas para cargas de trabalho de IA porque, historicamente, elas exigem que os desenvolvedores mudem para o Jax, uma estrutura de aprendizado de máquina favorecida internamente no Google, em vez do PyTorch, que a maioria dos desenvolvedores de IA já usa, disseram as fontes.
Esforços conjuntos com Meta
Para acelerar o desenvolvimento, o Google está trabalhando em estreita colaboração com a Meta, a criadora e administradora do PyTorch, segundo as fontes. Os dois gigantes da tecnologia estão discutindo acordos para que a Meta tenha acesso a mais TPUs.
As primeiras ofertas para a Meta foram estruturadas como serviços gerenciados pelo Google, nos quais clientes como a Meta instalam chips do Google projetados para executar software e modelos do Google, com o Google fornecendo suporte operacional. A Meta tem interesse estratégico em trabalhar em um software que facilite a execução de TPUs, em uma tentativa de reduzir os custos de inferência e diversificar sua infraestrutura de IA para longe das GPUs da Nvidia, a fim de ganhar poder de negociação, disseram as pessoas.
A Meta não quis comentar.
Este ano, o Google começou a vender TPUs diretamente nos data centers dos clientes, em vez de limitar o acesso à sua própria nuvem. Amin Vahdat, um veterano do Google, foi nomeado chefe de infraestrutura de IA este mês, reportando-se diretamente ao presidente-executivo, Sundar Pichai.
O Google precisa dessa infraestrutura tanto para executar seus próprios produtos de IA, incluindo o chatbot Gemini e a pesquisa baseada em IA, quanto para fornecer aos clientes do Google Cloud, que vende acesso a TPUs para empresas de IA como a Anthropic.