Amazon investe US$ 2,75 bilhões em IA! Se a Microsoft possui metade da OpenAI que não saiu, então a Amazon e sua divisão de nuvem Amazon Web Services precisam de algo similar. Ou seja, da metade da OpenAI que saiu – significando a Anthropic. Isso significa que a Amazon precisa investir muito mais dinheiro do que o Google, que também investiu na Anthropic. Mas o Google também possui seu próprio Gemini LLM, e se espera ter mais alavancagem – e obter os aluguéis do sistema de GPU em troca.
Vivemos em tempos estranhos. A Microsoft investir US$ 13 bilhões na OpenAI – com uma promessa de US$ 10 bilhões no ano passado. Agora a Amazon vai cumprir sua promessa de investir US$ 4 bilhões na Anthropic. Isto porque vai injetar a segunda parcela de US$ 2,75 bilhões. Assim, executa uma maneira brilhante de adquirir uma participação em qualquer startup de IA. Você obtém acesso aos modelos da startup, entende o rumo deles e é o primeiro a comercializar seus produtos em escala.
Amazon e Microsoft investindo pesado em IA
Adoraríamos ver como a Microsoft e a OpenAI e a Amazon e a Anthropic estão registrando esses investimentos. Além disso, como a licença de LLMs e o aluguel de máquinas para treiná-los e executá-los em produção como parte dos produtos. Há um perigo de isso parecer um “roundtripping”. De tal forma que o dinheiro simplesmente se move do gigante de TI para a startup de IA como investimento. Depois, volta para o gigante de TI. Seria esclarecedor ver como esses acordos são realmente estruturados.
Se você pudesse se safar disso, faria. E se você é Amazon/AWS ou Microsoft/Azure, daria à Anthropic ou à OpenAI grandes quantias de dinheiro. Além disso, sabendo muito bem que a grande maioria voltaria como vendas de instâncias de GPU reservadas na nuvem. Bem, no caso da OpenAI, parte desse dinheiro pode ser usado para criar ASICs personalizados para inferência e treinamento de IA. . . . que a Microsoft já está fazendo com sua linha de chips Maia 100.
Tempo é dinheiro
Quanto dinheiro estamos falando para treinar esses modelos de IA? Muito. No seu discurso de abertura na conferência GTC 2024 na semana passada, o co-fundador e CEO da Nvidia, Jensen Huang, disse algo interessante. Isto porque confirmou que levou 90 dias e 15 megawatts de energia para treinar um LLM GPT-4 Mixture of Experts de 1,8 trilhão de parâmetros da OpenAI. O sistema usado foi um cluster de SuperPODs baseado nas GPUs H100 “Hopper”. Além disso, usou InfiniBand fora do nó e NVLink 3 dentro do nó para criar um complexo de computação HGX de oito CPUs.
Microsfot
Microsoft ainda não fornece preços de suas instâncias ND H100 v5, mas é $ 27.197 por hora para a instância ND96asr A100 v4 de oito GPUs sob demanda e $ 22.62 por instância para um plano de “economia” reservado de um ano.
AWS
No AWS, a instância p4de.24xlarge A100, que é baseada no mesmo complexo HGX A100 de oito vias que a instância ND96asr A100 v4 da Microsoft, custa $ 40.96 por hora sob demanda e $ 24.01 por hora com um ano de capacidade reservada. Na nova instância p5.48xlarge com base nos H100s, lançada em julho passado e essencialmente com a mesma arquitetura, acreditamos que custa $ 98.32 por hora com um complexo de computação HGX H100 de oito GPUs, e acreditamos que uma instância reservada de um ano custa $ 57.63.
No AWS, para treinar o GPT-4 1.8T MoE em 90 dias, você precisa de 1.000 desses nós HGX H100. Se você tivesse 100 nós, levaria cerca de 90 dias e se você tivesse 3.000 nós, ou cerca de 24.000 GPUs H100, levaria cerca de 30 dias. O tempo definitivamente é dinheiro aqui. Com 1.000 nós, um cluster de 8.000 GPUs H100 usando as instâncias p5.48xlarge da AWS custaria $ 124,5 milhões. Se a Microsoft mantiver sua vantagem de preços sobre a AWS, suas instâncias serão 5,8% mais baratas, ou $ 117,3 milhões. Para treinar o GPT-4 1.8T MoE em 30 dias em vez de 90 dias, você está falando em $ 351,8 milhões.
Este é o custo para um modelo, uma vez. A OpenAI e a Anthropic – e outras – precisam treinar muitos LLMs em grande escala por um longo tempo. Eles precisam testar novas ideias e novos algoritmos. A esses preços, US$ 4 bilhões apenas cobrem o custo de treinar cerca de três dúzias de LLMs de parâmetros de 2 trilhões em um período de 90 dias. Com o tempo, e à medida que a base de clientes da Anthropic cresce e o uso da Claude LLMs pela Amazon cresce, a inferência será uma parte maior desse orçamento.
Parceiros com bolsos fundos
Você pode ver por que qualquer pessoa que treina IA generativa em escala precisa de um parceiro com muito hardware e bolsos fundos. Isso explica por que Google, Microsoft, AWS e Meta Platforms dominarão a vanguarda dos modelos e por que a Cerebras Systems precisa de um parceiro (G42) com bolsos fundos para ajudá-la a construir US$ 1 bilhão em sistemas para validar a arquitetura de seus sistemas. Como você pode ver, US$ 1 bilhão ou US$ 4 bilhões ou US$ 13 bilhões não vão muito longe na nuvem. E é por isso que Microsoft e AWS estão investindo na OpenAI e na Anthropic.
Aqui está outra coisa a considerar: só custa cerca de US$ 1,2 bilhão possuir uma máquina com 24.000 GPUs H100, então se você executar o modelo GPT-4 1.8T MoE quatro vezes em uma nuvem, você pode muito bem comprar o hardware você mesmo. Ah, espera, você não pode. Os hiperescaladores e construtores de nuvem têm um domínio sobre o fornecimento de GPUs; eles estão na frente da fila de alocação de GPU da Nvidia, e você certamente não está.
Se você fizer as contas do custo de um sistema H100 de 24.000, isso dá cerca de US$ 46 por instância de HGX H100 por hora para possuí-lo. Obviamente, esse preço por hora não inclui o custo do data center em torno da máquina, a energia e o resfriamento para essa máquina, o gerenciamento do cluster ou o software de sistema para prepará-lo para executar LLMs.
Blackwell entra em cena
Agora, com as GPUs “Blackwell” recentemente lançadas, Huang disse à CNBC que esses dispositivos custariam entre US$ 30.000 e US$ 40.000, que presumimos ser um preço de lista da Nvidia, não o preço de rua que certamente será mais alto. Pensamos que o preço de lista do H100 era de cerca de US$ 21.500 e que o B200 de ponta oferecerá cerca de 2,5 vezes o desempenho com a mesma precisão. Isso é 2,5 vezes o poder de fogo pelo preço de 1,9 vezes, o que é apenas uma melhoria de 26% em preço/desempenho com a mesma precisão nos núcleos tensoriais. Obviamente, se você mudar de precisão FP8 para FP4 para inferência, então é um aumento de preço/desempenho de 63%.
Tudo isso explica por que os construtores de nuvem e as startups de IA dominantes são parceiros não tão estranhos. Como parte do acordo, a Anthropic vai portar sua família de LLMs Claude para os ASICs personalizados Trainium e Inferentia. Isto porque foram projetados pela AWS para uso interno e para clientes de nuvem. A AWS alega que pode reduzir o custo de execução de IA generativa em 50% ou mais em comparação com GPUs. Então isso claramente vai ajudar não apenas a impulsionar a adoção de IA generativa no serviço Bedrock, que agora tem mais de 10.000 clientes e que acabou de entrar em produção em outubro de 2023, mas também dar à empresa-mãe Amazon um LLM – Claude 3 e gerações posteriores – e uma plataforma de hardware que ela controla e pode usar para adicionar GenAI a muitos de seus aplicativos e linhas de negócios.
Parcerias estratégicas de IA
Enquanto pensamos nos construtores de nuvem e seus parceiros de startups de LLM de IA, nos perguntamos se não há outro tipo de ida e volta financeira acontecendo.
Se fôssemos OpenAI ou Anthropic, não apenas gostaríamos de licenciar nossos LLMs para a Microsoft e AWS, mas também poderíamos pedir um acordo de compartilhamento de receita conforme as funções GenAI são adicionadas aos aplicativos. Isso pode ser difícil de gerenciar e policiar, é claro, mas achamos que, no final, a contagem de geração de tokens terá que ser feita para que a receita possa escalar com o uso. Não achamos que a OpenAI ou a Anthropic sejam tão tolas a ponto de dar a seus parceiros de nuvem licenças baratas e perpétuas para seus LLMs. Mas, então novamente, com hardware de GPU sendo tão difícil de encontrar em escala, talvez eles não tivessem escolha para esses casos especiais.