Cabeamento de Data Centers que implementam IA

Por décadas, o perigo da inteligência artificial (IA) maliciosa tem sido um tema recorrente na ficção científica. Antagonistas de filmes como HAL 9000, o Exterminador, os Replicantes e os robôs da Matrix são forças opostas aos humanos corajosos que devem superar os perigos da tecnologia. Recentemente, o lançamento do DALLE-2 e do ChatGPT capturou a imaginação do público em geral sobre o que a IA pode fazer. Isso levou a discussões sobre como ela mudará a natureza da educação e do trabalho.

 A Inteligência Artificial é o principal motor para o crescimento atual e futuro dos data centers. Existem três aspectos importantes nela:

  • Durante seu desenvolvimento, um grande conjunto de dados é alimentado no algoritmo, permitindo que ele aprenda.
  • A IA de inferência coleta informações e as analisa. Por exemplo, ao ser apresentada a imagem de um gato, ela realizará a análise técnica, para que as definições sejam concluídas e suas devidas características sejam finalizadas.
  • A IA generativa é a mais empolgante porque, a partir de simples prompts, o algoritmo pode gerar texto ou imagens nunca criados.

 O cálculo para a IA é realizado em unidades de processamento gráfico (GPUs). Esses chips especializados são melhores em processamento paralelo e são bem adequados para a IA. Tais modelos usados para treinar e executar a IA, são muito grandes para uma única máquina. A Figura a seguir mostra o crescimento histórico dos modelos de IA em PetaFLOPs (operações de ponto flutuante). Múltiplas GPUs, distribuídas por muitos servidores e racks, são necessárias para lidar com esses grandes modelos.

Essas GPUs precisam ser conectadas para permitir que elas façam o trabalho da IA, e este artigo descreve os desafios e oportunidades do cabeamento de data centers de IA.

Os data centers que implementam a IA, abrigarão clusters de IA ao lado de clusters de computação com arquitetura tradicional. A computação tradicional é às vezes chamada de rede front-end, e os clusters de IA são às vezes chamados de rede back-end.

Data halls com clusters de IA

 Os clusters de IA requerem uma nova arquitetura de data center. Os servidores GPU demandam muito mais conectividade entre servidores, mas há menos servidores por rack devido às restrições de energia e calor. Isso leva a situações em que temos mais cabeamento interrack do que data centers tradicionais. Cada servidor GPU está conectado a um switch dentro da linha ou sala.

Esses links requerem de 100G a 400G em distâncias que não podem ser suportadas por cobre. Além disso, cada servidor requer conectividade com o tecido do switch, armazenamento e gerenciamento fora de banda.

Quais são os comprimentos de link em um cluster de IA?

No cenário ideal ilustrado pela NVIDIA (empresa de tecnologia situada na Califórnia), todos os servidores GPU em um cluster de IA estarão próximos uns dos outros. Algoritmos de IA/aprendizado de máquina, como computação de alto desempenho, são extremamente sensíveis à latência do link.

Uma estimativa afirmou que 30% do tempo para executar um grande modelo de treinamento foi gasto na latência da rede e 70% foi gasto no tempo de computação. Como o treinamento de um grande modelo pode custar até $10 milhões, esse tempo de rede representa um custo significativo.

Mesmo uma economia de latência de 50 nanossegundos, ou 10m de fibra, é significativa. Quase todos os links em clusters de IA são limitados a alcances de 100m. Infelizmente, nem todos os data centers serão capazes de localizar os racks do servidor GPU na mesma linha. Esses racks requerem ~40 quilowatts para alimentar os servidores GPU. Isso é mais energia do que os racks de servidores típicos, e os data centers construídos com requisitos de energia mais baixos precisarão espaçar seus racks de GPU.

No IEEE 802.3db, um novo transceptor multimodo foi padronizado: o VR ou alcance muito curto. Esta aplicação visa o cabeamento em linha como clusters de IA com alcance máximo de 50m. Esses transceptores têm o potencial de oferecer o menor custo e consumo de energia para conectividade de IA.

Transceptores vs. AOCs

 Muitos clusters de IA/ML e HPCs usam cabos ópticos ativos (AOCs) para interconectar GPUs e switches. Um cabo óptico ativo é um cabo de fibra com transmissores ópticos integrados e receptores em ambas as extremidades. A maioria dos AOCs são usados para alcances curtos e tipicamente usam fibra multimodo e VCSELs.

Cabos ópticos ativos de alta velocidade (>40G) usarão a mesma fibra OM3 ou OM4 usada em cabos de fibra que conectam transceptores ópticos. Os transmissores e receptores em um AOC podem ser os mesmos que em transceptores análogos, mas são os descartes; cada transmissor e receptor não precisa atender a especificações rigorosas de interoperabilidade; eles só precisam operar com a unidade específica conectada à outra extremidade do cabo.

Como nenhum conector óptico está acessível ao instalador, as habilidades necessárias para limpar e inspecionar conectores de fibra não são necessárias. A desvantagem dos AOCs é que eles não têm a flexibilidade oferecida pelos transceptores. Instalar corretamente AOCs com breakouts é especialmente desafiador. A taxa de falha é o dobro da dos transceptores equivalentes. Quando um AOC falha, um novo deve ser roteado através da rede. Isso tira do tempo de computação.

 Finalmente, quando chega a hora de atualizar os links da rede, os AOCs devem ser removidos e substituídos por novos. Com transceptores, o cabeamento de fibra faz parte da infraestrutura e pode permanecer no local por várias gerações de taxas de dados.

Conclusões

A consideração cuidadosa do cabeamento de clusters de IA ajudará a economizar custos, energia e tempo de instalação. O cabeamento de fibra certo permitirá que as organizações se beneficiem totalmente da inteligência artificial.

de IA Dr. Earl Parsons, Diretor de Evolução da Arquitetura de Data Center / Data Halls

Compartilhe!
77

Posts Relacionados

plugins premium WordPress

Identifique-se

Insira seus dados abaixo para acessar a Calculadora Laserway