Instâncias P3 do Amazon EC2

Acelere o machine learning e os aplicativos de computação de alta performance com poderosas GPUs

Por que usar instâncias P3 do Amazon EC2?

As instâncias P3 do Amazon EC2 fornecem computação de alta performance na nuvem com até 8 GPUs com NVIDIA® V100 Tensor Core e taxa de transferência de rede de até 100 Gbps para machine learning e aplicativos de HPC. As instâncias possuem até 1 petaflop de desempenho de precisão mista para acelerar significativamente o machine learning e os aplicativos de computação de alta performance. As instâncias P3 do Amazon EC2 demonstraram ser capazes de reduzir o tempo de treinamento de machine learning de dias para minutos, além de aumentar o número de simulações finalizadas para computação de alta performance em 3-4x.

Com até quatro vezes a largura de banda de instâncias P3.16xlarge, as instâncias P3dn.24xlarge do Amazon EC2 são os membros mais novos da família P3, otimizadas para aplicações HPC e machine learning distribuído. Essas instâncias fornecem até 100 Gbps de taxa de transferência de redes, 96 vCPUs Intel® Xeon® escaláveis (Skylake) personalizadas, 8 GPUs NVIDIA® V100 Tensor Core com 32 GiB de memória cada e 1,8 TB de armazenamento SSD baseado em NVMe. As instâncias P3dn.24xlarge também oferecem suporte ao Elastic Fabric Adapter (EFA), que acelera as aplicações distribuídas de machine learning que usam a NVIDIA Collective Communications Library (NCCL). O EFA pode escalar milhares de GPUs, melhorando consideravelmente o rendimento e a escalabilidade dos modelos de treinamento de aprendizagem profunda e possibilitando resultados mais rápidos.

Visão geral de instâncias P3 do Amazon EC2

Benefícios

Para cientistas de dados, pesquisadores e desenvolvedores que precisam aumentar a velocidade de suas aplicações de machine learning, as instâncias P3 do Amazon EC2 são as mais rápidas disponíveis na nuvem para treinamento de machine learning. As instâncias P3 do Amazon EC2 apresentam até oito GPUs NVIDIA V100 Tensor Core de última geração e fornecem até 1 petaflop de desempenho de precisão mista para acelerar significativamente as cargas de trabalho do ML. O treinamento de modelo mais rápido permite que os cientistas de dados e os engenheiros de machine learning façam iterações mais rápidas, treinem mais modelos e aumentem a precisão.

Uma das mais poderosas instâncias de GPU na nuvem combinada com planos flexíveis de definição de preço. O resultado é uma solução extremamente econômica para o treinamento de machine learning. Assim como as instâncias do Amazon EC2 em geral, as instâncias P3 estão disponíveis como instâncias sob demanda, reservadas ou spot. As instâncias spot aproveitam a capacidade de instâncias não utilizadas do EC2 e podem reduzir substancialmente os custos do Amazon EC2 em até 70% em relação aos preços sob demanda.

Ao contrário dos sistemas no local, a execução de computação de alta performance em instâncias P3 do Amazon EC2 oferece capacidade praticamente ilimitada de escalabilidade horizontal da infraestrutura, além da flexibilidade para alterar com facilidade os recursos com a frequência exigida pelas cargas de trabalho. Você pode configurar os recursos para atender às demandas dos seus aplicativos e executar um cluster de HPC em minutos, pagando apenas pelo que usar.

Use imagens do Docker pré-empacotadas para implantar ambientes de aprendizado profundo em minutos. As imagens contêm as bibliotecas e ferramentas necessárias para as estruturas de aprendizado profundo (no momento, TensorFlow e Apache MXNet) e são totalmente testadas. Você pode facilmente adicionar a essas imagens suas próprias bibliotecas e ferramentas para obter um maior controle sobre o monitoramento, a conformidade e o processamento de dados. Além disso, as instâncias P3 do Amazon EC2 funcionam perfeitamente com o Amazon SageMaker para fornecer uma plataforma de machine learning completa eficiente e intuitiva. O Amazon SageMaker é uma plataforma de machine learning gerenciada que permite que você construa, treine e implante de forma rápida e fácil modelos de machine learning. Além disso, as instâncias P3 do Amazon EC2 podem ser integradas às imagens de máquina da Amazon (AMIs) do AWS Deep Learning, pré-instaladas com estruturas populares de aprendizado profundo. Assim, iniciar o treinamento de machine learning e inferências fica mais fácil e rápido.

Depoimentos de clientes

Aqui estão alguns exemplos de como clientes e parceiros alcançaram suas metas de negócios com as instâncias P3 do Amazon EC2.

  • Airbnb

    A Airbnb está usando o machine learning para otimizar recomendações de pesquisa e aprimorar a orientação para a definição de preço dinâmica para os anfitriões. O resultado: aumento das conversões das reservas. Com as instâncias P3 do Amazon EC2, a Airbnb pode agilizar a execução de cargas de trabalho de treinamento, executar mais iterações, criar melhores modelos de machine learning e reduzir custos.

  • Celgene

    A Celgene é uma empresa de biotecnologia global que está desenvolvendo terapias direcionadas para buscar o melhor tratamento para cada paciente. A empresa executa seu volume de trabalho de HPC para o sequenciamento de genoma de próxima geração e simulações químicas nas instâncias P3 do Amazon EC2. Com este poder computacional, a Celgene pode treinar modelos de aprendizagem profunda para distinguir células malignas das benignas. Antes de começar a usar as instâncias P3, a empresa levava dois meses para executar tarefas de larga escala computacional. Agora, leva apenas quatro horas. A tecnologia da AWS permitiu à Celgene acelerar o desenvolvimento de medicamentos terapêuticos para câncer e doenças inflamatórias.

  • Hyperconnect

     

    A Hyperconnect é especializada na aplicação de novas tecnologias baseadas em machine learning no processamento de imagens e vídeos e foi a primeira empresa a desenvolver webRTC para plataformas móveis.

    Leia o estudo de caso completo

    A Hyperconnect usa classificação de imagem baseada em AI em seu aplicativo de comunicação por vídeo para reconhecer o ambiente atual em que um usuário está situado. Reduzimos o tempo de treinamento do modelo de ML de mais de uma semana para menos de um dia, migrando de estações de trabalho no local para várias instâncias do Amazon EC2 P3 usando o Horovod. Usando o PyTorch como nossa estrutura de trabalho de machine learning, conseguimos desenvolver rapidamente modelos e alavancar bibliotecas disponíveis na comunidade de código aberto.

    – Sungjoo Ha, diretor do AI Lab, Hyperconnect
  • NerdWallet

    A NerdWallet é uma startup de finanças pessoais que fornece ferramentas e conselhos para facilitar aos clientes o pagamento de dívidas, a escolha dos melhores produtos e serviços financeiros e lidar com os principais objetivos da vida, como comprar uma casa ou poupar para a aposentadoria. A empresa depende muito de ciência de dados e machine learning (ML) para conectar clientes com produtos financeiros personalizados.

    Leia o estudo de caso completo

    O uso das instâncias do Amazon SageMaker e Amazon EC2 P3 com GPUs NVIDIA V100 Tensor Core também melhorou a flexibilidade e a performance do NerdWallet e reduziu o tempo necessário para os cientistas de dados treinarem modelos de ML. Costumávamos levar meses para lançar e iterar nos modelos; agora leva apenas dias.

    Ryan Kirkman, Gerente de engenharia sênior, NerdWallet
  • PathWise Solutions Group

    Líder em soluções de sistemas de qualidade, o PathWise da Aon é um conjunto de aplicações SaaS baseado em nuvem voltado para a modelagem de gerenciamento de riscos corporativos que fornece velocidade, confiabilidade, segurança e serviços sob demanda a uma variedade de clientes.

    Leia o estudo de caso

    O PathWise Solutions Group da Aon fornece uma solução de gerenciamento de riscos que permite que nossos clientes aproveitem a tecnologia mais recente para resolver rapidamente os principais desafios de seguros atuais, como gerenciamento e teste de estratégias de hedge, previsão regulatória e econômica e orçamento. O PathWise opera com a AWS em produção desde 2011 e, no momento, usa instâncias do Amazon EC2 P-Series para acelerar os cálculos necessários para resolver esses desafios para nossos clientes em todo o mundo em um mercado em constante avanço e evolução.

    Van Beach, líder global de soluções de vida do Aon Pathwise Strategy and Technology Group
  • Pinterest

    O Pinterest usa treinamento de precisão mista em instâncias P3 na AWS para acelerar o treinamento de modelos de aprendizagem profunda. Também usa essas instâncias para acelerar a inferência desses modelos, permitindo uma experiência de descoberta rápida e exclusiva para os usuários. O Pinterest utiliza PinSage, criado usando PyTorch na AWS. Este modelo de IA agrupa imagens com base em determinados temas. Com 3 bilhões de imagens na plataforma, há 18 bilhões de associações diferentes que conectam as imagens. Essas associações ajudam o Pinterest a contextualizar temas e estilos e a produzir experiências de usuário mais personalizadas.

  • Salesforce

     

    A Salesforce está usando o machine learning para impulsionar o Einstein Vision, permitindo que os desenvolvedores aproveitem o poder do reconhecimento de imagens para casos de uso, como pesquisa visual, detecção de marca e identificação de produto. As instâncias P3 do Amazon EC2 permitem que os desenvolvedores treinem modelos de aprendizado profundo com mais rapidez para que possam atingir rapidamente suas metas de machine learning.

  • Schrodinger

    A Schrodinger usa a computação de alta performance (HPC) para desenvolver modelos preditivos a fim de ampliar a escala da descoberta e da otimização e oferecer aos clientes a capacidade de acelerar a disponibilização no mercado de medicamentos que salvam vidas. As instâncias P3 do Amazon EC2 permitem que a Schrodinger realize quatro vezes mais simulações em um dia do que com instâncias P2.  

  • Subtle Medical

    A Subtle Medical é uma empresa de tecnologia da área de saúde que trabalha para melhorar a eficiência das imagens médicas e a experiência do paciente com soluções inovadoras de aprendizado profundo. Sua equipe é formada por renomados cientistas de imagem, radiologistas e especialistas em AI de Stanford, MIT, MD Anderson dentre outras.

    Leia o estudo de caso completo

    Hospitais e centros de imagem desejam adotar esta solução sem sobrecarregar seus departamentos de TI para adquirir experiência em GPU e criar e manter data centers ou mini-nuvens dispendiosos. Eles querem ter êxito em suas implantações com o mínimo de esforço e investimento… A AWS torna isso possível.

    – Enhao Gong, fundador e CEO, Subtle Medical
  • Western Digital

    A Western Digital usa HPC para executar dezenas de milhares de simulações de ciências de materiais, fluxos de calor, magnetismo e transferência de dados para melhorar a performance e a qualidade das unidades de disco e armazenamento. Com base nos testes iniciais, as instâncias P3 permitem que as equipes de engenharia executem simulações pelo menos três vezes mais rápido do que as soluções implantadas anteriormente.  

Instâncias P3 do Amazon EC2 e Amazon SageMaker

Com o Amazon SageMaker, é mais fácil criar, treinar e implementar modelos de machine learning, e deixá-los prontos para treinamento. O serviço fornece tudo de que você precisa para se conectar rapidamente aos dados de treinamento e selecionar e otimizar o melhor algoritmo e a melhor estrutura para os aplicativos. O Amazon SageMaker inclui blocos de anotações Jupyter hospedados que facilitam a exploração e visualização dos dados de treinamento armazenados no Amazon S3.  Você também pode usar a instância do bloco de anotações para escrever código para criar trabalhos de treinamento de modelo, implantar modelos no Amazon SageMaker e testar ou validar seus modelos.

Você pode começar a treinar um modelo com apenas um clique no console ou com uma simples chamada de API. O Amazon SageMaker é pré-configurado com as versões mais recentes do TensorFlow e do Apache MXNet, e oferece suporte à biblioteca CUDA9 para proporcionar a performance ideal em GPUs NVIDIA. Além disso, a otimização de hiperparâmetros pode ajustar automaticamente o modelo, definindo com inteligência diferentes combinações de parâmetros do modelo para chegar rapidamente às previsões mais precisas. Para necessidades de escala maiores, você pode escalar para dezenas de instâncias a fim de oferecer suporte à criação de modelo mais rápida.

Após o treinamento, clique uma vez para implantar seu modelo em instâncias do Amazon EC2 de escalabilidade automática em várias zonas de disponibilidade. Em produção, o Amazon SageMaker gerencia a infraestrutura de computação para você, fazendo verificações de integridade, aplicando patches de segurança e realizando manutenções de rotina, tudo com o monitoramento e o registro em logs do Amazon CloudWatch.

Instâncias P3 do Amazon EC2 e AMIs do AWS Deep Learning

Ambientes de desenvolvimento pré-configurados para iniciar rapidamente a criação de aplicativos de aprendizado profundo

Uma alternativa ao Amazon SageMaker para desenvolvedores que tenham requisitos mais personalizados, as AMIs do AWS Deep Learning fornecem aos profissionais e pesquisadores de machine learning a infraestrutura e as ferramentas para acelerar o aprendizado profundo na nuvem, em qualquer escala. Você pode executar rapidamente instâncias P3 do Amazon EC2 que já contêm estruturas de aprendizado profundo comuns, como TensorFlow, PyTorch, Apache MXNet, Microsoft Cognitive Toolkit, Caffe, Caffe2, Theano, Torch, Chainer, Gluon e Keras para treinar modelos de IA sofisticados e personalizados, experimentar novos algoritmos ou aprender novas habilidades e técnicas. Saiba mais

Instâncias P3 do Amazon EC2 e computação de alta performance

Resolva problemas computacionais de grande porte e obtenha novos insights usando os recursos avançados de HPC na AWS

As instâncias P3 do Amazon EC2 são uma plataforma ideal para executar simulações de engenharia, finanças computacionais, análise sísmica, modelagem molecular, genômica, renderização e outras cargas de trabalho de computação de GPU. A Computação de Alta Performance (HPC) permite que cientistas e engenheiros solucionem esses problemas complexos e que fazem uso intenso de computação. Geralmente, os aplicativos de HPC exigem redes de alta performance, armazenamento rápido, grandes quantidades de memória, recursos elevados de computação ou todos esses itens. A AWS permite aumentar a velocidade da pesquisa e reduzir o tempo para a obtenção de resultados executando HPC na nuvem e escalando para comportar uma quantidade de tarefas em paralelo maior que a possível em ambientes locais. Por exemplo, instâncias P3dn.24xlarge oferecem suporte ao Elastic Fabric Adapter (EFA), que permite que aplicativos de HPC usem a Message Passing Interface (MPI – Interface de passagem de mensagens) para escalar milhares de GPUs. A AWS ajuda a reduzir custos fornecendo soluções otimizadas para aplicativos específicos, sem necessidade de grandes investimentos de capital. Saiba mais

Suporte para o NVIDIA RTX Virtual Workstation

As AMIs com o NVIDIA RTX Virtual Workstation oferecem alta performance gráfica usando as avançadas instâncias P3 com GPUs NVIDIA Volta V100, executadas na Nuvem AWS. Essas AMIs contam com o mais recente software gráfico de GPU NVIDIA, pré-instalado juntamente com os mais recentes drivers RTX e certificações NVIDIA ISV com compatibilidade com até quatro resoluções de desktop 4K. As instâncias P3 com GPUs NVIDIA V100 combinadas com RTX vWS oferecem uma estação de trabalho de alta performance na nuvem com até 32 GiB de memória de GPU, ray tracing rápido e renderização alimentada por IA.

As novas AMIs estão disponíveis no AWS Marketplace com suporte para Windows Server 2016 e Windows Server 2019.

Instâncias P3dn.24xlarge do Amazon EC2

As instâncias P3dn.24xlarge do Amazon EC2 são as maiores, mais rápidas e mais potentes instâncias P3. Elas oferecem até 100 Gbps de taxa de transferência de redes, 8 GPUs NVIDIA® V100 Tensor Core com 32 GiB de memória cada, 96 vCPUs Intel® Xeon® escaláveis (Skylake) personalizadas e 1,8 TB de armazenamento local SSD baseado em NVMe. Com as redes mais rápidas, novos processadores, o dobro de memória de GPU e vCPUs adicionais, os desenvolvedores podem reduzir consideravelmente o tempo de treinamento de modelos de ML ou executar mais simulações de HPC por meio da redução da escala dos trabalhos em diversas instâncias (por exemplo, 16, 32 ou 64 instâncias). Os modelos de machine learning exigem uma grande quantidade de dados para treinamento. Além de aumentar a taxa de transferência da passagem de dados entre as instâncias, a taxa de transferência de rede adicional das instâncias P3dn.24xlarge também pode ser usada para acelerar o acesso a grandes quantidades de dados de treinamento com a conexão ao Simple Storage Service (Amazon S3) ou a soluções de sistemas de arquivos compartilhados, como o Amazon EFS.

Com 100 Gbps de taxa de transferência de redes, os desenvolvedores podem usar de forma eficiente uma grande quantidade de instâncias P3dn.24xlarge para treinamento distribuído e reduzir consideravelmente o tempo de treinamento dos modelos. As 96 vCPUs com processadores Intel Skylake personalizados da AWS e instruções AVX-512 operando a 2,5 GHz ajudam a otimizar o pré-processamento de dados. Além disso, as instâncias P3dn.24xlarge usam o AWS Nitro System, uma combinação de hardware dedicado e hipervisor leve, que fornece às suas instâncias praticamente todos os recursos de computação e memória do hardware do host. As instâncias P3dn.24xlarge também oferecem suporte ao Elastic Fabric Adapter, que permite aplicações de ML que usam a NVIDIA Collective Communications Library (NCCL) para escalar milhares de GPUs.

As redes aperfeiçoadas que usam a versão mais recente do adaptador de rede elástica com até 100 Gbps de largura de banda de rede agregada podem ser usadas não apenas para compartilhar dados entre várias instâncias P3dn.24xlarge, mas também para acessar dados com alto throughput por meio do Amazon S3 ou de uma solução de sistemas de arquivos compartilhados como o Amazon EFS. O acesso aos dados com alto throughput é crucial para otimizar a utilização de GPUs e entregar a máxima performance das instâncias de computação.

As instâncias P3dn.24xlarge oferecem GPUs de NVIDIA V100 Tensor Core com 32 GiB de memória e permitem flexibilidade para treinar modelos maiores e mais avançados de machine learning, bem como processar maiores lotes de dados, como imagens 4K para classificação de imagens e sistemas de detecção de objetos.

Detalhes do produto da instância P3 do Amazon EC2

Tamanho de instância GPUs – Tesla V100 Peer-to-peer de GPUs Memória de GPU (GB) vCPUs Memória (GB) Largura de banda de rede Largura de banda do EBS Preço sob demanda/hora* Instância reservada por 1 ano – por hora* Instância reservada por 3 anos – por hora*
p3.2xlarge 1 N/D 16 8 61 Até 10 Gbps 1,5 Gbps 3,06 USD 1,99 USD 1,05 USD
p3.8xlarge 4
NVLink 64 32 244 10 Gbps 7 Gbps 12,24 USD 7,96 USD 4,19 USD
p3.16xlarge 8 NVLink 128 64 488 25 Gbps 14 Gbps 24,48 USD 15,91 USD 8,39 USD
p3dn.24xlarge 8 NVLink 256 96 768 100 Gbps 19 Gbps 31,218 USD 18,30 USD 9,64 USD

* - Os preços apresentados são para Linux/Unix na região da AWS no Leste dos EUA (Norte da Virgínia) e arredondados para o centavo mais próximo. Para obter detalhes de preços completos, consulte a página de definição de preço do Amazon EC2.

Os clientes podem adquirir instâncias P3 como instâncias sob demanda, instâncias reservadas, instâncias spot ou hosts dedicados.

Faturamento a cada segundo

Uma das muitas vantagens da computação em nuvem é a natureza elástica do provisionamento ou do desprovisionamento de recursos conforme necessário. Ao realizarmos o faturamento a cada segundo, permitimos que os clientes aumentem a elasticidade, economizem dinheiro e otimizem a alocação de recursos para atingir suas metas de machine learning.

Definição de preço de instância reservada

As instâncias reservadas proporcionam um desconto significativo (até 75%) em comparação com a definição de preço das instâncias sob demanda. Além disso, quando as instâncias reservadas são atribuídas a uma zona de disponibilidade específica, elas disponibilizam uma reserva de capacidade, proporcionando a você uma segurança adicional com relação à sua capacidade de executar instâncias quando for necessário.

Definição de preço do spot

Com as instâncias spot, você paga o preço spot em vigor pelo período de execução das instâncias. Os preços de instâncias spot são definidos pelo Amazon EC2 e ajustados gradualmente de acordo com tendências de longo prazo da oferta e da demanda de capacidade de instâncias spot. As instâncias spot estão disponíveis com um desconto de até 90% quando comparadas à definição de preço das instâncias sob demanda.

A maior disponibilidade global

Disponibilidade global das instâncias P3

As instâncias P3.2xlarge, P3.8xlarge e P3.16xlarge do Amazon EC2 estão disponíveis em 14 regiões da AWS para que os clientes tenham a flexibilidade de treinar e implantar modelos de machine learning onde quer que os dados estejam armazenados. A instância P3 está disponível nas regiões da AWS Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon), Canadá (Central), Europa (Irlanda), Europa (Frankfurt), Europa (Londres), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Sydney), Ásia-Pacífico (Cingapura), China (Pequim), China (Ningxia) e GovCloud (Oeste dos EUA).

As instâncias P3dn.24xlarge estão disponíveis nas regiões da AWS Ásia-Pacífico (Tóquio), Europa (Irlanda), Leste dos EUA (Norte da Virgínia), Oeste dos EUA (Oregon), GovCloud (Oeste dos EUA) e GovCloud (Leste dos EUA).

Comece a usar as instâncias P3 do Amazon EC2 para machine learning

Para começar a usar em poucos minutos, saiba mais sobre o Amazon SageMaker ou use a AMI do AWS Deep Learning, que contém estruturas comuns de aprendizado profundo pré-instaladas, como Caffe2 e MXNet. Como alternativa, você também pode usar a AMI NVIDIA com o driver da GPU e o toolkit do CUDA pré-instalados.