Preços do Amazon Bedrock

Visão geral da definição de preço

O Amazon Bedrock é um serviço totalmente gerenciado que oferece uma variedade de modelos de base (FMs) de alta performance por meio de uma única API, juntamente com um amplo conjunto de recursos necessários para criar aplicações de IA generativa com segurança, privacidade e IA responsável.

Com o Amazon Bedrock, a cobrança é feita com base na inferência e na personalização de modelos. Você pode escolher entre dois planos de preços para inferência: 1. Sob demanda e em lote: esse modo permite que você use FMs com base no pagamento conforme o uso, sem precisar assumir nenhum compromisso de prazo com base no tempo. 2. Throughput provisionada: esse modo permite provisionar uma throughput suficiente para atender aos requisitos de performance da sua aplicação em troca de um compromisso de prazo baseado em tempo.

Modelos de preços

Sob demanda e em lote

Com o modo sob demanda, você paga apenas pelo que usa, sem compromissos de prazo baseados em tempo. Para modelos de geração de texto, você é cobrado por cada token de entrada processado e por cada token de saída gerado. Para modelos de incorporação, você é cobrado por cada token de entrada processado. Um token é composto por alguns caracteres e se refere à unidade básica de texto que um modelo aprende para entender a entrada e a solicitação do usuário. Para modelos de geração de imagem, cada imagem gerada será cobrada.

Inferência entre regiões: o modo sob demanda também oferece suporte à inferência entre regiões para alguns modelos. Ele permite que os desenvolvedores gerenciem perfeitamente os picos de tráfego utilizando a computação em diferentes regiões da AWS e obtenham maiores limites de throughput e maior resiliência. Não há custo adicional pelo uso da inferência entre regiões e o preço é calculado com base na região em que você fez a solicitação (região de origem).

Com o modo em lote, você pode fornecer um conjunto de solicitações como um único arquivo de entrada e receber respostas como um único arquivo de saída, permitindo que você obtenha previsões simultâneas em grande escala. As respostas são processadas e armazenadas em seu bucket do Amazon S3 para que você possa acessá-las posteriormente. O Amazon Bedrock oferece modelos de base (FMs) selecionados dos principais fornecedores de IA, como Anthropic, Meta, Mistral AI e Amazon, para inferência em lote a um preço 50% menor em comparação com os preços de inferência sob demanda. Consulte a lista de modelos aqui.

Latência otimizada (pré-visualização pública)

A inferência com latência otimizada para modelos básicos no Amazon Bedrock oferece tempos de resposta mais rápidos para os modelos e ajuda a melhorar a capacidade de resposta das suas aplicações de IA generativa. Você pode usar a inferência de uso otimizado para latência para o Amazon Nova Pro, o modelo Claude 3.5 Haiku da Anthropic e os modelos Llama 3.1 405B e 70B da Meta. Conforme verificado pela Anthropic, com inferência otimizada para latência no Amazon Bedrock, o Claude 3.5 Haiku é executado de maneira mais rápida na AWS do que em qualquer outro lugar. Além disso, com inferência otimizada para latência no Bedrock, o Llama 3.1 405B e 70B é executado de maneira mais rápida na AWS do que qualquer outro grande provedor de nuvem. Saiba mais aqui.

Throughput provisionado

Com o modo de throughput provisionado, você pode comprar unidades de modelo para um modelo de base específico ou personalizado. O modo de throughput provisionado foi projetado principalmente para grandes workloads de inferência consistentes que precisam de throughput garantido. Modelos personalizados só podem ser acessados usando throughput provisionado. Uma unidade modelo fornece uma determinado throughput, que é medida pelo número máximo de tokens de entrada ou saída processados por minuto. Com o preço de throughput provisionado, você é cobrado por hora e tem a flexibilidade de escolher entre termos de compromisso de 1 mês ou de 6 meses.

Custom Model Import

O Custom Model Import permite que você aproveite investimentos anteriores em personalização de modelos no Amazon Bedrock e os consuma da mesma forma totalmente gerenciada que os modelos de base hospedada existentes do Bedrock. Você pode importar pesos personalizados para arquiteturas de modelos compatíveis e servir o modelo personalizado usando o modo sob demanda. Não há cobrança para importar um modelo personalizado para o Bedrock. Depois de importar um modelo, você poderá acessá-lo sob demanda sem precisar realizar nenhuma ação no ambiente de gerenciamento. Você só receberá cobrança pela inferência do modelo, com base no número de cópias do seu modelo personalizado necessárias para atender ao volume de inferência e na duração de cada cópia de modelo ativa, cobrada em janelas de 5 minutos. Uma cópia de modelo é uma única instância de um modelo importado, pronta para atender às solicitações de inferência. O preço por cópia de modelo por minuto depende de fatores como arquitetura, tamanho do contexto, região da AWS e versão da unidade computacional (geração de hardware), sendo escalonado por tamanho de cópia do modelo.

Modelos do Marketplace

O Amazon Bedrock Marketplace permite que você descubra, teste e use mais de 100 modelos de base populares, emergentes e especializados no Bedrock. Os modelos do Amazon Bedrock Marketplace são implantados em endpoints onde você pode selecionar o número desejado de instâncias e tipos de instância, bem como configurar suas políticas de escalabilidade automática para atender às demandas de sua workload. Para modelos proprietários, você paga o preço do software definido pelo fornecedor do modelo (por hora, faturável em incrementos por segundo ou por solicitação) e um preço de infraestrutura com base na instância selecionada. Você pode ver esses preços antes de assinar o modelo de provedor e também na lista de modelos no AWS Marketplace. Para modelos disponíveis ao público, você paga somente o preço da infraestrutura com base na instância selecionada. Saiba mais informações ao acessar aqui.

Personalização e otimização

Personalização de modelos

Model Distillation
Com a Destilação de Modelos do Amazon Bedrock, os clientes podem transferir conhecimento de um modelo com maior capacidade (conhecido como "modelo instrutor") para um modelo menor, mais rápido e econômico (conhecido como "modelo aprendiz"), de forma que o modelo aprendiz possa se tornar tão eficiente quanto o instrutor em casos de uso específicos. Com a Destilação de Modelos do Amazon Bedrock, você paga pelo que usa. A destilação é um processo de duas etapas em que primeiro os dados sintéticos são gerados a partir do modelo instrutor e, em seguida, o modelo aprendiz é treinado. A geração de dados sintéticos é cobrada de acordo com o preço sob demanda do modelo professor selecionado. O ajuste fino do modelo aluno é cobrado de acordo com as taxas de personalização do modelo. Como um modelo destilado é um modelo personalizado, as inferências usando modelos personalizados são cobradas de acordo com o plano de throughput provisionado e exigem que os clientes adquiram o throughput provisionado.

Ajuste fino/Pré-treinamento contínuo
Com o Amazon Bedrock, você pode personalizar as FMs com seus dados para fornecer respostas personalizadas para tarefas específicas e seu contexto de negócios. É possível refinar os modelos com dados rotulados ou usar o pré-treinamento contínuo com dados não rotulados. Para personalizar um modelo de geração de texto, você é cobrado pelo treinamento do modelo com base no número total de tokens processados pelo modelo (número de tokens no corpus de dados de treinamento multiplicado pelo número de epochs). Para o armazenamento do modelo, a cobrança é feita por mês por modelo. Um epoch se refere a uma passagem completa pelo conjunto de dados de treinamento durante o ajuste fino ou o pré-treinamento contínuo. As inferências usando modelos personalizados são cobradas de acordo com o plano de throughput provisionado e exigem que você compre o throughput provisionado. Uma unidade de modelo é disponibilizada sem termo de compromisso para inferência em um modelo personalizado. Você será cobrado pelo número de horas da primeira unidade de modelo usada para inferência de modelo personalizado. Se desejar aumentar seu throughput para além de uma unidade modelo, deverá adquirir um termo de compromisso de 1 mês ou de 6 meses.

Armazenamento em cache de prompts

Com o armazenamento em cache de prompts no Amazon Bedrock, você pode armazenar em cache o contexto repetido em todas as chamadas de API para reduzir seus custos e latências de resposta. Os prompts geralmente contêm contexto ou prefixos comuns, como conversas dinâmicas longas, exemplos variados e instruções detalhadas que refinam o comportamento do modelo. Usando as APIs existentes do Amazon Bedrock, você pode especificar os prefixos de prompt que deseja armazenar em cache por cinco minutos em um cache específico da conta da AWS. Durante esse período, todas as solicitações com prefixos correspondentes recebem um desconto de até 90% em tokens em cache e uma melhoria de latência de até 85%. Os preços e as melhorias de desempenho variam de acordo com o modelo e a duração do prompt, mas seus caches estão sempre isolados em sua conta da AWS.

Gerenciamento e otimização de prompts

O Gerenciamento de Prompts do Amazon Bedrock acelera a criação, o teste e a execução de prompts por meio de uma interface de usuário intuitiva e um conjunto de APIs. Você pode facilmente testar e criar versões de prompts, comparar diferentes variantes e executá-las em uma infraestrutura segura com tecnologia sem servidor.

O Prompt Optimization no Amazon Bedrock reescreve automaticamente as solicitações para melhorar o desempenho e obter respostas mais concisas para os modelos básicos. Ele se integra ao Gerenciamento de Prompts para comparação lado a lado das versões originais e otimizadas e gerenciamento do ciclo de vida do prompt. Você também pode usar o Prompt Optimization no Bedrock Playground ou diretamente via API.

Ferramentas

Barreiras de proteção

O Amazon Bedrock Guardrails ajuda você a implementar proteções personalizadas e políticas de IA responsável para suas aplicações de IA generativa. Ele fornece proteções de segurança adicionais personalizáveis, além das proteções nativas oferecidas pelos FMs. É o único recurso de IA responsável oferecido por um grande provedor de nuvem que ajuda a permitir que os clientes criem e personalizem proteções de segurança, privacidade e veracidade para suas aplicações de IA generativa em uma única solução. As Barreiras de Proteção do Bedrock funcionam com vários modelos de base (FMs), incluindo FMs compatíveis com o Amazon Bedrock, modelos ajustados e modelos com hospedagem própria externa ao Amazon Bedrock. O Bedrock Guardrails também pode ser integrado ao Amazon Bedrock Agents e ao Amazon Bedrock Knowledge Bases para criar aplicações de IA generativa alinhadas às suas políticas de IA responsável. Além disso, as Barreiras de Proteção oferecem uma API ApplyGuardrail independente que pode ser usada para avaliar as entradas do usuário e as respostas do modelo para qualquer modelo fora do Amazon Bedrock, incluindo modelos oferecidos pelos concorrentes da AWS. As entradas do usuário podem ser avaliadas mesmo sem invocar o modelo de base.

Knowledge Bases e Data Automation

O Amazon Bedrock Knowledge Bases é um fluxo de trabalho de geração aumentada via recuperação (RAG) totalmente gerenciado que permite aos clientes criar aplicações de IA generativa altamente precisas, de baixa latência, seguras e personalizadas, incorporando informações contextuais de suas próprias fontes de dados. Oferece suporte a várias fontes de dados, incluindo S3 e Confluence, Salesforce e SharePoint, em versão prévia. Ele também oferece ingestão de documentos para streaming de dados. O Bedrock Knowledge Bases converte dados não estruturados em incorporações, os armazena em bancos de dados de vetores e permite a recuperação de diversos armazenamentos de dados. Ele também se integra ao Kendra para recuperação gerenciada e oferece suporte à recuperação de dados estruturados usando linguagem natural para SQL.

O Amazon Bedrock Data Automation transforma conteúdo multimodal não estruturado em formatos de dados estruturados para casos de uso como processamento inteligente de documentos, análise de vídeo e RAG. O Bedrock Data Automation pode gerar conteúdo de saída padrão usando padrões predefinidos que são específicos da modalidade, como descrições de vídeos cena a cena, transcrições de áudio ou análise automatizada de documentos. Além disso, os clientes podem criar saídas personalizadas especificando seus requisitos de saída em esquemas com base em seu próprio esquema de dados, que eles podem carregar facilmente em um banco de dados ou data warehouse existente. Por meio de uma integração com o Knowledge Bases, o Bedrock Data Automation também pode ser usado para analisar o conteúdo de aplicações de RAG, melhorando a precisão e a relevância dos resultados ao incluir informações incorporadas em imagens e texto.

Atendentes

O Amazon Bedrock Agents oferece a capacidade de criar e configurar agentes autônomos em sua aplicação. Esses agentes se conectam com segurança às fontes de dados da sua empresa e aumentam a solicitação do usuário com as informações certas para gerar respostas precisas. Você pode criar um aplicativo de agente único e de vários agentes no Amazon Bedrock com apenas algumas etapas rápidas, acelerando o tempo necessário para criar aplicações de IA generativa. Esses agentes oferecem suporte à interpretação do código para gerar e executar código dinamicamente, bem como ao retorno do controle, o que permite definir um esquema de ação e recuperar o controle sempre que o agente invocar a ação. Além disso, o Amazon Bedrock Agents pode reter memória em todas as interações, oferecendo experiências de usuário mais personalizadas e perfeitas.

Flows

O Amazon Bedrock Flows é um recurso para criação e execução de fluxos de trabalho do Bedrock para aplicativos de IA generativa. Ele acelera a criação, o teste e a implantação de fluxos de trabalho de IA generativa definidos pelo usuário por meio de um construtor visual intuitivo e um conjunto de APIs. Ele permite vincular de maneira prática os mais recentes modelos básicos, prompts, atendentes, base de conhecimento, barreiras de proteção e serviços da AWS (como Amazon Lex, AWS Lambda e Amazon S3) à lógica comercial para criar fluxos de trabalho de IA generativa. É possível testar e versionar seus fluxos de trabalho e executá-los em um ambiente seguro com tecnologia sem servidor através de uma interface visual ou API sem precisar criar sua própria infraestrutura.

Avaliações

Avaliação de modelo: com a avaliação de modelo do Amazon Bedrock, você paga pelo que usa, sem compromissos de volume mínimo quanto ao número de prompts ou respostas. Na avaliação automática (programática), você paga apenas pela inferência da sua escolha de modelo na avaliação. As pontuações algorítmicas geradas automaticamente são fornecidas sem custo adicional. Para avaliação automática (modelo ou LLM como determinante), você paga apenas pela inferência da sua escolha de modelo gerador e modelo de avaliador. Em um trabalho de avaliação de modelo de LLM como determinante, as métricas integradas usam modelos de prompt de determinante do sistema exclusivos para cada métrica e modelo de determinante disponível que serão cobrados como parte do uso do token, e os prompts de determinante estão disponíveis na documentação pública da AWS para maior transparência. Na avaliação baseada em humanos, na qual você traz sua própria equipe de trabalho, você é cobrado pela inferência do modelo na avaliação e uma taxa de USD 0,21 por tarefa humana concluída. Uma tarefa humana é definida como a ocorrência de um trabalhador humano enviando uma avaliação de um único prompt e suas respostas de inferência associadas na interface do usuário de avaliação humana. O preço por tarefa será o mesmo se você tiver um ou dois modelos em seu trabalho de avaliação e continuará sendo o mesmo independentemente de quantas métricas de avaliação e métodos de classificação você incluir. As cobranças pelas tarefas humanas aparecerão na seção Amazon SageMaker em sua fatura da AWS e serão as mesmas para todas as regiões da AWS. Não há cobrança separada para mão de obra, pois ela é fornecida por você. Se você estiver usando o recurso “traga suas próprias respostas de inferência” em vez de chamar um modelo do Bedrock durante o trabalho de avaliação, você será cobrado apenas pela inferência do modelo de avaliador (trabalhos de LLM como determinante) ou pelo valor de USD 0,21 por tarefa humana concluída (trabalhos de avaliação baseados em humanos). Para uma avaliação gerenciada pela AWS, os preços são personalizados para suas necessidades de avaliação em um contrato privado enquanto trabalha com a equipe de avaliações de especialistas da AWS.

Avaliação de RAG: com a avaliação de RAG do Amazon Bedrock, você paga pelo que usa, sem compromissos de volume mínimo quanto ao número de prompts ou respostas. Se você estiver avaliando uma Base de Conhecimento do Amazon Bedrock, pagará somente pela inferência da sua escolha de modelo gerador e modelo avaliador (o trabalho de avaliação usa um LLM como determinante), bem como pelas cobranças decorrentes do uso da Base de Conhecimento no trabalho de avaliação, de acordo com os preços das Bases de Conhecimento para Amazon Bedrock. Se você estiver usando o recurso “traga suas próprias respostas de inferência”, você será cobrado apenas pela inferência do modelo do avaliador. Em um trabalho de avaliação de RAG, as métricas integradas usam modelos de prompt de determinante do sistema exclusivos para cada métrica e modelo de determinante disponível que serão cobrados como parte do uso do token, e os prompts de determinante estão disponíveis na documentação pública da AWS para maior transparência. Algumas métricas envolvem a inferência do modelo de determinante sobre o contexto recuperado do sistema Base de Conhecimento/RAG ou suas respostas de veracidade, além do prompt de entrada, o que afeta os custos associados a cada métrica. Mais informações sobre cada métrica podem ser encontradas na documentação pública da AWS para avaliações.

Detalhes do preço do modelo

O preço depende da modalidade, do fornecedor e do modelo. Selecione o fornecedor do modelo para ver os preços detalhados.

O Amazon Bedrock oferece modelos de base (FMs) selecionados dos principais fornecedores de IA, como Anthropic, Meta, Mistral AI e Amazon, para inferência em lote a um preço 50% menor em comparação com os preços de inferência sob demanda. Consulte a lista de modelos aqui.

AI21 Labs

AI21 Labs

Preços sob demanda

Modelos do AI21 Labs	Preço por 1.000 tokens de entrada	Preço por 1.000 tokens de saída
Jamba 1.5 Large	USD 0,002	USD 0,008
Jamba 1.5 Mini	USD 0,0002	USD 0,0004
Jurassic-2 Mid	USD 0,0125	USD 0,0125
Jurassic-2 Ultra	USD 0,0188	USD 0,0188
Jamba-Instruct	USD 0,0005	USD 0,0007

Amazon

Amazon Nova
Amazon Titan
Outras opções da Amazon

Amazon Nova

Amazon Nova

Preços para entender os modelos

Preços de modelos para geração de conteúdo criativo

Preços para modelos de compreensão e geração de fala

Região:
Leste dos EUA (Virgínia)

Preços sob demanda para modelos de base de fala para fala

Modelos Amazon Nova	Preço por 1.000 tokens de entrada		Preço por 1.000 tokens de saída
	Fala	Texto*	Fala	Texto*
Amazon Nova Sonic	USD 0,0034	USD 0,00006	USD 0,0136	USD 0,00024

Observação: *os preços de entrada e saída de tokens de texto se aplicam a casos de uso específicos, como transcrição de fala para texto, solicitações de ferramentas para conclusão de tarefas ou base de conhecimento de conhecimento, adição de histórico de conversas à sessão etc.

Amazon Titan
Amazon Titan
Outras opções da Amazon

Anthropic

Anthropic

Preços sob demanda e em lote

Região: regiões dos EUA

Modelos da Anthropic	Preço por 1.000 tokens de entrada	Preço por 1.000 tokens de saída	Preço por 1.000 tokens de entrada (em lote)	Preço por 1.000 tokens de saída (em lote)	Preço por 1.000 tokens de entrada (gravação em cache)	Preço por 1.000 tokens de entrada (leitura de cache)
Claude 3.7 Sonnet***	USD 0,003	USD 0,015	N/D	N/D	USD 0,00375	USD 0,0003
Claude 3.5 Sonnet**	USD 0,003	USD 0,015	USD 0,0015	USD 0,0075	USD 0,00375	USD 0,0003
Claude 3.5 Haiku	USD 0,0008	USD 0,004	USD 0,0005	USD 0,0025	USD 0,001	USD 0,00008
Claude 3 Opus*	USD 0,015	USD 0,075	USD 0,0075	USD 0,0375	N/A	N/A
Claude 3 Haiku	USD 0,00025	USD 0,00125	USD 0,000125	USD 0,000625	N/A	N/A
Claude 3 Sonnet	USD 0,003	USD 0,015	USD 0,0015	USD 0,0075	N/A	N/A
Claude 2.1	USD 0,008	USD 0,024	N/A	América do Norte	América do Norte	N/A
Claude 2.0	USD 0,008	USD 0,024	N/A	América do Norte	América do Norte	N/A
Claude Instant	USD 0,0008	USD 0,0024	N/A	América do Norte	América do Norte	N/A
*No momento, o Claude 3 Opus está disponível na região Oeste dos EUA (Oregon)
**O preço do Claude 3.5 Sonnet é aplicável a cada versão do Claude 3.5 Sonnet (v1 e v2). O Claude 3.5 Sonnet v2 está atualmente disponível na região Oeste dos EUA (Oregon)
***O Claude 3.7 Sonnet também está disponível na região Leste dos EUA (Ohio)

Modelos da Anthropic	Preço por 1.000 tokens de entrada	Preço por 1.000 tokens de saída	Preço por 1.000 tokens de entrada (em lote)	Preço por 1.000 tokens de saída (em lote)	Preço por 1.000 tokens de entrada (gravação em cache)	Preço por 1.000 tokens de entrada (leitura de cache)
Claude 3.5 Sonnet**	USD 0,003	USD 0,015	USD 0,0015	USD 0,0075	USD 0,00375	USD 0,0003
Claude 3.5 Haiku	0,001 USD	USD 0,005	USD 0,0005	USD 0,0025	USD 0,001	USD 0,00008
Claude 3 Opus*	USD 0,015	USD 0,075	USD 0,0075	USD 0,0375
Claude 3 Haiku	USD 0,00025	USD 0,00125	USD 0,000125	USD 0,000625
Claude 3 Sonnet	USD 0,003	USD 0,015	USD 0,0015	USD 0,0075
Claude 2.1	USD 0,008	USD 0,024	N/D	N/D
Claude 2.0	USD 0,008	USD 0,024	N/D	N/D
Claude Instant	USD 0,0008	USD 0,0024	N/D	N/D
*No momento, o Claude 3 Opus está disponível na região Oeste dos EUA (Oregon)
**O preço do Claude 3.5 Sonnet é aplicável a cada versão do Claude 3.5 Sonnet (v1 e v2). O Claude 3.5 Sonnet v2 está atualmente disponível na região Oeste dos EUA (Oregon)

Região: Europa (Londres)

Modelos da Anthropic	Preço por 1.000 tokens de entrada	Preço por 1.000 tokens de saída	Preço por 1.000 tokens de entrada (em lote)	Preço por 1.000 tokens de saída (em lote)
Claude 3 Sonnet	USD 0,003	USD 0,015	USD 0,0015	USD 0,0075
Claude 3 Haiku	USD 0,00025	USD 0,00125	USD 0,000125	USD 0,000625

Região: Europa (Zurique)

Modelos da Anthropic

Preço por 1.000 tokens de entrada

Preço por 1.000 tokens de saída

Preço por 1.000 tokens de entrada (em lote)

Preço por 1.000 tokens de saída (em lote)

Claude 3.5 Sonnet

USD 0,003

USD 0,015

USD 0,0015

USD 0,0075

Claude 3 Haiku

USD 0,00025

USD 0,00125

USD 0,000125

USD 0,000625

Região: América do Sul (São Paulo)

Modelos da Anthropic

Preço por 1.000 tokens de entrada

Preço por 1.000 tokens de saída

Preço por 1.000 tokens de entrada (em lote)

Preço por 1.000 tokens de saída (em lote)

Claude 3 Sonnet

USD 0,003

USD 0,015

USD 0,0015

USD 0,0075

Claude 3 Haiku

USD 0,00025

USD 0,00125

USD 0,000125

USD 0,000625

Região: Canadá (Central)

Modelos da Anthropic

Preço por 1.000 tokens de entrada

Preço por 1.000 tokens de saída

Preço por 1.000 tokens de entrada (em lote)

Preço por 1.000 tokens de saída (em lote)

Claude 3 Sonnet

USD 0,003

USD 0,015

USD 0,0015

USD 0,0075

Claude 3 Haiku

USD 0,00025

USD 0,00125

USD 0,000125

USD 0,000625

Região: Ásia-Pacífico (Mumbai)

Modelos da Anthropic

Preço por 1.000 tokens de entrada

Preço por 1.000 tokens de saída

Preço por 1.000 tokens de entrada (em lote)

Preço por 1.000 tokens de saída (em lote)

Claude 3 Sonnet

USD 0,003

USD 0,015

USD 0,0015

USD 0,0075

Claude 3 Haiku

USD 0,00025

USD 0,00125

USD 0,000125

USD 0,000625

Região: Ásia-Pacífico (Sydney)

Modelos da Anthropic	Preço por 1.000 tokens de entrada	Preço por 1.000 tokens de saída	Preço por 1.000 tokens de entrada (em lote)	Preço por 1.000 tokens de saída (em lote)
Claude 3.5 Sonnet v2	USD 0,003	USD 0,015	USD 0,0015	USD 0,0075
Claude 3 Sonnet	USD 0,003	USD 0,015	USD 0,0015	USD 0,0075
Claude 3 Haiku	USD 0,00025	USD 0,00125	USD 0,000125	USD 0,000625

Região: Ásia-Pacífico (Tóquio)

Modelos da Anthropic	Preço por 1.000 tokens de entrada	Preço por 1.000 tokens de saída	Preço por 1.000 tokens de entrada (em lote)	Preço por 1.000 tokens de saída (em lote)
Claude Instant	USD 0,0008	USD 0,0024	N/D	N/D
Claude 2.0/2.1	USD 0,008	USD 0,024	N/D	N/D
Claude 3 Haiku	USD 0,00025	USD 0,00125	USD 0,000125	USD 0,000625
Claude 3.5 Sonnet	USD 0,003	USD 0,015	USD 0,0015	USD 0,0075

Região: Ásia-Pacífico (Singapura)

Modelos da Anthropic	Preço por 1.000 tokens de entrada	Preço por 1.000 tokens de saída	Preço por 1.000 tokens de entrada (em lote)	Preço por 1.000 tokens de saída (em lote)
Claude Instant	USD 0,0008	USD 0,0024	USD 0,0004	USD 0,0012
Claude 2.0/2.1	USD 0,008	USD 0,024	USD 0,004	USD 0,012
Claude 3 Haiku	USD 0,00025	USD 0,00125	USD 0,000125	USD 0,000625
Claude 3.5 Sonnet	USD 0,003	USD 0,015	N/D	N/D

Região: Europa (Paris)

Modelos da Anthropic	Preço por 1.000 tokens de entrada	Preço por 1.000 tokens de saída	Preço por 1.000 tokens de entrada (em lote)	Preço por 1.000 tokens de saída (em lote)
Claude 3.7 Sonnet	USD 0,003	USD 0,015	N/D	N/D
Claude 3 Haiku	USD 0,00025	USD 0,00125	USD 0,000125	USD 0,000625
Claude 3 Sonnet	USD 0,003	USD 0,015	USD 0,0015	USD 0,0075

Região: Europa (Frankfurt)

Modelos da Anthropic	Preço por 1.000 tokens de entrada	Preço por 1.000 tokens de saída	Preço por 1.000 tokens de entrada (em lote)	Preço por 1.000 tokens de saída (em lote)
Claude 3.7 Sonnet	USD 0,003	USD 0,015	N/D	N/D
Claude Instant	USD 0,0008	USD 0,0024	N/D	N/D
Claude 2.0/2.1	USD 0,008	USD 0,024	N/D	N/D
Claude 3 Sonnet	USD 0,003	USD 0,015	USD 0,0015	USD 0,0075
Claude 3.5 Sonnet	USD 0,003	USD 0,015	USD 0,0015	USD 0,0075
Claude 3 Haiku	USD 0,00025	USD 0,00125	USD 0,000125	USD 0,000625

Região: Europa (Estocolmo)

Modelos da Anthropic	Preço por 1.000 tokens de entrada	Preço por 1.000 tokens de saída	Preço por 1.000 tokens de entrada (em lote)	Preço por 1.000 tokens de saída (em lote)
Claude 3.7 Sonnet	USD 0,003	USD 0,015	N/D	N/D

Região: Ásia-Pacífico (Seul)

Modelos da Anthropic

Preço por 1.000 tokens de entrada

Preço por 1.000 tokens de saída

Preço por 1.000 tokens de entrada (em lote)

Preço por 1.000 tokens de saída (em lote)

Claude 3.5 Sonnet

USD 0,003

USD 0,015

N/D

Claude 3 Haiku

USD 0,00025

USD 0,00125

N/D

Região: Leste dos EUA (Ohio)

Modelos da Anthropic

Preço por 1.000 tokens de entrada

Preço por 1.000 tokens de saída

Preço por 1.000 tokens de entrada (em lote)

Preço por 1.000 tokens de saída (em lote)

Claude 3.5 Sonnet

USD 0,003

USD 0,015

N/D

Claude 3 Haiku

USD 0,00025

USD 0,00125

N/D

N/A

Região: AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA)

Modelos da Anthropic	Preço por 1.000 tokens de entrada	Preço por 1.000 tokens de saída
Claude 3.5 Sonnet	USD 0,0036	USD 0,018
Claude 3 Haiku	USD 0,0003	USD 0,0015

Inferência otimizada de latência

Região: Leste dos EUA (Ohio)

	Preço por 1.000 tokens de entrada	Preço por 1.000 tokens de saída
Claude 3.5 Haiku	0,001 USD	USD 0,005

Região: Leste dos EUA (Norte da Virgínia)

	Preço por 1.000 tokens de entrada	Preço por 1.000 tokens de saída
Claude 3.5 Haiku	0,001 USD	USD 0,005

Região: Oeste dos EUA (Oregon)

	Preço por 1.000 tokens de entrada	Preço por 1.000 tokens de saída
Claude 3.5 Haiku	0,001 USD	USD 0,005

Preços para throughput provisionado

Região: Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon)

Modelos da Anthropic	Preço por hora por modelo sem compromisso	Preço por hora por unidade de modelo para compromisso de 1 mês	Preço por hora por unidade modelo para compromisso de 6 meses
Claude Instant	USD 44,00	USD 39,60	USD 22,00
Claude 2.0/2.1	USD 70,00	USD 63,00	USD 35,00

Modelos da Anthropic	Preço por hora por modelo sem compromisso	Preço por hora por unidade de modelo para compromisso de 1 mês	Preço por hora por unidade modelo para compromisso de 6 meses
Claude Instant	USD 44,00	USD 39,60	USD 22,00
Claude 2.0/2.1	USD 70,00	USD 63,00	USD 35,00

Região: Ásia-Pacífico (Tóquio)

Modelos da Anthropic	Preço por hora por unidade de modelo para compromisso de 1 mês	Preço por hora por unidade modelo para compromisso de 6 meses
Claude Instant	USD 53,00	USD 29,00
Claude 2.0/2.1	USD 86,00	USD 48,00

Região: Europa (Frankfurt)

Modelos da Anthropic	Preço por hora por unidade de modelo para compromisso de 1 mês	Preço por hora por unidade modelo para compromisso de 6 meses
Claude Instant	USD 49,00	USD 27,00
Claude 2.0/2.1	USD 79,00	USD 44,00

Entre em contato com sua equipe de contas da AWS para obter mais detalhes sobre unidades de modelo.

Cohere

Cohere

Preços sob demanda

Modelos do Cohere	Preço por 1.000 tokens de entrada	Preço por 1.000 tokens de saída	Preço por imagem
Command	USD 0,0015	USD 0,0020	N/D
Command-Light	USD 0,0003	USD 0,0006	N/D
Command R+	USD 0,0030	USD 0,0150	N/D
Command R	USD 0,0005	USD 0,0015	N/D
Embed 3 English	USD 0,0001	N/D	USD 0,0001
Embed 3 Multilingual	USD 0,0001	N/D	USD 0,0001

Modelos da Cohere	Preço por 1.000 consultas**
Rerank 3.5	USD 2,00
**A cobrança é feita pelo número de consultas, sendo que uma consulta pode conter até cem blocos de documentos. Se a consulta contiver mais de cem blocos de documentos, ela será contada como várias consultas. Por exemplo, se uma solicitação contiver 350 documentos, ela será tratada como quatro consultas. Observe que cada documento só pode conter até 500 tokens (incluindo a consulta e o total de tokens do documento) e, se o tamanho do token for maior que 512 tokens, ele será dividido em vários documentos.

Preços para personalização (ajuste fino)

Modelos do Cohere	Preço para treinar 1.000 tokens	Preço para armazenar cada modelo personalizado por mês	Preço a ser inferido de um modelo personalizado por unidade de modelo por hora (com preços de throughput provisionado sem compromisso)
Cohere Command	USD 0,004	USD 1,95	USD 49,50
Cohere Command-Light	USD 0,001	USD 1,95	USD 8,56

*Total de tokens treinados = número de tokens no corpus de dados de treinamento x número de epochs

Preços para throughput provisionado

Modelos do Cohere	Preço por hora por modelo sem compromisso	Preço por hora por unidade de modelo para compromisso de 1 mês	Preço por hora por unidade modelo para compromisso de 6 meses
Cohere Command	USD 49,50	USD 39,60	USD 23,77
Cohere Command - Light	USD 8,56	USD 6,85	USD 4,11
Embed 3 English	USD 7,12	USD 6,76	USD 6,41
Embed 3 Multilingual	USD 7,12	USD 6,76	USD 6,41

Entre em contato com sua equipe de contas ou vendas da AWS para obter mais detalhes sobre unidades de modelo.

DeepSeek

DeepSeek

Preços sob demanda

Regiões: Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio) e Oeste dos EUA (Oregon)

Modelos do DeepSeek	Preço por 1.000 tokens de entrada	Preço por 1.000 tokens de saída
DeepSeek-R1	USD 0,00135	USD 0,0054

Luma AI

Preços sob demanda

Modelos da Luma AI	Resolução de vídeo	Preço por segundo do vídeo gerado
Luma Ray2	720p, 24 fps	USD 1,50
Luma Ray2	540p, 24 fps	USD 0,75

Meta

Stability AI

Preços sob demanda

Modelo do Stability AI	Preço por imagem gerada
Stable Diffusion 3.5 Large	USD 0,08
Stable Image Core	USD 0,04
Stable Diffusion 3 Large	USD 0,08
Stable Image Ultra	USD 0,14

Os modelos de imagem da geração anterior oferecidos pela Stability AI têm o preço por imagem, dependendo da contagem de etapas e da resolução da imagem.

Modelo do Stability AI	Resolução da imagem	Preço por imagem gerada com qualidade padrão (<=50 etapas)	Preço por imagem gerada com qualidade premium (>50 etapas)
SDXL 1.0	Até 1024 x 1024	USD 0,04	USD 0,08

Preços para throughput provisionado

Modelo do Stability AI	Preço por hora por unidade de modelo para compromisso de 1 mês*	Preço por hora por unidade modelo para compromisso de 6 meses*
SDXL 1.0	USD 49,86	USD 46,18

*Inclui inferência para modelos de base e personalizados

Entre em contato com sua equipe de contas ou vendas da AWS para obter mais detalhes sobre unidades de modelo.

No momento, a personalização de modelos (ajuste fino) não é compatível com os modelos do Stability AI no Amazon Bedrock.

Writer

Writer

Preços sob demanda

Modelos de escritores	Preço por 1.000 tokens de entrada	Preço por 1.000 tokens de saída
Palmyra X4	USD 0,0025	USD 0,010
Palmyra X5	USD 0,0006	USD 0,006

Importação de modelos personalizados

Importação de modelos personalizados

Llama
Llama multimodal
Mistral
Mixtral
Flan

Llama

Regiões: Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon)

Versão de unidade de modelo personalizada	v1.0
Preço por unidade de modelo personalizado por min*	USD 0,0785
Custo mensal de armazenamento por unidade de modelo personalizado	USD 1,95

Região: Europa (Frankfurt)

Versão de unidade de modelo personalizada	v1.0
Preço por unidade de modelo personalizado por min*	USD 0,0981
Custo mensal de armazenamento por unidade de modelo personalizado	USD 1,95

Observação: as unidades de modelo personalizadas necessárias para hospedar um modelo dependem de vários fatores, principalmente a arquitetura do modelo, a contagem de parâmetros do modelo e o comprimento do contexto. O número exato de unidades de modelo personalizado necessárias será determinado no momento da importação. Para referência, o modelo Llama 3.1 8B 128K requer duas unidades de modelo personalizadas, um modelo Llama 3.1 70B 128k requer oito unidades de modelo personalizadas.

*Faturado em janelas de 5 minutos

Llama multimodal

Regiões: Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon)

Versão de unidade de modelo personalizada	v1.0
Preço por unidade de modelo personalizado por min*	USD 0,0785
Custo mensal de armazenamento por unidade de modelo personalizado	USD 1,95

Região: Europa (Frankfurt)

Versão de unidade de modelo personalizada	v1.0
Preço por unidade de modelo personalizado por min*	USD 0,0981
Custo mensal de armazenamento por unidade de modelo personalizado	USD 1,95

*Faturado em janelas de 5 minutos

Mistral

Regiões: Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon)

Versão de unidade de modelo personalizada	v1.0
Preço por unidade de modelo personalizado por min*	USD 0,0785
Custo mensal de armazenamento por unidade de modelo personalizado	USD 1,95

Região: Europa (Frankfurt)

Versão de unidade de modelo personalizada	v1.0
Preço por unidade de modelo personalizado por min*	USD 0,0981
Custo mensal de armazenamento por unidade de modelo personalizado	USD 1,95

*Faturado em janelas de 5 minutos

Mixtral

Regiões: Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon)

Versão de unidade de modelo personalizada	v1.0
Preço por unidade de modelo personalizado por min*	USD 0,0785
Custo mensal de armazenamento por unidade de modelo personalizado	USD 1,95

Região: Europa (Frankfurt)

Versão de unidade de modelo personalizada	v1.0
Preço por unidade de modelo personalizado por min*	USD 0,0981
Custo mensal de armazenamento por unidade de modelo personalizado	USD 1,95

*Faturado em janelas de 5 minutos

Flan

Regiões: Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon)

Versão de unidade de modelo personalizada	v1.0
Preço por unidade de modelo personalizado por min*	USD 0,0785
Custo mensal de armazenamento por unidade de modelo personalizado	USD 1,95

Região: Europa (Frankfurt)

Versão de unidade de modelo personalizada	v1.0
Preço por unidade de modelo personalizado por min*	USD 0,0981
Custo mensal de armazenamento por unidade de modelo personalizado	USD 1,95

*Faturado em janelas de 5 minutos

Preços de inferência sob demanda:
Você receberá cobranças em janelas de 5 minutos pelo período em que sua cópia de modelo estiver ativa, a partir da primeira invocação bem-sucedida. O limite máximo de throughput e simultaneidade por cópia de modelo depende de fatores como combinação de tokens de entrada/saída, tipo de hardware, tamanho do modelo, arquitetura, otimizações de inferência e é determinado durante o fluxo de trabalho de importação do modelo.

O Bedrock dimensiona automaticamente o número de cópias do modelo de acordo com seus padrões de uso. Se não houver invocações por um período de 5 minutos, o Bedrock diminuirá para zero e aumentará novamente quando você invocar seu modelo. Ao aumentar a escala, você pode experimentar uma duração de inicialização a frio (em dezenas de segundos), dependendo do tamanho do modelo. O Bedrock também aumenta o número de cópias do modelo se o volume de inferência exceder consistentemente os limites de simultaneidade de uma única cópia do modelo. Observação: há um máximo padrão de três cópias de modelo por conta e por modelo importado que podem ser aumentadas por meio do Service Quotas.

Detalhes de preços de ferramentas e otimização

Fluxos
Amazon Bedrock Flows

A cobrança será feita com base no número de transições de nós necessárias para executar o aplicativo. O Bedrock Flows conta uma transição de nó toda vez que um nó em seu fluxo de trabalho é executado. Você é cobrado pelo número total de transições de nós em todos os seus fluxos.

Todas as cobranças são medidas diariamente e cobradas mensalmente a partir de 1º de fevereiro de 2025.

Preço por 1.000 transições de nós

USD 0,035

Cobranças adicionais

É possível que sejam geradas cobranças adicionais se a execução do fluxo de trabalho do aplicativo usar outros Serviços da AWS ou transferir dados. Por exemplo, se seu fluxo de trabalho invocar uma política de barreira de proteção do Amazon Bedrock, a cobrança será feita pelo número de unidades de texto processadas pela política.
Bases de conhecimento
Recuperação de dados estruturados (geração de SQL)

A recuperação de dados estruturados é cobrada por cada solicitação para gerar uma consulta SQL. A consulta SQL gerada é usada para recuperar os dados de armazenamentos de dados estruturados.

Modelos Rerank

Os modelos Rerank são projetados para melhorar a relevância e a precisão das respostas em aplicações de geração aumentada via recuperação (RAG). Eles são cobrados por consulta.

**A cobrança é feita pelo número de consultas, sendo que uma consulta pode conter até cem blocos de documentos. Se a consulta contiver mais de cem blocos de documentos, ela será contada como várias consultas. Por exemplo, se uma solicitação contiver 350 documentos, ela será tratada como quatro consultas. Observe que cada documento só pode conter até 512 tokens (incluindo a consulta e o total de tokens do documento) e, se o tamanho do token for maior que 512 tokens, ele será dividido em vários documentos. Uma consulta é equivalente a uma unidade de pesquisa.
Barreiras de proteção

Preço por 1.000 transições de nós
USD 0,035

Barreiras de proteção do Amazon Bedrock

Política de barreiras de proteção*	Preço
Filtros de conteúdo (conteúdo de texto)	USD 0,15 por 1.000 unidades de texto
Filtros de conteúdo (conteúdo de imagem)	USD 0,00075 por imagem processada
Tópicos negados	USD 0,15 por 1.000 unidades de texto
Filtros de informações confidenciais	USD 0,10 por 1.000 unidades de texto
Filtros de informações confidenciais (padrão de expressão regular)	Grátis
Filtros de palavras	Grátis
Verificação de fundamentação contextual	USD 0,10 por 1.000 unidades de texto

Preços sob demanda

* Cada política de barreira de proteção é opcional e pode ser habilitada com base nos requisitos da aplicação. As cobranças serão feitas com base no tipo de política usado na barreira de proteção. Por exemplo, se uma barreira de proteção estiver configurada com filtros de conteúdo e tópicos negados, haverá cobranças por essas duas políticas, mas não haverá cobranças associadas aos filtros de informações confidenciais.

Observação: uma unidade de texto pode conter até 1000 caracteres. Se uma entrada de texto tiver mais de 1000 caracteres, ela será processada como várias unidades de texto, cada uma contendo 1000 caracteres ou menos. Por exemplo, se um texto tiver 5600 caracteres, serão contabilizadas seis unidades de texto para fins de cobrança.

A verificação de fundamentação contextual utiliza uma fonte de referência e uma consulta para determinar se a resposta do modelo está fundamentada com base na fonte e se é relevante para a consulta. O número total de unidades de texto cobradas é calculado com base na soma de todos os caracteres presentes na fonte, na consulta e na resposta do modelo.

Avaliação de modelo

Avaliação de modelo

A avaliação de modelo é cobrada pela inferência de sua escolha de modelo. As pontuações algorítmicas geradas automaticamente são fornecidas sem custo adicional. Na avaliação baseada em humanos, na qual você traz seu próprio fluxo de trabalho, você é cobrado pela inferência do modelo na avaliação e uma taxa de USD 0,21 por tarefa humana concluída.

Modelo

Preço por 1.000 tokens de entrada

Preço por 1.000 tokens de saída

Preço por tarefa humana

Modelo selecionado para avaliação

Com base no modelo selecionado

USD 0,21

Automação de dados
Automação de dados

As bases de conhecimento do Amazon Bedrock oferecem uma integração de automação de dados do Bedrock para fornecer respostas mais relevantes e precisas para dados multimodais. Ao configurar uma base de conhecimento, você pode selecionar a automação de dados do Bedrock como seu método de análise para analisar e extrair insights significativos de imagens ou documentos, que podem incluir figuras, gráficos e diagramas. Durante o processamento, a automação de dados do Bedrock extrai informações significativas dos documentos e imagens ingeridos, que são usadas nas etapas subsequentes da base de conhecimento para fragmentação, incorporação e armazenamento. Quando integrado às bases de conhecimento, a automação de dados do Bedrock fornece e faz a cobrança com base na saída padronizada.
Roteamento de prompts inteligente

Ponto de preço	Dimensão dos preços	Plano de preços
Roteamento de prompts inteligente	1 USD por 1.000 solicitações	Sob demanda

Roteamento de prompts inteligente

O Roteamento de prompts inteligente permite usar uma combinação de modelos de base (FMs) da mesma família de modelos para ajudar a otimizar a qualidade e o custo. Por exemplo, com a família de modelos Claude da Anthropic, o Amazon Bedrock pode direcionar de forma inteligente as solicitações entre o Claude 3.5 Sonnet e o Claude 3 Haiku, dependendo da complexidade do prompt. Da mesma forma, o Amazon Bedrock pode encaminhar solicitações entre o Meta Llama 3.3 70B e 3.18B, e o Nova Pro e o Nova Lite. O roteador de prompts prevê qual modelo fornecerá o melhor desempenho para cada solicitação, ajudando a otimizar a qualidade da resposta e o custo. Isso é particularmente útil para aplicações como assistentes de atendimento ao cliente, onde consultas simples podem ser tratadas por modelos menores, mais rápidos e mais econômicos, e consultas complexas são encaminhadas para modelos mais capazes. O Roteamento de prompts inteligente pode reduzir os custos em até 30% sem comprometer a precisão.

Otimização de prompts
Prompt Optimization para Amazon Bedrock

Você é cobrado com base no número de tokens em prompts de entrada e em prompts otimizados.

Todas as cobranças serão faturadas mensalmente a partir de 23 de abril de 2025.

Preço por 1.000 tokens

0,030 USD

Exemplos de preço

AI21 Labs

Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock: uma solicitação ao modelo Jurrasic-2 Mid da AI21 para resumir uma entrada de 10.000 tokens de texto em uma saída de 2.000 tokens.

Custo total acumulado = 10.000 tokens/1000 * USD 0,0125 + 2.000 tokens/1000 * USD 0,0125 = USD 0,15
Amazon

Preços sob demanda

Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock de hora em hora: uma solicitação ao modelo Amazon Titan Text Lite para resumir uma entrada de 2.000 tokens de texto em uma saída de 1.000 tokens.

Custo total acumulado por hora = 2.000 tokens/1.000 * USD 0,0003 + 1.000 tokens/1.000 * USD 0,0004 = USD 0,001.

Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock: uma solicitação ao modelo de base do Gerador de imagens do Amazon Titan para gerar 1000 imagens de 1024 x 1024 em tamanho de qualidade padrão.

Custo total acumulado = 1000 imagens * USD 0,01 por imagem = USD 10

Preços para personalização (ajuste fino e pré-treinamento contínuo)

Um desenvolvedor de aplicações personaliza um modelo Gerador de imagens do Amazon Titan usando 1.000 pares de imagem e texto. Após o treinamento, o desenvolvedor usa o throughput provisionado do modelo personalizado por 1 hora para avaliar a performance desse modelo. O modelo ajustado é armazenado por 1 mês. Após a avaliação, o desenvolvedor usa o throughput provisionado (compromisso de 1 mês) para hospedar o modelo personalizado.

Custo mensal do ajuste fino = treinamento de ajuste fino (USD 0,005 * 500 * 64), em que USD 0,005 é o preço por imagem vista, 500 é o número de etapas e 64 é o tamanho do lote + armazenamento de modelo personalizado por mês (USD 1,95) + 1 hora de inferência de modelo personalizado (USD 21) = USD 160 + USD 1,95 + USD 21 = USD 182,95

Preços para throughput provisionado

Um desenvolvedor de aplicações compra duas unidades de modelo do Amazon Titan Text Express com um compromisso de 1 mês para seu caso de uso de resumo de texto.

Custo mensal total acumulado = 2 unidades do modelo * USD 18,40/hora * 24 horas * 31 dias = USD 27.379,20

Um desenvolvedor de aplicações compra uma unidade de modelo do modelo de base do Gerador de imagens do Amazon Titan com compromisso de 1 mês.

Custo total incorrido = 1 unidade do modelo * USD 16,20 * 24 horas* 31 dias = USD 12.052,80
Barreiras de proteção do Amazon Bedrock

Exemplo 1: chatbot de suporte ao cliente
Um desenvolvedor de aplicações cria um chatbot de suporte ao cliente e usa filtros de conteúdo para bloquear conteúdo nocivo e tópicos negados para filtrar consultas e respostas indesejáveis.

O chatbot atende a 1.000 consultas de usuários por hora. Cada consulta do usuário tem um tamanho médio de entrada de 200 caracteres e recebe uma resposta FM com 1.500 caracteres.

Cada consulta do usuário de 200 caracteres corresponde a 1 unidade de texto.

Cada resposta FM de 1.500 caracteres corresponde a 2 unidades de texto.

Unidades de texto processadas a cada hora = (1 + 2) * 1.000 consultas = 3.000 unidades de texto

Custo total incorrido por hora com filtros de conteúdo e tópico negado = 3.000 * (USD 0,15 + USD 0,15)/1.000 = USD 0,90

Exemplo 2: resumo de transcrição do call center
Um desenvolvedor de aplicações cria uma aplicação para resumir as transcrições de chat entre usuários e atendentes de suporte. Ele usa filtro de informações confidenciais para omitir informações de identificação pessoal (PII) nos resumos gerados para 10.000 conversas.

Cada resumo gerado tem uma média de 3.500 caracteres que correspondem a 4 unidades de texto.

Custo total incorrido para resumir 10.000 conversas = 10.000 * 4 * (USD 0,1/1000) = USD 4
Bases de conhecimento do Amazon Bedrock

Exemplo de preço 1 (reclassificação usando o modelo Amazon Rerank 1.0)

Em um determinado mês, você faz 2 milhões de solicitações para a API Rerank usando o modelo Amazon Rerank 1.0, sendo que 1 milhão de solicitações contêm menos de cem documentos cada e, portanto, serão cobradas como uma solicitação cada. O 1 milhão de solicitações restante contêm de 120 a 150 documentos e, portanto, cada solicitação será cobrada como duas solicitações.

Preço de uma solicitação = USD 0,001
Cobrança total = 1.000.000 * USD 0,001 + 1.000.000*2*USD 0,001= USD 3.000

Exemplo de preço 2: (recuperação de dados estruturados)

Um desenvolvedor de aplicações cria um chatbot de suporte que consulta dados estruturados armazenados no Amazon Redshift. O desenvolvedor cria uma base de conhecimento do Bedrock e se conecta ao Amazon Redshift. O chatbot atende a 10 mil consultas de usuários por hora. Cada consulta de usuário custará USD 0,002 por API GenerateQuery para gerar SQL com base na consulta do usuário.

Custo total incorrido para gerar SQL por hora = USD 0,002 * 10.000 = USD 20.
Custo total incorrido no mês = USD 20 * 24 * 30 = USD 1.440
Anthropic

Preços sob demanda

Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock na região Oeste dos EUA (Oregon): uma solicitação ao modelo Claude da Anthropic para resumir uma entrada de 11.000 tokens de texto em uma saída de 4.000 tokens.

O custo total acumulado é de 11.000 tokens/1000 * USD 0,008 + 4.000 tokens/1000 * USD 0,024 = USD 0,088 + USD 0,096 = USD 0,184

Preços para throughput provisionado

Um desenvolvedor de aplicações compra uma unidade de modelo do Claude Instant da Anthropic na região Oeste dos EUA (Oregon):

O custo mensal total acumulado é de 1 unidade de modelo * USD 39,60 * 24 horas * 31 dias = USD 29.462,40
Cohere

Preços sob demanda

Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock: uma solicitação ao modelo Command da Cohere para resumir uma entrada de 6.000 tokens de texto em uma saída de 2.000 tokens.

O custo total incorrido é = 6.000 tokens/1.000 * USD 0,0015 + 2.000 tokens/1.000 * USD 0,0020 = USD 0,013

Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock: uma solicitação ao modelo Command-Light da Cohere para resumir uma entrada de 6.000 tokens de texto de entrada em uma saída de 2.000 tokens.

Custo total acumulado = 6.000 tokens/1000 * USD 0,0003 + 2.000 tokens/1000 * USD 0,0006 = USD 0,003

Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock: um solicitação ao modelo Embed em inglês ou Embed multilíngue da Cohere para gerar incorporações para 10.000 tokens de entrada.

Custo total acumulado = 10.000 tokens/1000 * USD 0,0001 = USD 0,001

Preços para personalização (ajuste fino)

Um desenvolvedor de aplicações personaliza um modelo Command da Cohere usando 1000 tokens de dados. Após o treinamento, ele usa o throughput provisionado do modelo personalizado por 1 hora para avaliar a performance desse modelo. O modelo ajustado é armazenado por 1 mês. Após a avaliação, o desenvolvedor usa o throughput provisionado (compromisso de 1 mês) para hospedar o modelo personalizado.

O custo mensal do ajuste fino é: treinamento de ajuste fino (USD 0,004 * 1000) + armazenamento de modelos personalizados por mês (USD 1,95) + 1 hora de inferência de modelo personalizado (USD 49,50) = USD 55,45

Custo mensal acumulado para throughput provisionado (compromisso de 1 mês) do modelo personalizado = USD 39,60

Preços para throughput provisionado

Um desenvolvedor de aplicações compra uma unidade de modelo do Command da Cohere com um compromisso de 1 mês para seu caso de uso de resumo de texto.

O custo mensal total acumulado é de 1 unidade de modelo * USD 39,60 * 24 horas * 31 dias = USD 29.462,40
Importação de modelos personalizados

Exemplo de preço: um desenvolvedor de aplicações importa um modelo personalizado do tipo Llama 3.1 com um tamanho de parâmetro de 8B com um comprimento de sequência de 128 mil na região us-east-1. Isso requer duas unidades de modelo personalizadas. Portanto, o preço por minuto será de USD 0,1570 porque são necessárias duas unidades de modelo personalizadas. Os custos de armazenamento do modelo para duas unidades de modelo personalizadas seriam de USD 3,90 por mês.

Não há cobrança para importar o modelo. A primeira invocação bem-sucedida é feita às 8h03, quando a medição começa. As janelas de medição de 5 minutos são feitas das 8h03 às 8h07; das 8h07 às 8h11 e assim por diante. Se houver pelo menos uma invocação durante qualquer período de 5 minutos, a janela será considerada ativa para cobrança. Se houver uma invocação às 8h03 e nenhuma outra invocação depois das 8h07, a medição será interrompida às 8h07. Nesse caso, a fatura seria calculada da seguinte forma: USD 0,1570 * 5 minutos* 1 janelas de cinco minutos = USD 0,785.
Automação de dados

Exemplo de preço 1:
Digamos que você processe um documento de mil páginas usando a saída personalizada do BDA. Todas as mil páginas são processadas usando o esquema 1, que tem 15 campos. O preço por página para qualquer esquema com 30 campos ou menos é USD 0,040. O custo total seria de USD 40.

Total de páginas processadas = 1.000
Preço por página para esquemas com menos de 30 campos = USD 0,040
Cobrança total = 1.000 * USD 0,040 = USD 40

Exemplo de preço 2:
Digamos que você processe dois documentos usando a saída personalizada do BDA. O documento 1 tem 40 páginas e é processado usando o esquema 1, que tem 20 campos. O documento 2 tem 10 páginas e é processado usando o esquema 2, que tem 40 campos. O preço por página do esquema 1 é USD 0,040, pois ele contém 30 campos ou menos. O preço por página do esquema 2 é USD 0,045. O custo de processamento do Documento 1 usando o esquema 1 é USD 1,60. O custo de processamento do Documento 2 usando o esquema 2 é USD 0,45. O custo total do processamento de ambos os documentos seria de USD 2,05.

Total de páginas processadas = 50
Preço por página do Esquema 1 com menos de 30 campos = USD 0,040
Preço por página para o Esquema 2 com 40 campos = USD 0,040 + (n.º de campos adicionais acima de 30 * USD 0,0005 por campo)
Número de campos adicionais acima de 30 = 40 - 30 = 10
Preço por página para o Esquema 2 com 40 campos = USD 0,040 + (10 * USD 0,0005 por campo) = USD 0,045
Cobrança pelo Documento 1 usando o Esquema 1 = 40 páginas x USD 0,040 por página = USD 1,6
Cobrança pelo Documento 2 usando o Esquema 2 = 10 páginas x USD 0,045 por página = USD 0,45
Cobrança total = cobrança pelo Documento 1 + cobrança pelo Documento 2 = USD 1,6 + USD 0,45 = USD 2,05

Exemplo de preço 3:
Digamos que você configure as bases de conhecimento do Bedrock para usar a automação de dados do Bedrock como um analisador e, em seguida, faça a ingestão de um documento de mil páginas. Observe que as estruturas de custo diferem entre as opções de análise do Knowledge Bases. O BDA usa preços por página, enquanto os analisadores do Foundational Model cobram com base nos tokens de entrada e saída. Para contextualizar, o processamento de 1.000 páginas, em que 30% contêm tabelas e 30% contêm figuras, normalmente requer 2.900 tokens de entrada e 750 tokens de saída. O consumo de tokens varia de acordo com o tipo de conteúdo, portanto, os clientes são incentivados a testar usando seus próprios dados para obter estimativas mais precisas. A integração entre a base de conhecimento do Bedrock e a automação de dados do Bedrock usa a saída padrão, com um preço de USD 0,010 por página. O custo total seria de USD 10.

Total de páginas processadas = 1.000
Preço por página para a saída padrão = USD 0,010
Cobrança total = 1.000 * USD 0,010 = USD 10

Exemplo de preço 4:
Digamos que você processe um vídeo de 60 minutos usando a saída padrão do BDA. O preço por minuto da saída padrão de vídeo é USD 0,050. O custo total seria de USD 3,00.

Total de minutos processados = 60
Preço por minuto para saída padrão de vídeo = USD 0,050
Cobrança total = 60 * USD 0.050 = USD 3,00

Exemplo de preço 5:
Digamos que você processe 2 mil imagens usando a saída personalizada do BDA. As primeiras mil imagens são processadas usando o esquema 1, que tem 10 campos. As últimas mil páginas são processadas usando o esquema 2, que tem 40 campos. O preço por imagem do esquema 1 é USD 0,005, pois ele contém 30 campos ou menos. O preço por imagem do esquema 2 é USD 0,01. O custo de processamento das primeiras mil imagens usando o esquema 1 é USD 5,00. O custo de processamento das segundas mil imagens usando o esquema 2 é USD 10,00. O custo total do processamento de todas as 2 mil imagens seria de USD 15,00

Custo das primeiras 1.000 imagens = 1.000 imagens * USD 0,005 por imagem = USD 5,00
Custo das segundas 1.000 imagens = 1.000 imagens * (USD 0,005 + (n.º de campos adicionais acima de 30 * USD 0,0005 por campo))
= 1.000 * (USD 0,005 + ((40-30) * USD 0,0005))
= 1.000 * (USD 0,005 + (10 * USD 0,0005)) = USD 10,00
Custo total = USD 5,00 + USD 10,00 = USD 15,00

Exemplo de preço 6:
Vamos supor que você queira usar a saída padrão da automação de dados do Bedrock para processar 15 mil minutos de gravações de áudio de reuniões em sua organização. O custo total do processamento de todos os 15 mil minutos de áudio seria de USD 90.

Total de minutos processados = 15.000 minutos
Cobrança total = 15.000 min × USD 0,006 = USD 90
DeepSeek

Preços sob demanda

Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock de hora em hora: uma solicitação ao modelo DeepSeek-R1 para resumir uma entrada de 2.000 tokens de texto de entrada em uma saída de 1.000 tokens (incluindo tokens de raciocínio):

Custo total acumulado por hora = 2.000 tokens/1000 * USD 0,00135 + 1000 tokens/1.000 * USD 0,0054 = USD 0,0081
Fluxos

Exemplo: resumo de notícias
Um desenvolvedor de aplicações cria um fluxo para automatizar o resumo de notícias para negociadores. O fluxo inclui um nó de entrada, que ocupa um local do S3, e um nó de recuperação do S3, que recupera dez arquivos que incluem artigos de dez grandes agências de notícias no S3 (transições de dois nós). Em seguida, ele usa um nó iterador para invocar um modelo com um nó de prompt para resumir cada arquivo (+ 10 arquivos x 2 transições de nós). Em seguida, ele coleta todos os resultados usando um nó coletor, grava os resultados no S3 usando o nó de armazenamento do S3 e os completa em um nó de saída (+ 3 transições de nós). Eles executam esse fluxo a cada meia hora de cada dia da semana.

O número de transições de nós por execução de fluxo é: 2+1+10*2 + 3 = 25 transições de nós/execução de fluxo

O número de execuções de fluxo por mês é: 24 horas *2* 5 dias * 4 semanas = 960 execuções de fluxo/mês.

A fatura mensal total é: 25 * 960 * USD 0,035/1.000 = USD 0,84

Cobranças adicionais
A fatura também incluirá cobranças adicionais pelos serviços da AWS usados na execução do fluxo de trabalho, incluindo o uso do Amazon S3 nos nós de recuperação e armazenamento e o uso do modelo de base do Amazon Bedrock no nó do prompt.
Meta

Preços sob demanda

Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock: uma solicitação ao modelo Llama 2 Chat (13B) da Meta para resumir uma entrada de 2.000 tokens de texto de entrada em uma saída de 500 tokens.

Custo total acumulado = 2.000 tokens/1000 * USD 0,00075 + 500 tokens/1000 * USD 0,001 = USD 0,002

Preços para personalização (ajuste fino)

Um desenvolvedor de aplicações personaliza o modelo pré-treinado do Llama 2 (70B) usando 1000 tokens de dados. Após o treinamento, ele usa o throughput provisionado do modelo personalizado por 1 hora para avaliar a performance desse modelo. O modelo ajustado é armazenado por 1 mês. Após a avaliação, o desenvolvedor usa o throughput provisionado (compromisso de 1 mês) para hospedar o modelo personalizado.

O custo mensal do ajuste fino é: treinamento de ajuste fino (USD 0,00799 * 1000) + armazenamento de modelo personalizado por mês (USD 1,95) + 1 hora de inferência de modelo personalizado (USD 23,50) = USD 33,44

Custo mensal acumulado para throughput provisionado (compromisso de 1 mês) do modelo personalizado = USD 21,18

Preços para throughput provisionado

Um desenvolvedor de aplicações compra uma unidade de modelo do Meta Llama 2 com um compromisso de 1 mês para seu caso de uso de resumo de texto.

O custo mensal total acumulado é de 1 unidade de modelo * USD 21,18 * 24 horas * 31 dias = USD 15.757,92
Mistral AI

Preços sob demanda

Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock de hora em hora: uma solicitação ao modelo Mistral 7B para resumir uma entrada de 2.000 tokens de texto em uma saída de 1.000 tokens.

Custo total acumulado por hora = 2.000 tokens/1000 * USD 0,00015 + 1000 tokens/1.000 * USD 0,0002 = USD 0,0005

Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock de hora em hora: uma solicitação ao modelo Mistral 8x7B para resumir uma entrada de 2.000 tokens de texto em uma saída de 1.000 tokens.

Custo total acumulado por hora = 2.000 tokens/1000 * USD 0,00045 + 1000 tokens/1.000 * USD 0,0007 = USD 0,0016

Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock de hora em hora: uma solicitação ao modelo Mistral Large para resumir uma entrada de 2.000 tokens de texto de entrada em uma saída de 1.000 tokens.

O custo total por hora incorrido é = 2.000 tokens/1000 * USD 0,008 + 1.000 tokens/1000 * USD 0,024 = USD 0,04

Avaliação de modelo

Exemplo de avaliação de modelo 1:

O conjunto de dados contém 50 solicitações e o desenvolvedor exige que 1 pessoa avalie cada conjunto de prompts de resposta (configurável na criação do trabalho de avaliação como parâmetro “pessoas por prompt”).

Haverá 50 tarefas neste trabalho de avaliação (uma tarefa para cada conjunto de prompt-resposta por cada trabalhador). As 50 solicitações combinam até 5.000 tokens de entrada, e as respostas associadas combinam 15.000 tokens para o Anthropic Claude Instant e 20.000 tokens para o Anthropic Claude 2.1.

As seguintes cobranças são cobradas por esse trabalho de avaliação de modelo:

Item	Número de tokens de entrada	Preço por 1.000 tokens de entrada	Custo da entrada	Número de tokens de saída	Preço por 1.000 tokens de saída	Custo de produção	Número de tarefas humanas	Preço por tarefa humana	Custo das tarefas humanas	Total
Inferência instantânea de Claude	5.000	USD 0,0008	USD 0,004	15.000	USD 0,0024	USD 0,036				USD 0,04
Inferência do Claude 2.1	5.000	USD 0,008	USD 0,04	20.000	USD 0,024	USD 0,48				USD 0,52
Tarefas humanas							50	USD 0,21	USD 10,50	USD 10,50
Total										USD 11,06

Exemplo de avaliação de modelo 2:

Preços sob demanda
Um desenvolvedor de aplicações envia um conjunto de dados para avaliação de modelos baseada em humanos usando o Anthropic Claude 2.1 e o Anthropic Claude Instant na região da AWS Leste dos EUA (Norte da Virgínia).

O conjunto de dados contém 50 solicitações e o desenvolvedor exige que dois trabalhadores avaliem cada conjunto de prompts de resposta (configurável na criação do trabalho de avaliação como parâmetro “trabalhadores por prompt”). Haverá 100 tarefas neste trabalho de avaliação (1 tarefa para cada conjunto de resposta de prompt por cada trabalhador: 2 trabalhadores x 50 conjuntos de respostas de prompt = 100 tarefas humanas).

As 50 solicitações combinam até 5.000 tokens de entrada, e as respostas associadas combinam 15.000 tokens para o Anthropic Claude Instant e 20.000 tokens para o Anthropic Claude 2.1.

As seguintes cobranças são cobradas por esse trabalho de avaliação de modelo:

Item	Número de tokens de entrada	Preço por 1.000 tokens de entrada	Custo da entrada	Número de tokens de saída	Preço por 1.000 tokens de saída	Custo de produção	Número de tarefas humanas	Preço por tarefa humana	Custo das tarefas humanas	Total
Inferência instantânea de Claude	5.000	0,0008 USD	USD 0,0040	15.000	USD 0,0024	USD 0,036				USD 0,04
Inferência do Claude 2.1	5.000	USD 0,008	USD 0,0400	20.000	USD 0,024	USD 0,48				USD 0,52
Tarefas humanas							100	USD 0,21	USD 21,00	USD 21,00
Total										USD 21,56

Otimização de prompts

Exemplo: resumo de notícias
Um desenvolvedor de aplicações cria um prompt para resumir as notícias para os negociantes usando o Claude 3.5. O prompt original inclui 429 tokens. O prompt otimizado tem 511 tokens e inclui instruções e exemplos mais específicos para gerar uma resposta mais concisa dos modelos de base. Ele usa o prompt otimizado com 511 tokens como entrada para o otimizador de prompts e cria duas novas variantes para Claude 3.7 e Nova Pro com 582 e 579 tokens.

O número total de tokens de entrada e saída para otimização de prompts: 429 + 511 + 511 + 582 + 511 + 579 = 3.123

A fatura mensal total é: 3.123 * 1000 * USD 0,03 = USD 0,09
Stability AI

Preços sob demanda

Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock: uma solicitação ao modelo SDXL para gerar uma imagem de 512 x 512 em gradações de 70 (qualidade premium).

Custo total acumulado = 1 imagem * USD 0,036 por imagem = USD 0,036

Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock: uma solicitação ao modelo SDXL 1.0 para gerar uma imagem de 1024 X 1024 em gradações de 70 (qualidade premium).

Custo total acumulado = 1 imagem * USD 0,08 por imagem = USD 0,08

Preços para throughput provisionado

Um desenvolvedor de aplicações compra uma unidade de modelo do SDXL 1.0 com compromisso de 1 mês.

Custo total acumulado = 1 * USD 49,86 * 24 horas * 31 dias = USD 37.095,84
Writer

Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock: uma solicitação ao modelo Palmyra X5 do Writer para resumir uma entrada de 10 mil tokens de texto de entrada em uma saída de 2 mil tokens.

Custo total incorrido = 10 mil tokens/1000 * USD 0,003 + 2 mil tokens/1000 * USD 0,015 = USD 0,06

Modelos do Meta	Preço por hora por unidade de modelo para compromisso de 1 mês	Preço por hora por unidade modelo para compromisso de 6 meses
Llama 2 pré-treinado e Chat (13B)	USD 21,18	USD 13,08
Llama 2 pré-treinado (70B)	USD 21,18	USD 13,08

Preços do Amazon Bedrock

Visão geral da definição de preço

Modelos de preços

Sob demanda e em lote

Latência otimizada (pré-visualização pública)

Throughput provisionado

Custom Model Import

Modelos do Marketplace

Personalização e otimização

Personalização de modelos

Armazenamento em cache de prompts

Gerenciamento e otimização de prompts

Ferramentas

Barreiras de proteção

Knowledge Bases e Data Automation

Atendentes

Flows

Avaliações

Detalhes do preço do modelo

AI21 Labs

Amazon Nova

Preços para entender os modelos

Preços de modelos para geração de conteúdo criativo

Preços para modelos de compreensão e geração de fala

Preços sob demanda para modelos de base de fala para fala

Amazon Titan

Anthropic

Cohere

DeepSeek

Preços sob demanda

Meta

Mistral AI

Stability AI

Writer

Importação de modelos personalizados

Detalhes de preços de ferramentas e otimização

Amazon Bedrock Flows

Barreiras de proteção do Amazon Bedrock

Avaliação de modelo

Automação de dados

Prompt Optimization para Amazon Bedrock

Exemplos de preço

AI21 Labs

Amazon

Preços sob demanda

Preços para personalização (ajuste fino e pré-treinamento contínuo)

Preços para throughput provisionado

Barreiras de proteção do Amazon Bedrock

Bases de conhecimento do Amazon Bedrock

Anthropic

Preços sob demanda

Preços para throughput provisionado

Cohere

Preços sob demanda

Preços para personalização (ajuste fino)

Importação de modelos personalizados

Automação de dados

DeepSeek

Fluxos

Meta

Preços sob demanda

Preços para personalização (ajuste fino)

Preços para throughput provisionado

Mistral AI

Preços sob demanda

Avaliação de modelo

Exemplo de avaliação de modelo 1:

Exemplo de avaliação de modelo 2:

Otimização de prompts

Stability AI

Preços sob demanda

Preços para throughput provisionado

Writer

Encerramento do suporte para o Internet Explorer