Prompt Caching bei Amazon Bedrock

Übersicht

Bei vielen Basismodellen (FM) werden bestimmte Teile von Prompts (Präfixen) in API-Aufrufen wiederverwendet. Mit dem Prompt-Caching können Sie bei unterstützten Modellen diese wiederholten Prompt-Präfixe zwischen Anfragen zwischenspeichern. Durch diesen Cache kann das Modell die Neuberechnung übereinstimmender Präfixe überspringen. Dadurch kann das Prompt-Caching in Amazon Bedrock die Kosten um bis zu 90 % und die Latenz um bis zu 85 % für unterstützte Modelle senken.

Verbessern Sie die Leistung für mehrere Anwendungsfälle

Viele Anwendungen erfordern oder profitieren von langen Prompts, wie etwa Fragen und Antworten zu Dokumenten, Code-Assistenten, Agenten-Suche oder Langform-Chat. Selbst mit den intelligentesten Basismodellen müssen Sie oft umfangreiche Prompts mit detaillierten Anweisungen und Beispielen mit vielen Aufnahmen verwenden, um die richtigen Ergebnisse für Ihren Anwendungsfall zu erzielen. Lange Prompts, die über API-Aufrufe hinweg wiederverwendet werden, können jedoch zu einer erhöhten durchschnittlichen Latenz führen. Durch das Zwischenspeichern von Prompts muss der interne Modellstatus nicht neu berechnet werden, wenn das Prompt-Präfix bereits zwischengespeichert ist. Dies spart Verarbeitungszeit und führt zu geringeren Antwortlatenzen.

Screenshot der Benutzeroberfläche

Reduzieren Sie die Kosten für lange, wiederholte Prompts

Mit Prompt Caching können Sie die relevanten Teile Ihres Prompts zwischenspeichern, um Kosten für Eingabetoken zu sparen. Ihr Cache ist spezifisch für Ihr Konto und umfasst den internen Modellstatus, der Ihre Prompts darstellt. Da das Modell die Neuberechnung für zwischengespeicherte Präfixe überspringen kann, sinkt der Bedarf an Rechenressourcen für die Verarbeitung Ihrer Anfragen. Dadurch werden Ihre Kosten gesenkt.

Nahtlose Integration mit anderen Amazon Bedrock-Features

Prompt Caching lässt sich in Amazon Bedrock-Features wie Agenten integrieren, sodass Sie mehrstufige Aufgaben beschleunigen und sogar längere System-Prompts nutzen können, um das Verhalten von Agenten zu verfeinern, ohne Ihre Antworten zu verlangsamen.