Características de Amazon Polly

API de uso sencillo

Amazon Polly proporciona una API que le permite integrar la síntesis del habla en su aplicación de manera rápida. Simplemente envía el texto que desea convertir en habla a la API de Amazon Polly, y Amazon Polly le envía al instante la transmisión de audio a su aplicación, para que pueda comenzar a transmitirla directamente o almacenarla en un formato de archivo de audio estándar, como MP3.

Frecuencia de muestreo	Código de muestra
"Hi. My name is Joanna."	from boto3 import client polly = client("polly", region_name="us-east-1") response = polly.synthesize_speech( Text="Hi. My name is Joanna.", OutputFormat="mp3", VoiceId="Joanna")

Amplia selección de voces e idiomas

Amazon Polly incluye decenas de voces realistas y es compatible con varios idiomas, de manera que puede seleccionar la voz ideal y distribuir sus aplicaciones con voz en numerosos países. Además de las voces de texto a voz neuronal (NTTS) y estándar, Amazon Polly ahora ofrece voces de formato largo y generativas que mejoran la calidad del habla para conseguir voces más naturales y parecidas a las humanas.

Danielle, Gregory, Ruth, Patryk, Alba y Raúl son voces disponibles en una variante de formato largo.

Ruth, Matthew, Amy, Joanna, Danielle, Stephen, Olivia, Ayanda, Lucia, Lupe, Léa, Mía y Vicki, Bianca, Kajal, Pedro, Andrés, Sergio, Daniel y Rémi se encuentran disponibles en una variante generativa.

Idioma o variante de idioma	Mujer	Hombre

Árabe-MSA	Zeina
Árabe (del Golfo)	Hala (neuronal)	Zayd (neuronal)
Cantonés	Hiujin (Neural)
Catalán	Arlet (Neural)
Danés	Sofie (neuronal)	Mads
	Naja
Neerlandés	Laura (Neuronal)	Ruben
	Lotte
Neerlandés (flamenco) - Bélgica	Lisa (neuronal)
Inglés - India	Kajal (neuronal)
	Raveena
	Aditi
	Kajal (generativo)
Inglés - Irlanda	Niamh (neuronal)
Inglés - Nueva Zelanda	Aria (neuronal)
Inglés - Singapur	Jazmín (neuronal)
Inglés - Sudáfrica	Ayanda (generativa)
	Ayanda
Inglés - Reino Unido	Amy (generativa)	Brian (neuronal)
	Amy (neuronal)	Brian (estándar)
	Amy (estándar)	Arthur (neuronal)
	Emma (neuronal)
	Emma (estándar)
Inglés - Estados Unidos	Ruth (generativa)	Patrick (formato largo)
	Ruth (formato largo)	Gregory (formato largo)
	Ruth (Neuronal)	Gregory (neuronal)
	Danielle (generativa)	Stephen (generativa)
	Danielle (formato largo)	Stephen (neuronal)
	Joanna (generativa)	Matthew (generativa)
	Joanna (neuronal)	Matthew (Neural)
	Joanna (Estándar)	Matthew (estándar)
	Salli (neuronal)	Justin (neuronal)
	Salli (estándar)	Justin (estándar)
	Kendra (neuronal)	Joey (neuronal)
	Kendra (estándar)	Joey (estándar)
	Kimberly (neuronal)
	Kimberly (Estándar)
	Ivy (Neural)
	Ivy (Estándar)
Inglés - Gales		Geraint
Inglés - Australia	Olivia (generativa)	Russell
	Olivia (neuronal)
	Nicole
Finés	Suvi (Neuronal)
Francés - Bélgica	Isabelle (Neural)
Francés - Canadá	Gabrielle (Neural)	Liam (Neural)
	Chantal
Francés - Francia	Léa (generativo)	Mathieu
	Léa (neuronal)	Rémi (generativo)
	Léa (estándar)	Rémi
	Céline
Alemán - Austria	Hannah (Neural)
Alemán - Alemania	Vicki (generativo)	Daniel (generativo)
	Vicki (neuronal)	Daniel (Neural)
	Vicki (Estándar)	Hans
	Marlene
Hindi - India	Kajal (neuronal)
	Aditi
Islandés	Dóra	Karl
Italiano	Bianca (Neuronal)	Adriano
	Bianca (Estándar)	Giorgio
	Bianca (generativo)
	Carla
Japonés	Kazuha (Neural)	Takumi (Neuronal)
	Tomoko (Neural)	Takumi (Estándar)
	Mizuki
Coreano	Seoyeon (neuronal)
	Jihye (neuronal)
	Seoyeon (estándar)
Mandarín	Zhiyu (neuronal)
	Zhiyu (estándar)
Noruego	Ida (Neuronal)
	Liv
Polaco	Ola (Neuronal)	Jacek
	Ewa	Jan
	Maja
Portugués - Brasil	Vitória (Neuronal)	Ricardo
	Vitória (Estándar)	Thiago
	Camila (Neural)
	Camila (Estándar)
Portugués - Portugal	Inês (Neuronal)	Cristiano
	Inês (Estándar)
Rumano	Carmen
Ruso	Tatyana	Maxim
Español - México	Mia (generativo)
	Mia (neuronal)	Andrés
	Mia (estándar)	Andrés (generativo)
Español - España	Alba (formato largo)	Raúl (formato largo)
	Lucia (generativa)	Sergio
	Lucia (neuronal)	Enrique
	Lucia (estándar)	Sergio (generativo)
Español - Estados Unidos	Conchita	Pedro (generativo)
	Lupe (generativo)	Pedro (neuronal)
	Lupe (neuronal)	Miguel
	Lupe (estándar)
	Penélope
Sueco	Astrid
	Elin (Neuronal)
Turco	Filiz
	Burcu (neuronal)
Galés	Gwyneth

Sincronización de voz para una experiencia visual mejorada

Amazon Polly facilita la solicitud de un flujo adicional de metadatos que proporcione información sobre cuándo se pronuncian frases, palabras y sonidos concretos. Al usar este flujo de metadatos junto con el flujo de audio de voz sintetizada, ahora puede crear sus aplicaciones con una experiencia visual mejorada, como animación facial sincronizada con voz o resaltado de palabras estilo karaoke.

Consulte la documentación para obtener más información sobre cómo utilizar las marcas de voz.

Optimice su audio de streaming

Con Amazon Polly, puede transmitir cualquier tipo de información a los usuarios mediante su aplicación en casi tiempo real. Puede elegir entre varias tasas de muestreo para optimizar el ancho de banda y la calidad de audio de su aplicación. Amazon Polly soporta MP3, Vorbis y formatos de transmisión de audio PCM sin procesar.

Frecuencia de muestreo	Tamaño de MP3	Tamaño OGG	Tamaño PCM
24,00 kHz Escuchar	19,31 KB	18,11 KB	N/D
22,05 kHz Escuchar	19,33 KB	17,62 KB	N/D
16,05 kHz Escuchar	16,22 KB	15,48 KB	100,68 KB
8,00 kHz Escuchar	13,26 KB	9,72 KB	50,34 KB

Ajuste el estilo de habla, la frecuencia, el tono y el volumen de la voz

Amazon Polly es compatible con el lenguaje de etiquetado de síntesis del habla (SSML), un lenguaje de etiquetado basado en XML estándar del W3C para aplicaciones de síntesis del habla, y admite etiquetas SSML comunes para frases, énfasis y entonación. Las etiquetas personalizadas de Amazon SSML ofrecen opciones únicas, como la capacidad de hacer que ciertas voces hablen con un estilo de habla de presentador de noticias. Esta flexibilidad le permite crear habla realista que atraerá y retendrá la atención de su público.

Para obtener más información, consulte la documentación de Amazon Polly sobre las etiquetas SSML.

Muestra	SSML
Así hablo normalmente.	(ninguno)
También puedo hablar en un estilo de presentador de noticias, como si estuviera leyendo un artículo de noticias o dando un resumen informativo rápido.	<speak><amazon:domain name="news">También puedo hablar en un estilo de presentador de noticias, como si estuviera leyendo un artículo de noticias o dando un informe rápido.</amazon:domain></speak>
Puedo hablar con un tono agudo o puedo hablar con un tono grave.	<speak>Puedo hablar con un <prosody pitch="high">tono agudo</prosody>, o puedo hablar con un<prosody pitch="low">tono grave</prosody>.</speak>
Puedo hablar muy lento o puedo hablar muy rápido.	<speak>Puedo hablar <prosody rate="x-slow">muy lento</prosody>, o puedo hablar <prosody rate="x-fast">muy rápido</prosody>.</speak>
También puedo hablar muy alto o puedo hablar muy bajo.	<speak>También puedo hablar <prosody volume="x-loud">muy alto</prosody> o puedo hablar <prosody volume="x-soft">muy bajo</prosody>.</speak>
Puedo susurrar.	<speak>Le voy a contar un secreto susurrando.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">No soy humano.</prosody></prosody></amazon:effect>¿A que es increíble?</speak>

Estilo de habla presentador de notificas

Amazon Polly se puede utilizar para sintetizar el habla como si fuera hablada por un presentador de televisión o radio. Esta puede ser una excelente manera de leer artículos de noticias o de ofrecer rápidos resúmenes informativos. El estilo de presentador de noticias está disponible actualmente para las voces de Matthew y Joanna en inglés estadounidense (en-US), la de Amy en inglés británico (en-GB) y la de Lupe en español estadounidense (es-US) gracias a al text-to-speech Neural. Escuche una muestra de audio en inglés estadounidense, inglés británico o español estadounidense.

Ajuste la duración máxima del habla

Amazon Polly le permite ajustar automáticamente la velocidad del habla en función del tiempo máximo asignado que defina con una característica llamada prosodia basada en tiempo. Esta función es útil en muchos casos de uso, especialmente en la localización.

Por ejemplo, supongamos que tiene habla en inglés de EE.UU. integrada en un video de formación técnica y desea localizar este video al alemán. Imaginemos que traduce el texto con Amazon Translate y lo reproduce oralmente con Polly. Es fundamental que el habla localizada al alemán se transmita en los marcos del video correspondientes, por lo que el habla en alemán no puede ser más larga que el habla en inglés de EE.UU. Puede usar esta característica para facilitar el proceso de doblaje.

Compatibilidad con plataformas y lenguajes de programación

Amazon Polly admite todos los lenguajes de programación incluidos en el AWS SDK (Java, Node.js, .NET, PHP, Python, Ruby, Go y C++) y el SDK para móviles de AWS (iOS/Android). Polly también soporta una API de HTTP para que pueda implementar su propia capa de acceso.

Síntesis del habla mediante la API, la consola o la línea de comandos

Puede accederse a Amazon Polly a través del API de Polly (y varios SDK de lenguaje específico), la consola de administración de AWS y la interfaz de línea de comandos (CLI) de AWS. Dispone de control absoluto de todas las capacidades de Amazon Polly, tanto si utiliza el servicio a través de la consola como de la API o la CLI.

Lexicones personalizados

Con los lexicones personalizados, o vocabularios, de Amazon Polly puede modificar la pronunciación de determinadas palabras, como nombres de compañías, acrónimos, palabras extranjeras y neologismos (p. ej., “ROTFL”, “C’est la vie” en una voz no francesa). Para personalizar estas pronunciaciones, debe cargar un archivo XML con entradas léxicas. Por ejemplo, puede personalizar la pronunciación de Nguyen proporcionando un fonema con este código XML:

Nguyen (antes)

Nguyen (después)

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

Brand Voice

Brand Voice es una interacción personalizada en la que trabaja con el equipo Amazon Polly para desarrollar voces de texto a voz neuronal (NTTS) para el uso exclusivo de su empresa. Brand Voice le permite diferenciar sus productos y aplicaciones con una identidad vocal única en una amplia variedad de casos prácticos, incluidas las integraciones de Amazon Connect y Alexa Skills. Trabajamos con usted durante todo el proceso para identificar la persona, identificar un actor o actriz y grabar su voz, y por último crear y entrenar un modelo para producir la voz. A continuación, la voz se pone a disposición en el ID de su cuenta de AWS.

Escuche la voz de marca del Banco Nacional de Australia »

Escuche la voz de marca del Banco Nacional de Nueva Zelanda »

Si está interesado en crear una voz de marca mediante Polly, contacte con su administrador de cuentas de AWS o contacte con nosotros para obtener más información.

Integraciones del centro de contacto

Amazon Connect

Amazon Polly se integra de forma nativa con Amazon Connect, la solución de centro de contacto basada en la nube de AWS que se utiliza para configurar y administrar un centro de contacto de clientes y brindar una interacción confiable con el cliente a cualquier escala. Para obtener más información sobre cómo agregar peticiones de a su sistema de respuesta de voz interactiva conversacional, consulte cómo utilizar las voces de Polly en Amazon Connect.

Genesys Cloud CX

Genesys Cloud CX es una solución de centro de contacto en la nube que unifica las experiencias de los clientes y agentes a través de múltiples canales, como teléfono, mensajes de texto y chat. Puede implementar sus bots de voz con cualquiera de las voces de Polly existentes. Consulte la documentación de Genesys Cloud para obtener más información.

SDK de Amazon Chime

El SDK de Amazon Chime es un conjunto de componentes de comunicaciones en tiempo real que los desarrolladores pueden utilizar para agregar con rapidez llamadas de audio, videollamadas y funciones de pantalla compartida a sus propias aplicaciones de telefonía, web o móviles. El SDK de Amazon Chime admite la integración nativa con Amazon Polly, de modo que facilita a los creadores la creación de aplicaciones que conviertan texto y datos numéricos en habla cotidiana y la reproducción automática del resultado para la persona que llama.

Inteligencia de centro de contacto (CCI) de AWS

Un buen número de socios de la CCI de AWS utilizan Amazon Polly, de modo que puede crear de manera integral agentes virtuales de servicio al cliente de autoservicio, bots de información o bots de aplicaciones. Entre los socios de Amazon Polly se encuentran Genesys, Vonage y Accenture. Para obtener más información sobre los socios, visite CCI de AWS y la página de socios de CCI de AWS.