Blog > Read Our Blog in Español

Cómo Convertir Notas de Voz de WhatsApp en Imágenes de Anuncios con IA (Make.com + GPT 1.5)

Posted by Axel M | January 4, 2026

Cómo Convertir Notas de Voz de WhatsApp en Imágenes de Anuncios con IA (Make.com + GPT 1.5)

Transforma tus ideas rápidas de voz en creativos profesionales de anuncios para Facebook usando Make.com, GPT 1.5 de OpenAI y automatización WhatsApp

Índice

  1. Introducción
  2. Lo Que Vas a Construir
  3. Requisitos Previos
  4. Entendiendo el Flujo de Trabajo
  5. Paso 1: Configurar Conexión WhatsApp
  6. Paso 2: Recibir Mensajes de Voz
  7. Paso 3: Transcribir Audio a Texto
  8. Paso 4: Generar Prompts de Imagen con IA
  9. Paso 5: Crear Imágenes con GPT 1.5
  10. Paso 6: Guardar en Google Drive
  11. Paso 7: Enviar Resultados de Vuelta a WhatsApp
  12. Optimizando Tu Automatización
  13. Casos de Uso Avanzados
  14. Solución de Problemas

Introducción

OpenAI acaba de lanzar GPT 1.5, su nuevo modelo de generación de imágenes que está recibiendo excelentes críticas por la renderización de texto y calidad general. ¿Pero qué pasaría si pudieras combinar esta poderosa IA con la conveniencia de los mensajes de voz de WhatsApp para crear imágenes de anuncios de Facebook sobre la marcha?

Imagina esto: Estás en un evento de skate, te llega la inspiración, y grabas una nota de voz rápida en WhatsApp describiendo tu idea de anuncio. En segundos, recibes una imagen de anuncio generada profesionalmente lista para usar. Eso es exactamente lo que vamos a construir en este tutorial.

Este no es solo otro tutorial de generación de imágenes con IA. Estamos creando una automatización completa que toma tus ideas habladas y las convierte en creativos de anuncios finalizados, todo mientras estás móvil.

Por Qué Esta Automatización Importa

Para Marketers: Crea conceptos de anuncios en cualquier lugar, en cualquier momento - sin software de diseño necesario
Para Agencias: Prototipado rápido con clientes durante reuniones o visitas al sitio
Para Gestores de Redes Sociales: Creación rápida de contenido a partir de ideas de voz
Para Dueños de Negocios: Transforma ideas espontáneas en contenido visual instantáneamente

Lo Que Vas a Construir

Al final de este tutorial, tendrás un sistema completamente automatizado que:

  1. Recibe mensajes de voz en tu cuenta de WhatsApp Business
  2. Descarga y transcribe el audio usando OpenAI Whisper
  3. Transforma la transcripción en un prompt optimizado de generación de imagen
  4. Genera imágenes profesionales de anuncios usando GPT 1.5
  5. Guarda imágenes en tu Google Drive para organización
  6. Envía la imagen final de vuelta a ti en WhatsApp

Ejemplo de Flujo de Trabajo:

Envías una nota de voz: "Quiero mostrar un skate park súper bonito y un puesto de paella enfrente. El evento se llama Skate Park Late into the New Year. Muestra un skate park animado en la playa con palmeras y una atmósfera genial."

Dentro de 30-60 segundos, recibes una imagen de póster de evento generada profesionalmente que coincide con tu descripción.

Tiempo para Construir: 30-45 minutos
Nivel Técnico: Intermedio (algo de experiencia con Make.com es útil)

🎥 Ver el Tutorial Completo en Video

¡Sigue el video o usa esta guía escrita - ambos cubren la configuración completa de la automatización!

Requisitos Previos

Antes de comenzar, asegúrate de tener:

Cuentas Requeridas

  • Cuenta de WhatsApp Business - Configura en business.whatsapp.com
  • Cuenta de WhatsAble - Regístrate en whatsable.app para sistema Notifyer
  • Cuenta de Make.com - Plan gratuito o de pago
  • Cuenta de OpenAI - Con acceso a API y créditos
  • Cuenta de Google Drive - Para almacenar imágenes generadas

Claves API Necesarias

  • Clave API de WhatsAble (de tu panel)
  • Clave API de OpenAI (de platform.openai.com)
  • Conexión de Google Drive (autorizada a través de Make.com)

Requisitos Técnicos

  • Comprensión básica de escenarios Make.com
  • Familiaridad con conceptos de API
  • Número de WhatsApp Business conectado a WhatsAble

Entendiendo el Flujo de Trabajo

Desglosemos lo que sucede en esta automatización:

El Flujo Completo

Entrada de Voz: Envías un mensaje de voz de WhatsApp con tu idea de anuncio

Descarga de Audio: Make.com recibe el mensaje y descarga el archivo de audio

Transcripción: OpenAI Whisper convierte habla en texto

Mejora de Prompt: Otra capa de IA transforma tu descripción casual en un prompt detallado de generación de imagen

Generación de Imagen: GPT 1.5 crea la imagen basada en el prompt mejorado

Almacenamiento: La imagen se guarda en Google Drive con un enlace compartible

Entrega: La imagen final se envía de vuelta a ti en WhatsApp

Por Qué Este Enfoque Funciona

La clave para resultados de calidad es el paso de mejora del prompt. Tu transcripción de voz cruda podría decir "muestra un skate park bonito con comida." El mejorador de prompt de IA transforma esto en algo como "Póster de evento profesional presentando un vibrante skate park junto al mar al atardecer, palmeras balanceándose, un colorido puesto de paella en primer plano, atmósfera energética, diseño moderno, renderizado de alta calidad."

Esta capa intermedia mejora drásticamente la calidad de tu imagen final.

Paso 1: Configurar Conexión WhatsApp

Eligiendo Tu Solución WhatsApp

WhatsAble ofrece dos productos principales para automatización de WhatsApp:

Sistema Notifyer - Usa tu propio número de WhatsApp Business con control total. Esto es lo que usaremos en este tutorial. Perfecto si quieres una configuración profesional con el número de tu marca.

Bot de WhatsApp - Usa el número de WhatsApp de WhatsAble para automatización. Bueno para pruebas o si aún no tienes una cuenta Business.

Ambos funcionan con Make.com, pero la selección de módulo difiere ligeramente.

Instalando el Módulo WhatsAble en Make.com

  1. Inicia sesión en tu cuenta de WhatsAble
  2. Navega a Configuración → Integraciones
  3. Haz clic en "Conectar a Make"
  4. Sigue el proceso de autorización con Make.com
  5. Selecciona tu espacio de trabajo u organización
  6. El módulo WhatsAble ahora está disponible en Make.com

Conectando Tu Cuenta

En Make.com, cuando agregas el disparador de WhatsAble, necesitarás conectar tu cuenta usando tu clave API del panel de WhatsAble. El webhook se configura automáticamente - cuando recibes un mensaje de WhatsApp, Make.com es notificado instantáneamente.

Paso 2: Recibir Mensajes de Voz

Configurando el Disparador

En Make.com, crea un nuevo escenario y agrega tu módulo disparador:

Para usuarios del Sistema Notifyer: Busca "NotifierSystem by WhatsAble" y selecciona "Watch Incoming Messages"

Para usuarios del Bot de WhatsApp: Busca "Notifyer Bot" y selecciona el disparador apropiado

Entendiendo los Datos

Cuando llega un mensaje de voz, WhatsAble proporciona:

  • Número de teléfono del remitente
  • Tipo de mensaje (en este caso, audio)
  • URL de adjunto (enlace al archivo de audio)
  • Marca de tiempo
  • Nombre del remitente
  • Contexto de conversación

La URL de adjunto es lo que necesitamos - es un enlace directo para descargar el archivo de audio del mensaje de voz.

Probando Tu Disparador

Antes de construir el resto de la automatización, prueba el disparador. Activa tu escenario, envíate un mensaje de voz en WhatsApp, y verifica que Make.com recibe los datos. Deberías ver la URL de adjunto en la salida del disparador.

Paso 3: Transcribir Audio a Texto

Descargando el Archivo de Audio

Antes de transcribir, necesitamos descargar el archivo de audio desde la URL de adjunto de WhatsAble.

Agrega un módulo HTTP después de tu disparador. Configúralo para solicitud GET y usa la URL de adjunto del paso anterior. Esto descarga el archivo de audio completo como datos codificados en base64.

Usando OpenAI Whisper para Transcripción

Agrega el módulo OpenAI llamado "Generate a Transcription" (lo encontrarás buscando "transcribe" en Make.com).

Configuración:

Nombre del Archivo: Puedes nombrarlo como quieras, pero la extensión DEBE ser.ogg (este es el formato oficialmente soportado)

Datos del Archivo: Mapea todos los datos de respuesta del módulo de descarga HTTP

Modelo: Elige el modelo Whisper (generalmente whisper-1)

La salida será tu mensaje de voz convertido a texto. Por ejemplo, si dijiste "Quiero mostrar un skate park súper bonito y un puesto de paella," eso es exactamente lo que obtendrás en formato de texto.

Paso 4: Generar Prompts de Imagen con IA

Por Qué Mejorar el Prompt?

Las transcripciones crudas son casuales y a menudo carecen del detalle descriptivo necesario para generación de imágenes de calidad. Una capa de mejora transforma tu habla casual en prompts profesionales.

Configurando la Mejora de Prompt

Agrega otro módulo OpenAI llamado "Generate a Response" (encontrado bajo módulos genéricos de OpenAI).

Tu Prompt del Sistema:

Eres un experto en crear prompts detallados de generación de imágenes para publicidad y marketing. Toma la descripción casual del usuario y transfórmala en un prompt vívido y detallado que generará imágenes de anuncios de calidad profesional. Enfócate en detalles visuales, atmósfera, composición y estilo.

Entrada del Usuario:

Mapea el texto de transcripción del paso anterior.

La IA transformará "muestra un skate park bonito con comida" en algo como "Fotografía publicitaria profesional de un vibrante skate park junto al mar durante la hora dorada, arquitectura moderna, atmósfera energética con skaters en acción, colorido puesto de paella en primer plano con ollas humeantes, palmeras, iluminación cálida, calidad de revista, alta resolución, adecuado para promoción de eventos."

Paso 5: Crear Imágenes con GPT 1.5

Por Qué Usar el Módulo API Genérico

Make.com tiene un módulo estándar "Generate Image" para OpenAI, pero aún no se ha actualizado para incluir GPT 1.5. No te preocupes - hay una solución simple usando el módulo de llamada API genérico.

Preparando la Solicitud JSON

Primero, agrega un módulo "Create JSON". Esto estructura tu solicitud API correctamente.

Crea una nueva estructura de datos con estos campos (todos texto excepto donde se indica):

  • model (texto): "dall-e-3" o tu identificador de modelo elegido
  • prompt (texto): Mapea tu prompt mejorado del Paso 4
  • n (número): 1 (cuántas imágenes generar)
  • quality (texto): "hd" para alta calidad
  • response_format (texto): "b64_json" (queremos base64 para carga fácil)
  • size (texto): "1024x1024" o tus dimensiones preferidas

Haciendo la Llamada API

Agrega el módulo OpenAI "Make an API Call".

Configuración:

URL Endpoint: /v1/images/generations

Método: POST

Encabezados: Content-Type = application/json

Body: Mapea la salida JSON de tu paso anterior

Lo que recibes de vuelta es un archivo de imagen codificado en base64 listo para ser guardado o enviado.

Paso 6: Guardar en Google Drive

Por Qué Guardar en Drive Primero

Guardar en Google Drive proporciona una URL compartible y organiza todas tus imágenes generadas en un solo lugar. También es útil para revisar y seleccionar qué imágenes usar realmente en anuncios.

Subiendo la Imagen

Agrega un módulo de Google Drive "Upload a File".

Configuración:

Seleccionar Carpeta: Elige o crea una carpeta para tus anuncios generados por IA

Nombre del Archivo: Usa algo dinámico como la marca de tiempo o un ID único de la respuesta OpenAI, seguido de.png

Convertir Datos: ¡Esto es importante! Usa esta fórmula para decodificar los datos de imagen base64:

toBinary(base64(tu_campo_datos_base64))

Esto convierte los datos de imagen codificados en un archivo PNG real que Google Drive puede mostrar correctamente.

Obteniendo el Enlace Compartible

El módulo genera un "web content link" - esta es la URL directa a tu imagen que puedes compartir o enviar vía WhatsApp.

Paso 7: Enviar Resultados de Vuelta a WhatsApp

Componiendo Tu Respuesta

Agrega otro módulo WhatsAble, esta vez "Send Message Without Template."

Configuración:

Conexión: Usa tu conexión WhatsAble existente

Número Destinatario: Mapea el número de teléfono de tu disparador original (la persona que envió la nota de voz)

Tipo de Mensaje: Imagen

URL de Imagen: Usa el web content link de Google Drive

Leyenda: Opcional - puedes agregar texto como "¡Aquí está tu imagen de anuncio generada!"

Segundos después de enviar tu nota de voz, recibirás la imagen finalizada de vuelta en WhatsApp, lista para revisar y usar.

Probando el Flujo Completo

  1. Activa tu escenario Make.com
  2. Envíate un mensaje de voz de WhatsApp con una descripción de anuncio
  3. Espera 30-60 segundos
  4. Recibe tu imagen generada por IA
  5. Verifica tu carpeta de Google Drive para el archivo guardado

Optimizando Tu Automatización

Mejorando la Calidad de Imagen

Mejores Descripciones de Voz: Sé específico sobre estilo, ambiente, colores y composición en tus notas de voz. En lugar de "playa bonita," di "playa en hora dorada con iluminación naranja cálida."

Refinar el Prompt de Mejora: Experimenta con tu prompt del sistema en el Paso 4. Agrega preferencias de estilo como "fotorrealista," "estilo ilustración," o "diseño minimalista moderno."

Ajustar Parámetros de Imagen: Prueba diferentes tamaños, configuraciones de calidad y versiones de modelo para encontrar lo que funciona mejor para tus necesidades.

Manejando Múltiples Imágenes

Modifica el parámetro "n" en tu JSON para generar múltiples variaciones. Configúralo en 3 o 4, luego actualiza tu paso de Google Drive para manejar múltiples archivos, y envía todas las opciones de vuelta a WhatsApp.

Agregando Elementos de Marca

Considera agregar un paso que superponga tu logo o colores de marca en las imágenes generadas usando una API de edición de imagen o servicio antes de enviar de vuelta.

Capa de Control de Calidad

Agrega un filtro condicional que solo envía imágenes si cumplen ciertos criterios, o agrega un paso de aprobación manual donde las imágenes se guardan en Drive pero eliges cuáles enviar de vuelta.

Casos de Uso Avanzados

Creación Directa de Anuncios de Facebook

Lleva esta automatización más allá conectándote a la API de Marketing de Facebook. Después de generar la imagen, crea automáticamente un borrador de anuncio en tu Administrador de Anuncios con la imagen y texto sugerido.

Agrega módulos de API de Marketing de Facebook después del paso de generación de imagen. Usa el prompt mejorado para también generar texto del anuncio, luego crea un borrador completo de anuncio incluyendo imagen, título, descripción y sugerencias de segmentación.

Soporte Multi-idioma

Agrega detección de idioma a la transcripción. Basado en el idioma detectado, ajusta la mejora del prompt para generar imágenes apropiadas para la región y guarda en diferentes carpetas de Drive para diferentes mercados.

Colaboración en Equipo

Configura un grupo de WhatsApp compartido donde los miembros del equipo pueden enviar ideas de voz. La automatización genera imágenes y las publica en un canal de Slack del equipo o carpeta compartida para revisión y votación.

Variaciones de Prueba A/B

Genera múltiples variaciones de imagen con diferentes estilos automáticamente. Un prompt podría generar una versión fotorrealista, otro una ilustración, otro un diseño minimalista - todo de la misma nota de voz.

Anuncios Basados en Plantillas

Integra con plantillas de diseño. En lugar de generar imágenes completas, genera imágenes de fondo que se colocan automáticamente en plantillas de anuncios prediseñadas con tu marca, superposiciones de texto y CTAs.

Solución de Problemas

Mensaje de Voz No Dispara Escenario

Verifica que tu número de WhatsApp esté conectado correctamente a WhatsAble. Verifica que el webhook esté activo en tu panel de WhatsAble. Asegúrate de que el escenario Make.com esté ACTIVADO.

Errores de Transcripción

Asegúrate de que la extensión del archivo sea.ogg cuando transcribes. Verifica que tu clave API de OpenAI tenga suficientes créditos. Verifica que el módulo de descarga HTTP haya recuperado exitosamente el archivo de audio.

Imágenes de Mala Calidad

El problema generalmente está en el paso de mejora del prompt. Revisa qué prompt se está enviando al generador de imagen. Intenta ser más descriptivo en tus notas de voz. Ajusta tu prompt del sistema de mejora para enfatizar las cualidades visuales que quieres.

Imagen No Aparece en WhatsApp

Verifica que el enlace de Google Drive sea públicamente accesible o compartido correctamente. Verifica que estés usando el web content link, no el enlace regular de Drive. Asegúrate de que el campo URL de imagen esté mapeado correctamente.

GPT 1.5 No Disponible

Recuerda que estamos usando el método de llamada API genérico porque Make.com aún no ha actualizado su módulo oficial. Verifica nuevamente tu URL de endpoint e identificador de modelo. Asegúrate de que tu cuenta de OpenAI tenga acceso al modelo.

Errores de Conversión Base64

La fórmula para convertir a binario debe ser exacta. Asegúrate de estar usando correctamente las funciones toBinary y base64. Prueba con una imagen pequeña primero.

Obteniendo Ayuda

Para problemas de conexión WhatsApp, contacta a team@whatsable.app para soporte. Para problemas de escenario Make.com, verifica sus foros de comunidad. Para preguntas de API OpenAI, revisa su documentación en platform.openai.com.

Conclusión

Acabas de construir una automatización poderosa que transforma ideas espontáneas de voz en imágenes profesionales de anuncios. Este es el tipo de herramienta que parecía imposible hace solo unos años - ahora es algo que puedes construir en una tarde.

Lo Que Has Logrado

Has creado una automatización de extremo a extremo conectando mensajes de voz de WhatsApp, transcripción de IA, mejora inteligente de prompt, generación de imagen de vanguardia, almacenamiento en la nube y entrega instantánea. Son cinco tecnologías diferentes trabajando perfectamente juntas.

El Panorama General

Este tutorial demuestra el principio de automatización "voz a visual". El mismo flujo de trabajo puede adaptarse para descripciones de fotografía de producto, publicaciones en redes sociales, diapositivas de presentación, maquetas de sitios web, o cualquier contenido visual que necesites crear rápidamente.

Llévalo Más Allá

Ahora que entiendes el flujo de trabajo, experimenta con él. Prueba diferentes modelos de imagen, agrega generadores de variación, conéctalo a tus cuentas de anuncios, o construye una galería de todas tus imágenes generadas. La base está ahí - ahora hazla tuya.

¿Listo para Comenzar a Crear?

Configura tu automatización hoy:

  1. Regístrate en WhatsAble Notifyer para conectar tu WhatsApp Business
  2. Obtén tu clave API de OpenAI y agrega créditos a tu cuenta
  3. Crea tu escenario Make.com siguiendo este tutorial
  4. Envía tu primera nota de voz y mira la magia suceder
  5. ¿Necesitas ayuda? Contacta con team@whatsable.app

¡Transforma tu voz en visuales - comienza a automatizar tu proceso creativo hoy! 🚀

Preguntas Frecuentes

P: ¿Necesito una cuenta de WhatsApp Business?
R: Sí, pero WhatsAble facilita la configuración. Puedes usar su sistema Notifyer con tu propio número o su servicio Bot con su número.

P: ¿Cuánto cuesta ejecutar esto?
R: Necesitarás suscripción a WhatsAble (comienza alrededor de $29/mes), Make.com (plan gratuito funciona para pruebas), y créditos API de OpenAI (varía por uso, aproximadamente $0.04-0.08 por imagen).

P: ¿Puedo usar esto para trabajo con clientes?
R: ¡Absolutamente! Esto es perfecto para agencias mostrando conceptos rápidos a clientes o creando múltiples variaciones de anuncios rápidamente.

P: ¿Cuánto tiempo tarda en generar una imagen?
R: Generalmente 30-60 segundos desde enviar tu nota de voz hasta recibir la imagen, dependiendo de los tiempos de respuesta de API.

P: ¿Qué idiomas son compatibles para notas de voz?
R: OpenAI Whisper soporta más de 50 idiomas para transcripción, así que puedes hablar en tu idioma preferido.

P: ¿Puedo personalizar el estilo de imagen?
R: ¡Sí! Modifica el mensaje del sistema de mejora de prompt para enfatizar estilos específicos como "fotorrealista," "ilustración," "minimalista," etc.

P: ¿Y si quiero generar múltiples versiones?
R: Cambia el parámetro "n" en tu JSON a 2, 3 o 4 para generar múltiples variaciones de una nota de voz.

P: ¿Hay un límite para la longitud del mensaje de voz?
R: WhatsApp permite mensajes de voz de hasta 15 minutos, pero mantén las descripciones concisas (30-60 segundos) para mejores resultados.

Última Actualización: Enero 2025 | Contactar Soporte | Documentación WhatsAble

Palabras clave SEO: #VozAImagen #AutomatizaciónAnunciosIA #TutorialMakeCom #GPT15 #AutomatizaciónWhatsApp #WhatsAbleNotifyer #AutomatizaciónCreativoAnuncio #GeneraciónImagenOpenAI #AnunciosNotaVoz #AutomatizaciónCreativa