La Imagen que la IA Entendio Antes que el Texto

"Publicamos el infographic primero. El articulo tardaria tres semanas mas. Pero la IA ya estaba citando los datos del infographic antes de que publicaramos una sola palabra."

Era octubre de 2024. Un equipo de contenido en una empresa de fintech publico un infographic sobre tasas de adopcion de pagos digitales en Latinoamerica.

El grafico tenia texto embebido — numeros, titulos, etiquetas. Todo bien estructurado visualmente.

Dos semanas despues, al hacer un seguimiento de menciones, descubrieron algo sorprendente: Perplexity ya estaba citando los datos del infographic en respuestas sobre pagos digitales en LATAM.

Sin articulo de blog. Sin URL de contenido textual. Solo el infographic, bien etiquetado con alt text, en una pagina con schema ImageObject.

Los modelos multimodales no esperan al texto. Leen todo.

Lo que Aprenderas Hoy

El estado actual de los modelos multimodales y que procesan
Optimizacion de imagenes para que los LLMs extraigan su contenido
Contenido de voz y audio: transcripciones, podcasts y voice search
Video y vision: como los modelos analizan contenido audiovisual
La estrategia multimodal integrada: texto + imagen + audio como sistema

El Momento Multimodal

Hasta 2023, los LLMs eran puramente textuales. Procesaban texto, generaban texto.

A partir de GPT-4V (noviembre 2023) y sus sucesores, la situacion cambio de forma fundamental.

Lo que los modelos actuales procesan:

✓Texto (siempre)

✓Imagenes y graficos

✓Tablas y diagramas

✓PDFs con contenido visual

✓Audio y podcasts (con transcripcion)

✓Videos (fotogramas + audio)

✓Capturas de pantalla con texto

◌Codigo fuente visual

La implicacion es directa: si solo optimizas texto, estas dejando fuera del juego a una porcion creciente de como los LLMs construyen su conocimiento.

Optimizacion de Imagenes

Las imagenes son el canal multimodal mas inmediato y el mas desaprovechado.

El Alt Text como Protocolo de Entidad

El alt text ya no es solo accesibilidad. Es el canal primario por el que los LLMs interpretan y clasifican una imagen.

ALT TEXT OBSOLETO

alt="grafico"

alt="imagen de datos"

alt="infographic GEO 2025"

Sin contexto. Sin datos. Invisible para LLMs.

ALT TEXT AEO

alt="Grafico de barras que muestra la evolucion del trafico organico 2020-2025: caida del 68% en sitios de contenido informativo tras la implementacion de AI Overviews en Google"

Dato especifico. Extractable. Con contexto temporal.

Formula para alt text AEO: [Tipo de elemento visual] + [que muestra] + [dato clave] + [contexto temporal o fuente si aplica].

Schema ImageObject

Cada imagen importante debe tener schema ImageObject con estos campos minimos:

Campos clave de ImageObject para GEO

→

name: titulo descriptivo de la imagen

→

description: descripcion completa del contenido (puede ser mas larga que el alt text)

→

creator: referencia al @id de la Organization que la produjo

→

dateCreated: fecha de publicacion (los datos sin fecha envejecen mal)

Infographics: El Formato de Mayor Densidad Informacional

Los infographics son el formato visual con mayor potencial GEO porque combinan datos estructurados con representacion visual que los modelos pueden analizar.

Principio del infographic AEO

Todo dato numerico visible en el infographic debe aparecer tambien en el alt text o en el texto circundante. Los modelos cross-referencian imagen y texto — la consistencia entre ambos aumenta la confianza.

Voz y Audio: La Frontera del Voice Search

El voice search lleva anos siendo "el futuro". En 2025 es presente, pero no por las razones que predijeron los expertos SEO de 2018.

El cambio real: los modelos de lenguaje procesan audio directamente o via transcripcion. Siri, Alexa, Google Assistant y los nuevos asistentes de IA usan los mismos knowledge graphs que los LLMs de texto.

Optimizacion para Voice Queries

Las busquedas por voz tienen caracteristicas distintas a las de texto:

Son conversacionales y largas

Texto: "onboarding empleados herramientas". Voz: "cuales son las mejores herramientas para hacer el onboarding de nuevos empleados en una empresa pequena".

Implicacion: tu FAQPage debe usar preguntas completas, tal como las formularia un usuario hablando.

Esperan respuestas orales (cortas)

Una respuesta de voice search dura entre 20 y 30 segundos cuando se lee en voz alta. Aproximadamente 50-70 palabras. Tus lead sentences BLUF deben ser pronunciables en ese rango.

Implicacion: escribe los answer sheets pensando en como suenan leidos en voz alta.

Tienen mayor intento local

El 58% de las busquedas por voz tienen intent local segun Think with Google (2025). "cerca de mi", "en mi ciudad", "disponible hoy" aparecen con mucha frecuencia.

Implicacion: relevante para Local GEO — lo vemos en el proximo modulo.

Podcasts y Contenido de Audio

Si produces podcasts o contenido de audio, la optimizacion es sencilla pero frecuentemente ignorada:

Checklist de optimizacion para podcasts

→ Transcripcion completa publicada en la misma pagina que el audio

→ Schema PodcastEpisode o AudioObject con name, description, creator

→ Titulos de episodio como preguntas o afirmaciones directas (estilo BLUF)

→ Show notes estructurados con timestamps y puntos clave extractables

→ Quotes destacados del episodio en formato de texto independiente

Video: El Canal de Mayor Crecimiento

Los LLMs con capacidades de vision (GPT-4V, Gemini Ultra, Claude) pueden analizar fotogramas de video. Perplexity y otros sistemas RAG ya indexan transcripciones de YouTube.

Optimizacion de Videos para LLMs

1. Transcripciones con estructura

La transcripcion automatica de YouTube es un punto de partida. La transcripcion optimizada para AEO tiene titulos por seccion, timestamps, y parrafos que siguen el principio BLUF. Publicala en tu web como contenido independiente.

2. Chapters y timestamps

Los chapters de YouTube crean metadatos estructurados que los LLMs pueden procesar. Un video con chapters bien titulados (en formato pregunta o afirmacion directa) tiene mas surface area para ser indexado y citado.

3. Schema VideoObject

En la pagina donde embeds el video, implementa schema VideoObject con name, description, uploadDate, duration, y thumbnailUrl. Conectalo via publisher al @id de tu Organization.

4. Texto embebido en graficos y slides

Los modelos con vision leen texto en pantalla. Si tus videos muestran slides con datos, esos datos son extractables directamente. Asegurate de que el texto en pantalla sea legible (contraste, tamano) y preciso.

La Estrategia Multimodal Integrada

El mayor error es tratar cada canal de forma aislada. El impacto real llega cuando texto, imagen, audio y video se refuerzan mutuamente.

El principio de refuerzo cruzado

Cuando un LLM encuentra el mismo dato en tres formatos distintos (texto en articulo, alt text de imagen, transcripcion de video), la confianza en ese dato se multiplica. No suma — multiplica.

→ Articulo textual con dato especifico

→ Infographic que visualiza el mismo dato con alt text consistente

→ Video o podcast que lo explica con transcripcion publicada

= Dato verificado en multiples formatos = maxima confianza del modelo

Lo Que Aprendiste Hoy

✓ Los LLMs actuales procesan imagen, audio y video — no solo texto
✓ El alt text AEO incluye datos especificos y contexto, no solo descripcion superficial
✓ Las voice queries son conversacionales y cortas — los answer sheets deben sonar bien en voz alta
✓ Los podcasts y videos requieren transcripciones estructuradas y schema especifico
✓ El refuerzo cruzado entre formatos multiplica la confianza del modelo en tus datos

El contenido global esta cubierto. Ahora el local.

Los modelos multimodales procesan el mundo entero.
Pero "el mejor restaurante cerca de mi" sigue siendo la busqueda mas comun. El GEO local es una disciplina propia.

Continua con el Modulo 12: Local GEO, dominando el buscador con GPS →

Optimizacion Multimodal: Texto, Imagen, Voz y Video