La Imagen que la IA Entendio Antes que el Texto

"Publicamos el infographic primero. El articulo tardaria tres semanas mas. Pero la IA ya estaba citando los datos del infographic antes de que publicaramos una sola palabra."

Era octubre de 2024. Un equipo de contenido en una empresa de fintech publico un infographic sobre tasas de adopcion de pagos digitales en Latinoamerica.

El grafico tenia texto embebido — numeros, titulos, etiquetas. Todo bien estructurado visualmente.

Dos semanas despues, al hacer un seguimiento de menciones, descubrieron algo sorprendente: Perplexity ya estaba citando los datos del infographic en respuestas sobre pagos digitales en LATAM.

Sin articulo de blog. Sin URL de contenido textual. Solo el infographic, bien etiquetado con alt text, en una pagina con schema ImageObject.

Los modelos multimodales no esperan al texto. Leen todo.

Lo que Aprenderas Hoy

El estado actual de los modelos multimodales y que procesan
Optimizacion de imagenes para que los LLMs extraigan su contenido
Contenido de voz y audio: transcripciones, podcasts y voice search
Video y vision: como los modelos analizan contenido audiovisual
La estrategia multimodal integrada: texto + imagen + audio como sistema

El Momento Multimodal

Hasta 2023, los LLMs eran puramente textuales. Procesaban texto, generaban texto.

A partir de GPT-4V (noviembre 2023) y sus sucesores, la situacion cambio de forma fundamental.

Lo que los modelos actuales procesan:

✓Texto (siempre)

✓Imagenes y graficos

✓Tablas y diagramas

✓PDFs con contenido visual

✓Audio y podcasts (con transcripcion)

✓Videos (fotogramas + audio)

✓Capturas de pantalla con texto

◌Codigo fuente visual

Optimizacion Multimodal: Texto, Imagen, Voz y Video

La Imagen que la IA Entendio Antes que el Texto

Lo que Aprenderas Hoy

El Momento Multimodal

Lo que los modelos actuales procesan:

Optimizacion Multimodal: Texto, Imagen, Voz y Video