• Dom. Dic 22nd, 2024

Parti, la nueva IA de Google que crea imágenes y compite con Dall-E

Parti, la nueva IA de Google que crea imágenes y compite con Dall-E

La inteligencia artificial Pathways Autoregressive Text-to-Image trabaja con imágenes para construir lo que el usuario le pida

Esta semana Google presentó su modelo de computadora de “texto a imagen” que genera imágenes hiperrealistas al estudiar decenas de miles de millones de entradas. “Pathways Autoregressive Text-to-Image”, o Parti, estudia conjuntos de imágenes que Google llama “tokens de imagen”, usándolos para construir nuevas imágenes, así lo explicaron miembros del gigante de las búsquedas en un sitio web de investigación.

Las imágenes de Parti se vuelven más realistas cuando tiene más parámetros (fichas y otro material de capacitación) para revisar. El modelo estudia 20 mil millones de parámetros antes de generar una imagen final.

Parti difiere de Imagen, un generador de texto a imagen que diseñó Google con el fin de utilizar el aprendizaje por difusión. El proceso entrena modelos de computadora agregando “ruido” a una imagen para que se oscurezca, como si estuviera estática en una pantalla de televisión.

Luego, el modelo aprende a decodificar la estática para recrear la imagen original. A medida que el modelo mejora, puede convertir lo que parece una serie de puntos aleatorios en una imagen.

Sin embargo, Google no está lanzando Parti o Imagen al público porque los conjuntos de datos de inteligencia artificial (IA) conllevan el riesgo de sesgo. Debido a que los conjuntos de datos son creados por seres humanos, sin darse cuenta pueden apoyarse en estereotipos o tergiversar ciertos grupos. Google afirma que tanto Parti como Google Imagen tienen un sesgo hacia los estereotipos occidentales.

El gigante de las búsquedas ha invertido mucho en IA como una forma de mejorar sus servicios y desarrollar la computación ambiental, una forma de tecnología tan intuitiva que se convierte en parte de un segundo plano.

En su conferencia de desarrolladores de I/O que se llevó a cado en mayo, el CEO Sundar Pichai dijo que la IA se está utilizando pata ayudar a Google Traslate a agregar idiomas, crear imágenes 3D en Maps y condensar documentos en resúmenes rápidos.

Parti e Imagen no son los únicos modelos de texto a imagen que existen. Los modelos Dall-E, VQ-GAN+CLIP y Latent Diffusion son otros modelos de texto a imagen que no pertenecen a Google y que han sido noticia recientemente. Dall-E Mini es una IA de texto a imagen de código abierto que está disponible para el público, pero está entrenada en conjuntos de datos más pequeños.