Les IA Multimodals: una guia pràctica.

Temps de lectura: 3 minuts

Què vol dir realment que una IA sigui multimodal?

Fa unes setmanes, parlant amb un client que volia integrar un assistent d’IA en una aplicació, em va dir: “vull que sigui multimodal, com el GPT-4o, que he llegit que veu, parla i ho fa tot”. Vaig somriure i li vaig respondre: “ok, però… saps exactament què vol dir això?”. I aquí va començar una conversa que crec que molts estem tenint aquests dies, dins i fora del món tècnic.

Perquè sí, la IA multimodal ja és aquí. Però, què vol dir exactament aquest concepte? I per què és tan rellevant ara?

Una definició ràpida i clara

Quan diem que una IA és multimodal, ens referim a la seva capacitat d’entendre i generar informació en diversos formats alhora: text, veu, imatge, vídeo, codi… I fer-ho d’una manera coherent i integrada.

Per exemple:

Si li passes una imatge d’un plat i li preguntes “és apte per a celíacs?”, t’hauria d’entendre.
Si li mostres un gràfic i li dius “resumeix-me què mostra”, hauria de poder fer-ho.
Si parles amb veu i la IA et respon amb veu, text i referències visuals, estàs davant d’una experiència multimodal real.

No és només fer moltes coses, sinó combinar modalitats per entendre millor el context i oferir respostes més naturals i útils.

D’on venim i per què això és nou

Fins ara, la majoria de sistemes d’IA eren unimodals: entrenats per treballar només amb text, només amb imatge, només amb veu… Alguns sistemes feien “trampes” unint diferents models (per exemple, un per reconèixer veu i un altre per generar text), però no era una comprensió integrada.

El canvi ha vingut amb models com:

GPT-4o (OpenAI), que pot llegir text, mirar imatges, escoltar veu i parlar amb to i emoció.
Gemini 1.5 (Google), que combina entrada de documents, imatges, vídeos i més en una sola consulta.
Claude 3 (Anthropic), que entén arxius complexos i contextos visuals en paral·lel al text.

Aquests nous models ja neixen amb arquitectura multimodal, i això els dona una fluïdesa i versatilitat molt superior.

Per què és tan rellevant ara mateix?

Perquè obre les portes a interaccions molt més naturals i potents entre humans i màquines. Fins ara, quan interactuàvem amb una IA, havíem de pensar com ella: escriure les consultes amb cura, estructurar els inputs, adaptar-nos al seu format. Amb la multimodalitat, és l’IA qui s’adapta a nosaltres.

I això transforma completament la manera com dissenyem aplicacions, eines i serveis:

A l’empresa, pots tenir un assistent que entén informes, documents, taules i àudios interns.
A l’educació, pots crear materials interactius on la IA explica una imatge mentre respon preguntes en veu.
A la salut, pots interpretar una radiografia mentre es conversa amb el metge o el pacient.

És una nova manera de “parlar” amb la tecnologia, molt més propera a la nostra forma humana d’entendre el món.

Els límits també existeixen

També cal ser realistes. La multimodalitat encara té límits:

No tots els models poden generar multimodalitat (alguns només entenen però no generen imatges o veu).
Els costos computacionals són més alts, i això pot limitar l’accés a aquestes funcionalitats.
L’experiència d’usuari encara s’ha de polir: a vegades la veu triga, la imatge no es carrega bé o el context es perd.

Però malgrat això, el camí és clar i imparable. Estem veient l’inici d’una nova fase on la IA no només ens entén millor, sinó que pot entendre el món com nosaltres: amb tots els sentits digitals possibles.

I ara què?

En els pròxims articles explorarem com aquesta capacitat multimodal està transformant sectors concrets, com afecta el disseny de productes digitals i quines oportunitats obre per a empreses que volen innovar, millorar serveis o automatitzar processos complexos.

Però per començar, quedem-nos amb aquesta idea: la multimodalitat no és una funció addicional, és un canvi de paradigma. Ja no estem parlant només amb màquines que llegeixen i escriuen. Ara també veuen, escolten, assenyalen i entenen.

I això ho canvia tot.