Què vol dir realment que una IA sigui multimodal?
Fa unes setmanes, parlant amb un client que volia integrar un assistent d’IA en una aplicació, em va dir: “vull que sigui multimodal, com el GPT-4o, que he llegit que veu, parla i ho fa tot”. Vaig somriure i li vaig respondre: “ok, però… saps exactament què vol dir això?”. I aquí va començar una conversa que crec que molts estem tenint aquests dies, dins i fora del món tècnic.
Perquè sí, la IA multimodal ja és aquí. Però, què vol dir exactament aquest concepte? I per què és tan rellevant ara?
Una definició ràpida i clara
Quan diem que una IA és multimodal, ens referim a la seva capacitat d’entendre i generar informació en diversos formats alhora: text, veu, imatge, vídeo, codi… I fer-ho d’una manera coherent i integrada.
Per exemple:
- Si li passes una imatge d’un plat i li preguntes “és apte per a celíacs?”, t’hauria d’entendre.
- Si li mostres un gràfic i li dius “resumeix-me què mostra”, hauria de poder fer-ho.
- Si parles amb veu i la IA et respon amb veu, text i referències visuals, estàs davant d’una experiència multimodal real.
No és només fer moltes coses, sinó combinar modalitats per entendre millor el context i oferir respostes més naturals i útils.
D’on venim i per què això és nou
Fins ara, la majoria de sistemes d’IA eren unimodals: entrenats per treballar només amb text, només amb imatge, només amb veu… Alguns sistemes feien “trampes” unint diferents models (per exemple, un per reconèixer veu i un altre per generar text), però no era una comprensió integrada.
El canvi ha vingut amb models com:
- GPT-4o (OpenAI), que pot llegir text, mirar imatges, escoltar veu i parlar amb to i emoció.
- Gemini 1.5 (Google), que combina entrada de documents, imatges, vídeos i més en una sola consulta.
- Claude 3 (Anthropic), que entén arxius complexos i contextos visuals en paral·lel al text.
Aquests nous models ja neixen amb arquitectura multimodal, i això els dona una fluïdesa i versatilitat molt superior.
Per què és tan rellevant ara mateix?
Perquè obre les portes a interaccions molt més naturals i potents entre humans i màquines. Fins ara, quan interactuàvem amb una IA, havíem de pensar com ella: escriure les consultes amb cura, estructurar els inputs, adaptar-nos al seu format. Amb la multimodalitat, és l’IA qui s’adapta a nosaltres.
I això transforma completament la manera com dissenyem aplicacions, eines i serveis:
- A l’empresa, pots tenir un assistent que entén informes, documents, taules i àudios interns.
- A l’educació, pots crear materials interactius on la IA explica una imatge mentre respon preguntes en veu.
- A la salut, pots interpretar una radiografia mentre es conversa amb el metge o el pacient.
És una nova manera de “parlar” amb la tecnologia, molt més propera a la nostra forma humana d’entendre el món.
Els límits també existeixen
També cal ser realistes. La multimodalitat encara té límits:
- No tots els models poden generar multimodalitat (alguns només entenen però no generen imatges o veu).
- Els costos computacionals són més alts, i això pot limitar l’accés a aquestes funcionalitats.
- L’experiència d’usuari encara s’ha de polir: a vegades la veu triga, la imatge no es carrega bé o el context es perd.
Però malgrat això, el camí és clar i imparable. Estem veient l’inici d’una nova fase on la IA no només ens entén millor, sinó que pot entendre el món com nosaltres: amb tots els sentits digitals possibles.
I ara què?
En els pròxims articles explorarem com aquesta capacitat multimodal està transformant sectors concrets, com afecta el disseny de productes digitals i quines oportunitats obre per a empreses que volen innovar, millorar serveis o automatitzar processos complexos.
Però per començar, quedem-nos amb aquesta idea: la multimodalitat no és una funció addicional, és un canvi de paradigma. Ja no estem parlant només amb màquines que llegeixen i escriuen. Ara també veuen, escolten, assenyalen i entenen.
I això ho canvia tot.