Hi ha una pregunta que em fan sovint, últimament: “Tots aquests models nous, com el GPT-4o o el Gemini, canviaran la manera com fem apps o webs?” La meva resposta és clara: sí, i de manera profunda.
Amb l’arribada de la IA multimodal, les interfícies digitals tradicionals tenen els dies comptats tal i com les coneixem. Estem entrant en una nova etapa on la interacció amb la tecnologia ja no es basa només en fer clics o omplir formularis, sinó en parlar, mostrar, assenyalar, escoltar, interpretar… tot alhora.
Una mica d’història: com hem interactuat fins ara
Durant dècades, la relació amb la tecnologia ha passat per interfícies gràfiques estàtiques: menús, botons, camps de text i una lògica molt clara de pas a pas.
Fins i tot quan van aparèixer els primers assistents com Siri o Alexa, les interaccions eren limitades: preguntes senzilles, poques capacitats, i sense context multimodal. Era útil, però no gaire flexible ni natural. Ara, amb la IA multimodal, això comença a trontollar. Per què?
Què passa quan l’IA pot veure, escoltar i parlar?
Quan un model pot processar text, imatge, veu i vídeo de manera combinada, el que tenim ja no és un formulari intel·ligent. És un interlocutor digital. I això ho canvia tot. Alguns exemples reals:
- En lloc d’omplir un formulari, pots explicar el que necessites parlant o mostrant una imatge.
- En comptes de llegir una ajuda en línia, pots preguntar per veu i rebre una explicació personalitzada amb imatges i exemples.
- En una app mèdica, pots fer una foto a un informe i preguntar què vol dir.
- En una eina d’aprenentatge, pots combinar vídeos, preguntes orals i documents PDF en una sola sessió interactiva.
Aquest tipus d’interacció no només és més còmoda, sinó que acosta la tecnologia a molta més gent, incloent-hi persones amb dificultats de lectura, de visió o amb menys habilitats digitals.
El final de les interfícies clàssiques? No, però sí una transformació
No desapareixeran demà mateix, els botons i els menús, però començarem a veure aplicacions que es dissenyen pensant en la conversa, no en el clic. Ara apareix el concepte de “Dissenyar per a la IA multimodal”, i què significa? Doncs és força senzill:
- Reduir la fricció: menys passos per fer una acció, més intuïció.
- Acceptar múltiples entrades: la persona pot parlar, escriure o mostrar i l’aplicació ha d’entendre-ho.
- Context constant: les apps han de recordar allò que s’ha dit o mostrat abans, no començar de zero cada vegada.
- Resposta rica: l’output pot ser text, veu, gràfics, animacions o, fins i tot, accions directes.
És una oportunitat de repensar completament la UX i el producte: de deixar de crear interfícies per als humans adaptant-se a les màquines i començar a crear màquines que s’adaptin als humans.
I per a les empreses, què implica tot això?
Si tens una app, una eina interna o un servei digital, la pregunta no és si t’afectarà, sinó quan i com. Alguns escenaris que ja estem veient:
- Empreses que afegeixen assistents multimodals interns per consultar dades, revisar documents i fer gestions sense navegar per 10 pantalles.
- Plataformes de formació que permeten fer preguntes orals sobre vídeos o documents, amb respostes personalitzades en temps real.
- Eines de suport que combinen xatbots amb visió per entendre captures de pantalla o documents enviats pel client.
La bona notícia és que no cal començar de zero. Les eines com l’API de GPT-4o o l’SDK de Gemini permeten afegir aquestes funcionalitats sobre sistemes ja existents, fent una evolució progressiva.
Cap a on anem
En els pròxims mesos i anys, veurem créixer el concepte d’aplicació sense interfície fixa, on el canal principal pot ser la veu, la càmera o, fins i tot, una combinació contínua de senyals. On el context i la conversa seran la nova interfície. Per als product managers, dissenyadors, desenvolupadors i equips digitals en general, això és una oportunitat única per reimaginar el producte, oferir una millor experiència i, alhora, arribar a nous públics. La IA multimodal no només és un avanç tecnològic: és una nova manera de pensar les interfícies. I com tot bon canvi profund, no només canvia el com… també canvia el perquè.
Seguirem aquest tema amb atenció, perquè realment promet!