Com la IA multimodal canviarà les interfícies digitals

Temps de lectura: 3 minuts

Hi ha una pregunta que em fan sovint, últimament: “Tots aquests models nous, com el GPT-4o o el Gemini, canviaran la manera com fem apps o webs?” La meva resposta és clara: sí, i de manera profunda.

Amb l’arribada de la IA multimodal, les interfícies digitals tradicionals tenen els dies comptats tal i com les coneixem. Estem entrant en una nova etapa on la interacció amb la tecnologia ja no es basa només en fer clics o omplir formularis, sinó en parlar, mostrar, assenyalar, escoltar, interpretar… tot alhora.

Una mica d’història: com hem interactuat fins ara

Durant dècades, la relació amb la tecnologia ha passat per interfícies gràfiques estàtiques: menús, botons, camps de text i una lògica molt clara de pas a pas.

Fins i tot quan van aparèixer els primers assistents com Siri o Alexa, les interaccions eren limitades: preguntes senzilles, poques capacitats, i sense context multimodal. Era útil, però no gaire flexible ni natural. Ara, amb la IA multimodal, això comença a trontollar. Per què?

Què passa quan l’IA pot veure, escoltar i parlar?

Quan un model pot processar text, imatge, veu i vídeo de manera combinada, el que tenim ja no és un formulari intel·ligent. És un interlocutor digital. I això ho canvia tot. Alguns exemples reals:

En lloc d’omplir un formulari, pots explicar el que necessites parlant o mostrant una imatge.
En comptes de llegir una ajuda en línia, pots preguntar per veu i rebre una explicació personalitzada amb imatges i exemples.
En una app mèdica, pots fer una foto a un informe i preguntar què vol dir.
En una eina d’aprenentatge, pots combinar vídeos, preguntes orals i documents PDF en una sola sessió interactiva.

Aquest tipus d’interacció no només és més còmoda, sinó que acosta la tecnologia a molta més gent, incloent-hi persones amb dificultats de lectura, de visió o amb menys habilitats digitals.

El final de les interfícies clàssiques? No, però sí una transformació

No desapareixeran demà mateix, els botons i els menús, però començarem a veure aplicacions que es dissenyen pensant en la conversa, no en el clic. Ara apareix el concepte de “Dissenyar per a la IA multimodal”, i què significa? Doncs és força senzill:

Reduir la fricció: menys passos per fer una acció, més intuïció.
Acceptar múltiples entrades: la persona pot parlar, escriure o mostrar i l’aplicació ha d’entendre-ho.
Context constant: les apps han de recordar allò que s’ha dit o mostrat abans, no començar de zero cada vegada.
Resposta rica: l’output pot ser text, veu, gràfics, animacions o, fins i tot, accions directes.

És una oportunitat de repensar completament la UX i el producte: de deixar de crear interfícies per als humans adaptant-se a les màquines i començar a crear màquines que s’adaptin als humans.

I per a les empreses, què implica tot això?

Si tens una app, una eina interna o un servei digital, la pregunta no és si t’afectarà, sinó quan i com. Alguns escenaris que ja estem veient:

Empreses que afegeixen assistents multimodals interns per consultar dades, revisar documents i fer gestions sense navegar per 10 pantalles.
Plataformes de formació que permeten fer preguntes orals sobre vídeos o documents, amb respostes personalitzades en temps real.
Eines de suport que combinen xatbots amb visió per entendre captures de pantalla o documents enviats pel client.

La bona notícia és que no cal començar de zero. Les eines com l’API de GPT-4o o l’SDK de Gemini permeten afegir aquestes funcionalitats sobre sistemes ja existents, fent una evolució progressiva.

Cap a on anem

En els pròxims mesos i anys, veurem créixer el concepte d’aplicació sense interfície fixa, on el canal principal pot ser la veu, la càmera o, fins i tot, una combinació contínua de senyals. On el context i la conversa seran la nova interfície. Per als product managers, dissenyadors, desenvolupadors i equips digitals en general, això és una oportunitat única per reimaginar el producte, oferir una millor experiència i, alhora, arribar a nous públics. La IA multimodal no només és un avanç tecnològic: és una nova manera de pensar les interfícies. I com tot bon canvi profund, no només canvia el com… també canvia el perquè.

Seguirem aquest tema amb atenció, perquè realment promet!