Si portes temps provant GPT-4o, Gemini o Claude, segurament ja t’ha passat: li passes una foto, li parles, li demanes que et respongui amb veu i et meravella… però també et desespera. Perquè no sempre entén bé, a vegades respon amb informació genèrica o directament s’inventa el que veu.
La IA multimodal ha avançat moltíssim, però encara hi ha una gran distància entre el que promet i el que pot fer de manera fiable cada dia. I no passa res, és part del procés. Per això avui volem posar una mica de llum sobre què és capaç de fer bé la IA multimodal i quines coses encara estan “a mig fer”.
Què pot fer bé la ia multimodal (avui mateix)
La bona notícia és que hi ha aplicacions que ja funcionen força bé i poden aportar valor real, tant a nivell personal com professional. Veiem
- Llegir i entendre imatges senzilles : Els models com GPT-4o o Claude poden descriure amb bastant precisió imatges clares: gràfics, pantalles, esquemes, objectes, etc. És molt útil per interpretar dades visuals o ajudar en accessibilitat.
- Mantenir una conversa per veu fluida: Els nous models són capaços de mantenir converses en temps real amb to natural, reconeixent emocions i matisos. GPT-4o, per exemple, sorprèn pel seu to humà i la seva capacitat de resposta.
- Resumir i extreure informació de documents visuals: Pots passar-li una captura d’un PowerPoint o un fragment d’un PDF, i fer-li preguntes sobre el contingut. No sempre és perfecte, però funciona molt bé per contextos coneguts i estructurats.
- Interpretar dades multimodals de forma integrada: La força real és que pot entendre text, imatge i veu en un mateix context. Pots parlar-li d’una imatge mentre l’està mirant i et respon contextualment. Això és nou, i és molt potent.
Què encara no pot fer (del tot bé)
Aquí és on cal una mica de paciència i realisme. Aquestes funcionalitats encara tenen moltes limitacions:
- Entendre imatges complexes o amb molt soroll visual: Escenes amb molts elements, text petit o contextos abstractes (com una foto d’una classe amb molts estudiants o un mapa complex) poden confondre el model o portar-lo a donar respostes vagues o incorrectes.
- Raonar amb imatges i dades combinades de forma precisa : Si li passes una taula amb números i li demanes una anàlisi detallada, pot fallar. El raonament matemàtic o estadístic encara no és consistent, i les respostes poden ser poc fiables.
- Interaccions multimodals en temps real 100% fluïdes :Tot i que es parla molt del “temps real”, la realitat és que encara hi ha latències, talls, i respostes que triguen. La fluïdesa total (com si fos una conversa humana amb visualització constant) encara no hi és.
- Respostes completament veraces i precises :Com qualsevol model generatiu, pot inventar dades (“hallucinations”) o interpretar malament el que veu o escolta. Sobretot quan les preguntes són obertes o ambigus.
El risc de confondre potencial amb realitat
El gran repte d’aquesta etapa és que els vídeos promocionals són molt millors que l’experiència real. I això pot portar a frustracions, especialment en entorns professionals que esperen una resposta fiable cada vegada.
Però això no vol dir que no siguin útils. Vol dir que cal entendre molt bé el context, els límits i els usos adequats. Per exemple, un assistent multimodal és ideal per ajudar a navegar una web complexa o entendre una gràfica, però no és bona idea fer-lo servir per prendre decisions crítiques sense supervisió.
Cap on evoluciona tot això?
Els pròxims mesos veurem millores ràpides en:
- Exactitud visual: millor reconeixement de detalls i context d’imatge
- Control de la veu: to, pauses, emoció més realistes i adaptatius
- Temps de resposta: converses més fluïdes i menys temps d’espera
- Integració amb aplicacions reals: podran actuar sobre sistemes, no només parlar
I, a mitjà termini, veurem agents multimodals autònoms capaços no només d’interpretar informació diversa, sinó de fer accions concretes dins entorns empresarials, operatius o creatius.
La multimodalitat en IA no és ciència ficció, però tampoc és màgia. És una realitat amb molt potencial que ja comença a ser útil, però que encara té molt recorregut per fer.
Si saps què li pots demanar (i què no), pots començar a aprofitar-la ara mateix. Però si vols que et resolgui la vida com a “siri del futur”, encara hauràs d’esperar una mica.
Al final, la clau està en l’equilibri: aprofitar el que funciona, detectar el que falla, i continuar explorant com aquesta nova forma d’interacció amb la tecnologia ens pot ajudar a crear productes i serveis molt més humans.