{"id":2086,"date":"2025-05-12T09:08:42","date_gmt":"2025-05-12T09:08:42","guid":{"rendered":"https:\/\/elink.cat\/blog\/?p=2086"},"modified":"2025-05-12T16:07:38","modified_gmt":"2025-05-12T16:07:38","slug":"com-la-ia-multimodal-canviara-les-interficies-digitals","status":"publish","type":"post","link":"https:\/\/elink.cat\/blog\/com-la-ia-multimodal-canviara-les-interficies-digitals\/","title":{"rendered":"Com la IA multimodal canviar\u00e0 les interf\u00edcies digitals"},"content":{"rendered":"<span class=\"span-reading-time rt-reading-time\" style=\"display: block;\"><span class=\"rt-label rt-prefix\">Temps de lectura: <\/span> <span class=\"rt-time\"> 3<\/span> <span class=\"rt-label rt-postfix\">minuts<\/span><\/span><p class=\"p1\">Hi ha una pregunta que em fan sovint, \u00faltimament: <i>\u201cTots aquests models nous, com el GPT-4o o el Gemini, canviaran la manera com fem apps o webs?\u201d<\/i> La meva resposta \u00e9s clara: <span class=\"s1\">s\u00ed, i de manera profunda<\/span>.<\/p>\n<p class=\"p1\">Amb l\u2019arribada de la IA multimodal, <span class=\"s1\"><b>les interf\u00edcies digitals tradicionals tenen els dies comptats<\/b><\/span> tal i com les coneixem. Estem entrant en una nova etapa on la interacci\u00f3 amb la tecnologia ja no es basa nom\u00e9s en fer clics o omplir formularis, sin\u00f3 en <span class=\"s1\"><b>parlar, mostrar, assenyalar, escoltar, interpretar\u2026 tot alhora.<\/b><\/span><\/p>\n<h3><b>Una mica d\u2019hist\u00f2ria: com hem interactuat fins ara<\/b><\/h3>\n<p class=\"p1\">Durant d\u00e8cades, la relaci\u00f3 amb la tecnologia ha passat per interf\u00edcies gr\u00e0fiques est\u00e0tiques: men\u00fas, botons, camps de text i una l\u00f2gica molt clara de pas a pas.<\/p>\n<p class=\"p1\">Fins i tot quan van apar\u00e8ixer els primers assistents com Siri o Alexa, <span class=\"s1\"><b>les interaccions eren limitades<\/b><\/span>: preguntes senzilles, poques capacitats, i sense context multimodal. Era \u00fatil, per\u00f2 no gaire flexible ni natural.\u00a0Ara, amb la IA multimodal, aix\u00f2 comen\u00e7a a trontollar. Per qu\u00e8?<\/p>\n<h3><b>Qu\u00e8 passa quan l\u2019IA pot veure, escoltar i parlar?<\/b><\/h3>\n<p class=\"p1\">Quan un model pot processar <span class=\"s1\"><b>text, imatge, veu i v\u00eddeo de manera combinada<\/b><\/span>, el que tenim ja no \u00e9s un formulari intel\u00b7ligent. \u00c9s un <span class=\"s1\"><b>interlocutor digital<\/b><\/span>. I aix\u00f2 ho canvia tot. Alguns exemples reals:<\/p>\n<ul>\n<li class=\"p1\">En lloc d\u2019omplir un formulari, pots <span class=\"s1\"><b>explicar el que necessites parlant<\/b><\/span> o mostrant una imatge.<\/li>\n<li class=\"p1\"><span class=\"s1\">En comptes de llegir una ajuda en l\u00ednia, pots <\/span><b>preguntar per veu i rebre una explicaci\u00f3 personalitzada amb imatges i exemples<\/b><span class=\"s1\">.<\/span><\/li>\n<li class=\"p1\"><span class=\"s1\">En una app m\u00e8dica, pots <\/span><b>fer una foto a un informe i preguntar qu\u00e8 vol dir<\/b><span class=\"s1\">.<\/span><\/li>\n<li class=\"p1\">En una eina d\u2019aprenentatge, pots <span class=\"s1\"><b>combinar v\u00eddeos, preguntes orals i documents PDF<\/b><\/span> en una sola sessi\u00f3 interactiva.<\/li>\n<\/ul>\n<p class=\"p1\">Aquest tipus d\u2019interacci\u00f3 <span class=\"s1\"><b>no nom\u00e9s \u00e9s m\u00e9s c\u00f2moda<\/b><\/span>, sin\u00f3 que <span class=\"s1\"><b>acosta la tecnologia a molta m\u00e9s gent<\/b><\/span>, incloent-hi persones amb dificultats de lectura, de visi\u00f3 o amb menys habilitats digitals.<\/p>\n<h3><b>El final de les interf\u00edcies cl\u00e0ssiques? No, per\u00f2 s\u00ed una transformaci\u00f3<\/b><\/h3>\n<p class=\"p4\"><span style=\"font-weight: 400;\">No desapareixeran <\/span><span style=\"font-weight: 400;\">dem\u00e0 mateix,<\/span><span style=\"font-weight: 400;\"> els botons i els men\u00fas<\/span><span style=\"font-weight: 400;\">,<\/span><span style=\"font-weight: 400;\">\u00a0per\u00f2 comen\u00e7arem a veure aplicacions que es dissenyen pensant en la conversa, no en el clic. Ara apareix el concepte de \u201cDissenyar per a la IA multimodal\u201d, i <\/span><span style=\"font-weight: 400;\">qu<\/span><span style=\"font-weight: 400;\">\u00e8<\/span><span style=\"font-weight: 400;\"> significa? Doncs \u00e9s for\u00e7a <\/span><span style=\"font-weight: 400;\">sen<\/span><span style=\"font-weight: 400;\">z<\/span><span style=\"font-weight: 400;\">ill<\/span><span style=\"font-weight: 400;\">:<\/span><\/p>\n<ul>\n<li class=\"p1\"><span class=\"s1\"><b>Reduir la fricci\u00f3:<\/b><\/span> menys passos per fer una acci\u00f3, m\u00e9s intu\u00efci\u00f3.<\/li>\n<li class=\"p1\"><span class=\"s1\"><b>Acceptar m\u00faltiples entrades:<\/b><\/span> la persona pot parlar, escriure o mostrar i l\u2019aplicaci\u00f3 ha d\u2019entendre-ho.<\/li>\n<li class=\"p1\"><span class=\"s1\"><b>Context constant:<\/b><\/span> <span style=\"font-weight: 400;\">les apps han de recordar <\/span><span style=\"font-weight: 400;\">all\u00f2<\/span><span style=\"font-weight: 400;\"> que s\u2019ha dit o mostrat abans, no comen\u00e7ar de zero cada <\/span><span style=\"font-weight: 400;\">vegada<\/span><span style=\"font-weight: 400;\">.<\/span><\/li>\n<li class=\"p1\"><span class=\"s1\"><b>Resposta rica:<\/b><\/span> <em>l\u2019output<\/em> pot ser text, veu, gr\u00e0fics, animacions<span style=\"font-weight: 400;\">\u00a0o<\/span><span style=\"font-weight: 400;\">,<\/span><span style=\"font-weight: 400;\"> fins i tot<\/span><span style=\"font-weight: 400;\">,<\/span><span style=\"font-weight: 400;\"> accions directes.<\/span><\/li>\n<\/ul>\n<p class=\"p1\">\u00c9s una oportunitat de <span class=\"s1\"><b>repensar completament la UX i el producte<\/b><\/span>: de deixar de crear interf\u00edcies per als humans adaptant-se a les m\u00e0quines i comen\u00e7ar a crear m\u00e0quines que s\u2019adaptin als humans.<\/p>\n<h3><b>I per a les empreses, qu\u00e8 implica tot aix\u00f2?<\/b><\/h3>\n<p class=\"p1\">Si tens una app, una eina interna o un servei digital, <span class=\"s1\"><b>la pregunta no \u00e9s si t&#8217;afectar\u00e0, sin\u00f3 quan i com.<\/b><\/span> Alguns escenaris que ja estem veient:<\/p>\n<ul>\n<li class=\"p1\">Empreses que afegeixen <span class=\"s1\"><b>assistents multimodals interns<\/b><\/span> per consultar dades, revisar documents i fer gestions sense navegar per 10 pantalles.<\/li>\n<li class=\"p1\">Plataformes de formaci\u00f3 que permeten <span class=\"s1\"><b>fer preguntes orals sobre v\u00eddeos o documents<\/b><\/span>, amb respostes personalitzades en temps real.<\/li>\n<li class=\"p1\">Eines de suport que combinen <span class=\"s1\"><b>xatbots amb visi\u00f3<\/b><\/span> per entendre captures de pantalla o documents enviats pel client.<\/li>\n<\/ul>\n<p class=\"p1\">La bona not\u00edcia \u00e9s que <span class=\"s1\"><b>no cal comen\u00e7ar de zero<\/b><\/span>. Les eines com l\u2019API de GPT-4o o l\u2019SDK de Gemini permeten afegir aquestes funcionalitats sobre sistemes ja existents, fent una evoluci\u00f3 progressiva.<\/p>\n<h3><b>Cap a on anem<\/b><\/h3>\n<p class=\"p1\">En els pr\u00f2xims mesos i anys, veurem cr\u00e9ixer el concepte d\u2019<span class=\"s1\"><b>aplicaci\u00f3 sense interf\u00edcie fixa<\/b><\/span>, on el canal principal pot ser la veu, la c\u00e0mera o, fins i tot, una combinaci\u00f3 cont\u00ednua de senyals. On <span class=\"s1\"><b>el context i la conversa seran la nova interf\u00edcie<\/b><\/span>.\u00a0Per als product managers, dissenyadors, desenvolupadors i equips digitals en general, aix\u00f2 \u00e9s una oportunitat \u00fanica per <span class=\"s1\"><b>reimaginar el producte<\/b><\/span>, oferir una millor experi\u00e8ncia i, alhora, arribar a nous p\u00fablics. La IA multimodal no nom\u00e9s \u00e9s un avan\u00e7 tecnol\u00f2gic: \u00e9s <span class=\"s1\"><b>una nova manera de pensar les interf\u00edcies<\/b><\/span>. I com tot bon canvi profund, no nom\u00e9s canvia el com\u2026 tamb\u00e9 canvia el perqu\u00e8.<\/p>\n<p data-pm-slice=\"1 1 []\">Seguirem aquest tema amb atenci\u00f3, perqu\u00e8 realment promet!<\/p>\n","protected":false},"excerpt":{"rendered":"<p><span class=\"span-reading-time rt-reading-time\" style=\"display: block;\"><span class=\"rt-label rt-prefix\">Temps de lectura: <\/span> <span class=\"rt-time\"> 3<\/span> <span class=\"rt-label rt-postfix\">minuts<\/span><\/span>Hi ha una pregunta que em fan sovint, \u00faltimament: \u201cTots aquests models nous, com el GPT-4o o el Gemini, canviaran la manera com fem apps o webs?\u201d La meva resposta<\/p>\n","protected":false},"author":1,"featured_media":2088,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"breadcrumbs_single_post":"","page_title_panel":"","breadcrumbs_single_page":"","single_page_alignment":"","single_page_margin":"","page_structure_type":"","content_style_source":"","content_style":"","blog_post_streched_ed":"","blog_page_streched_ed":"","has_transparent_header":"","disable_transparent_header":"","vertical_spacing_source":"","content_area_spacing":"","single_post_content_background":"","single_page_content_background":"","single_post_boxed_content_spacing":"","single_page_boxed_content_spacing":"","single_post_content_boxed_radius":"","single_page_content_boxed_radius":"","disable_featured_image":"","disable_post_tags":"","disable_author_box":"","disable_posts_navigation":"","disable_comments":"","disable_related_posts":"","disable_header":"","disable_footer":"","footnotes":""},"categories":[14],"tags":[],"class_list":["post-2086","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-tendencies","rishi-post"],"_links":{"self":[{"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/posts\/2086","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/comments?post=2086"}],"version-history":[{"count":4,"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/posts\/2086\/revisions"}],"predecessor-version":[{"id":2091,"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/posts\/2086\/revisions\/2091"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/media\/2088"}],"wp:attachment":[{"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/media?parent=2086"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/categories?post=2086"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/tags?post=2086"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}