{"id":2083,"date":"2025-05-05T17:04:05","date_gmt":"2025-05-05T17:04:05","guid":{"rendered":"https:\/\/elink.cat\/blog\/?p=2083"},"modified":"2025-06-18T14:10:50","modified_gmt":"2025-06-18T14:10:50","slug":"les-ia-multimodals-una-guia-practica","status":"publish","type":"post","link":"https:\/\/elink.cat\/blog\/les-ia-multimodals-una-guia-practica\/","title":{"rendered":"Les IA Multimodals: una guia pr\u00e0ctica."},"content":{"rendered":"<span class=\"span-reading-time rt-reading-time\" style=\"display: block;\"><span class=\"rt-label rt-prefix\">Temps de lectura: <\/span> <span class=\"rt-time\"> 3<\/span> <span class=\"rt-label rt-postfix\">minuts<\/span><\/span><h2><b>Qu\u00e8 vol dir realment que una IA sigui multimodal?<\/b><\/h2>\n<p class=\"p1\">Fa unes setmanes, parlant amb un client que volia integrar un assistent d\u2019IA en una aplicaci\u00f3, em va dir: \u201cvull que sigui multimodal, com el GPT-4o, que he llegit que veu, parla i ho fa tot\u201d. Vaig somriure i li vaig respondre: \u201cok, per\u00f2\u2026 saps exactament qu\u00e8 vol dir aix\u00f2?\u201d. I aqu\u00ed va comen\u00e7ar una conversa que crec que molts estem tenint aquests dies, dins i fora del m\u00f3n t\u00e8cnic.<\/p>\n<p class=\"p1\">Perqu\u00e8 s\u00ed, la <span class=\"s2\"><b>IA multimodal<\/b><\/span> ja \u00e9s aqu\u00ed. Per\u00f2, qu\u00e8 vol dir exactament aquest concepte? I per qu\u00e8 \u00e9s tan rellevant ara?<\/p>\n<h3><b>Una definici\u00f3 r\u00e0pida i clara<\/b><\/h3>\n<p class=\"p1\">Quan diem que una IA \u00e9s multimodal, ens referim a la seva <span class=\"s2\"><b>capacitat d\u2019entendre i generar informaci\u00f3 en diversos formats alhora<\/b><\/span>: text, veu, imatge, v\u00eddeo, codi\u2026 I fer-ho d\u2019una manera <span class=\"s2\"><b>coherent i integrada<\/b><\/span>.<\/p>\n<p class=\"p1\">Per exemple:<\/p>\n<ul>\n<li class=\"p1\">Si li passes una imatge d\u2019un plat i li preguntes \u201c\u00e9s apte per a cel\u00edacs?\u201d, t\u2019hauria d\u2019entendre.<\/li>\n<li class=\"p1\">Si li mostres un gr\u00e0fic i li dius \u201cresumeix-me qu\u00e8 mostra\u201d, hauria de poder fer-ho.<\/li>\n<li class=\"p1\">Si parles amb veu i la IA et respon amb veu, text i refer\u00e8ncies visuals, est\u00e0s davant d\u2019una experi\u00e8ncia multimodal real.<\/li>\n<\/ul>\n<p class=\"p4\"><span class=\"s3\">No \u00e9s nom\u00e9s fer moltes coses, sin\u00f3 <\/span><b>combinar modalitats per entendre millor el context i oferir respostes m\u00e9s naturals i \u00fatils.<\/b><b><\/b><\/p>\n<h3><b>D\u2019on venim i per qu\u00e8 aix\u00f2 \u00e9s nou<\/b><\/h3>\n<p class=\"p1\">Fins ara, la majoria de sistemes d\u2019IA eren <span class=\"s2\"><b>unimodals<\/b><\/span>: entrenats per treballar nom\u00e9s amb text, nom\u00e9s amb imatge, nom\u00e9s amb veu\u2026 Alguns sistemes feien \u201ctrampes\u201d unint diferents models (per exemple, un per recon\u00e8ixer veu i un altre per generar text), per\u00f2 no era una comprensi\u00f3 integrada.<\/p>\n<p class=\"p1\">El canvi ha vingut amb models com:<\/p>\n<ul>\n<li class=\"p1\"><span class=\"s1\"><b>GPT-4o<\/b><\/span> (OpenAI), que pot llegir text, mirar imatges, escoltar veu i parlar amb to i emoci\u00f3.<\/li>\n<li class=\"p1\"><span class=\"s1\"><b>Gemini 1.5<\/b><\/span> (Google), que combina entrada de documents, imatges, v\u00eddeos i m\u00e9s en una sola consulta.<\/li>\n<li class=\"p1\"><span class=\"s1\"><b>Claude 3<\/b><\/span> (Anthropic), que ent\u00e9n arxius complexos i contextos visuals en paral\u00b7lel al text.<\/li>\n<\/ul>\n<p class=\"p1\">Aquests nous models <span class=\"s2\"><b>ja neixen amb arquitectura multimodal<\/b><\/span>, i aix\u00f2 els dona una flu\u00efdesa i versatilitat molt superior.<\/p>\n<h3><b>Per qu\u00e8 \u00e9s tan rellevant ara mateix?<\/b><\/h3>\n<p class=\"p1\">Perqu\u00e8 obre les portes a <span class=\"s2\"><b>interaccions molt m\u00e9s naturals i potents<\/b><\/span> entre humans i m\u00e0quines. Fins ara, quan interactu\u00e0vem amb una IA, hav\u00edem de pensar com ella: escriure les consultes amb cura, estructurar els inputs, adaptar-nos al seu format. Amb la multimodalitat, <span class=\"s2\"><b>\u00e9s l\u2019IA qui s\u2019adapta a nosaltres.<\/b><b><\/b><\/span><\/p>\n<p class=\"p1\">I aix\u00f2 transforma completament la manera com dissenyem aplicacions, eines i serveis:<\/p>\n<ul>\n<li class=\"p1\">A l\u2019empresa, pots tenir un assistent que ent\u00e9n informes, documents, taules i \u00e0udios interns.<\/li>\n<li class=\"p1\">A l\u2019educaci\u00f3, pots crear materials interactius on la IA explica una imatge mentre respon preguntes en veu.<\/li>\n<li class=\"p1\">A la salut, pots interpretar una radiografia mentre es conversa amb el metge o el pacient.<\/li>\n<\/ul>\n<p class=\"p1\">\u00c9s una nova manera de \u201cparlar\u201d amb la tecnologia, molt m\u00e9s propera a la nostra forma humana d\u2019entendre el m\u00f3n.<\/p>\n<h3><b>Els l\u00edmits tamb\u00e9 existeixen<\/b><\/h3>\n<p class=\"p1\">Tamb\u00e9 cal ser realistes. La multimodalitat encara t\u00e9 l\u00edmits:<\/p>\n<ul>\n<li class=\"p1\">No tots els models poden <span class=\"s1\"><b>generar multimodalitat<\/b><\/span> (alguns nom\u00e9s entenen per\u00f2 no generen imatges o veu).<\/li>\n<li class=\"p1\">Els costos computacionals s\u00f3n m\u00e9s alts, i aix\u00f2 pot limitar l\u2019acc\u00e9s a aquestes funcionalitats.<\/li>\n<li class=\"p1\">L\u2019experi\u00e8ncia d\u2019usuari encara s\u2019ha de polir: a vegades la veu triga, la imatge no es carrega b\u00e9 o el context es perd.<\/li>\n<\/ul>\n<p class=\"p1\">Per\u00f2 malgrat aix\u00f2, <span class=\"s2\"><b>el cam\u00ed \u00e9s clar i imparable<\/b><\/span>. Estem veient l\u2019inici d\u2019una nova fase on la IA no nom\u00e9s ens ent\u00e9n millor, sin\u00f3 que <span class=\"s2\"><b>pot entendre el m\u00f3n com nosaltres: amb tots els sentits digitals possibles.<\/b><b><\/b><\/span><\/p>\n<h3><b>I ara qu\u00e8?<\/b><\/h3>\n<p class=\"p1\">En els pr\u00f2xims articles explorarem com aquesta capacitat multimodal est\u00e0 transformant sectors concrets, com afecta el disseny de productes digitals i quines oportunitats obre per a empreses que volen innovar, millorar serveis o automatitzar processos complexos.<\/p>\n<p class=\"p1\">Per\u00f2 per comen\u00e7ar, quedem-nos amb aquesta idea: <span class=\"s2\"><b>la multimodalitat no \u00e9s una funci\u00f3 addicional, \u00e9s un canvi de paradigma.<\/b><\/span> Ja no estem parlant nom\u00e9s amb m\u00e0quines que llegeixen i escriuen. Ara tamb\u00e9 veuen, escolten, assenyalen i entenen.<\/p>\n<p class=\"p1\">I aix\u00f2 ho canvia tot.<\/p>\n","protected":false},"excerpt":{"rendered":"<p><span class=\"span-reading-time rt-reading-time\" style=\"display: block;\"><span class=\"rt-label rt-prefix\">Temps de lectura: <\/span> <span class=\"rt-time\"> 3<\/span> <span class=\"rt-label rt-postfix\">minuts<\/span><\/span>Qu\u00e8 vol dir realment que una IA sigui multimodal? Fa unes setmanes, parlant amb un client que volia integrar un assistent d\u2019IA en una aplicaci\u00f3, em va dir: \u201cvull que<\/p>\n","protected":false},"author":1,"featured_media":2085,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"breadcrumbs_single_post":"","page_title_panel":"","breadcrumbs_single_page":"","single_page_alignment":"","single_page_margin":"","page_structure_type":"","content_style_source":"","content_style":"","blog_post_streched_ed":"","blog_page_streched_ed":"","has_transparent_header":"","disable_transparent_header":"","vertical_spacing_source":"","content_area_spacing":"","single_post_content_background":"","single_page_content_background":"","single_post_boxed_content_spacing":"","single_page_boxed_content_spacing":"","single_post_content_boxed_radius":"","single_page_content_boxed_radius":"","disable_featured_image":"","disable_post_tags":"","disable_author_box":"","disable_posts_navigation":"","disable_comments":"","disable_related_posts":"","disable_header":"","disable_footer":"","footnotes":""},"categories":[29],"tags":[],"class_list":["post-2083","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ia-interficies-futur-treball","rishi-post"],"_links":{"self":[{"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/posts\/2083","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/comments?post=2083"}],"version-history":[{"count":1,"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/posts\/2083\/revisions"}],"predecessor-version":[{"id":2084,"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/posts\/2083\/revisions\/2084"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/media\/2085"}],"wp:attachment":[{"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/media?parent=2083"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/categories?post=2083"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/elink.cat\/blog\/wp-json\/wp\/v2\/tags?post=2083"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}