Òscar Junyent

Quan la IA cau en males mans: Xanthorox i la nova era del cibercrim

Temps de lectura: 3 minutsFa uns dies vaig llegir una notícia que em impactar, no per novedosa, si no perque esta arribant a preocupar a la opinió pública. A La Vanguardia explicaven com una empresa anomenada Xanthorox, ofereix per només 176 euros, un potent software que permet a qualsevol amb una targeta de crèdit i ganes de fer mal convertir-se en un hacker operatiu. Sense coneixements tècnics, sense experiència prèvia. Aquest cas no és anecdòtic. És un síntoma d’una nova realitat que ens arriba de cop: la IA no només està ajudant empreses a ser més eficients o persones a ser més creatives… també està democratitzant el cibercrim. Què és Xanthorox i per què és tan preocupant Xanthorox és una plataforma il·legal que es presenta com un “assistent per a cibercriminals”. Ofereix accés a eines de phishing, malware, atacs de denegació de servei i enginyeria social automatitzada. I ho fa a través d’una interfície conversacional, com si estiguessis parlant amb un ChatGPT especialitzat en fer el mal. No cal saber programar. No cal entendre de seguretat informàtica. Només cal pagar i seguir instruccions. Aquesta facilitat d’accés és el veritable canvi de paradigma: la barrera d’entrada al món del cibercrim ha desaparegut. El que abans requeria temps, coneixement i recursos, ara es pot fer en minuts, amb IA que escriu el codi, redacta els correus de phishing i t’explica pas a pas com evitar ser detectat. Quan la IA no només ajuda, sinó que amplifica el risc Aquesta situació ens obliga a mirar la IA amb una nova òptica. Durant molt de temps, hem parlat de com pot automatitzar processos, optimitzar negocis, millorar serveis… però poc s’ha dit sobre com també pot amplificar capacitats destructives. El cas de Xanthorox ho demostra: Els correus de phishing generats per IA són més convincents que mai. Els scripts de malware són optimitzats, personalitzats i invisibles per a molts antivirus. L’enginyeria social pot simular converses humanes per enganyar millor les víctimes. El resultat? Més atacs, més difícils de detectar, més víctimes vulnerables. I no parlem de grans corporacions, sinó de pimes, freelancers o usuaris particulars que ara són blanc fàcil per aquests nous “cibercriminals low cost”. La democratització del cibercrim és un perill real Si fins ara el cibercrim era un problema, ara es pot convertir en una pandèmia digital. Perquè si tothom pot tenir un “hacker a la carta” per menys de 200 euros, qualsevol conflicte personal, venjança, acte d’odi o simple avorriment pot desembocar en un atac digital. I això canvia completament el joc. No només per als departaments de seguretat, sinó també per a la societat en general. Estem parlant de l’equivalent a posar una arma carregada a disposició de qualsevol que la demani. I ara què? podem fer-hi alguna cosa? No tenim una solució fàcil, però hi ha coses que cal fer: Invertir més en ciberseguretat i sensibilització. Les empreses petites han de començar a prendre’s seriosament aquest tema. No és car tenir bones pràctiques i formació bàsica, però no fer-ho pot sortir molt car. Actualitzar la legislació amb urgència. Els governs han d’accelerar les regulacions sobre l’ús il·lícit d’IA i castigar no només qui fa mal, sinó també qui ven aquestes eines. Crear IA per combatre la IA maliciosa. Igual que la ciberseguretat tradicional ha anat per darrere del malware, ara necessitem agents de seguretat basats en IA que puguin detectar patrons, anticipar riscos i protegir en temps real. Educació digital per a tothom. No només els joves. La gent gran, els treballadors, les famílies… tothom hauria de saber reconèixer un correu sospitós, protegir les seves dades i entendre els riscos actuals. La IA, com qualsevol tecnologia, no és bona ni dolenta per si mateixa. El seu ús en mans equivocades pot fer molt de mal. I casos com el de Xanthorox ens recorden que el futur no és només promesa, també és risc. Però justament perquè en som conscients, tenim una responsabilitat: no deixar que el costat fosc de la IA ens agafi desprevinguts. Parlar-ne, formar-nos, exigir regulació i protegir-nos no és opcional. És el que toca si volem construir un entorn digital segur per a tothom

Quan la IA cau en males mans: Xanthorox i la nova era del cibercrim Llegeix més »

La nova era del vídeo generat per IA: què pot fer avui i què no

Temps de lectura: 3 minutsDurant mesos hem parlat molt de textos, imatges, àudio… però sabíem que tard o d’hora el vídeo seria el següent gran pas. I aquest moment ha arribat. La publicació de Veo 3, el nou generador de vídeo de Google DeepMind, marca un punt d’inflexió que justifica començar a mirar el vídeo generat per IA com una eina real, no només una promesa de futur. Ja no estem parlant de vídeos borrosos de 2 segons amb formes deformades. Ara comencem a veure vídeos fluids, amb càmera en moviment, amb coherència d’escenes i estètica cinematogràfica. I això obre una nova etapa per a creadors, empreses i qualsevol persona que vulgui explicar una història… sense càmera. Però com sempre, cal separar el que és realment usable del que encara està en fase beta. Fem un repàs clar i pràctic del que pot fer (i què no) la IA de vídeo . Què podem fer amb Veo 3 i altres eines? Veo 3 és el model de vídeo més avançat que ha mostrat Google fins ara. Permet generar clips de fins a un minut de durada, amb resolució 1080p, múltiples estils (cinema, time-lapse, animació, etc.) i una fluïdesa sorprenent. Però no és l’únic. Altres plataformes com Runway Gen-3, Pika Labs o Luma Dream Machine també estan mostrant un salt qualitatiu notable. Aquestes eines permeten: Generar vídeos a partir de text (“una ciutat futurista enmig d’un bosc tropical”). Transformar imatges estàtiques en seqüències animades. Fer estilitzacions o interpolacions entre fotogrames. Ampliar vídeos reals amb efectes o continuacions. És a dir, començar a construir vídeo com si fos disseny gràfic. Amb paraules, idees, estils. I això comença a ser un canvi radical. Tot i així estem “en construcció” i hi ha coses que comencen a tenir sentit i d’altres que encara cal millorar. Què funciona bé avui? Quines són les funcionalitats “acceptables” i que si les encarreguem a aquestes eines no ens decebran? Veiem uns exemples. Clips curts i visuals: vídeos de 5 a 15 segons amb una estètica cuidada, fons atractius, moviments de càmera realistes i bon control de la llum. Estils artístics o abstractes: quan no cal una fidelitat realista, la creativitat visual vola. Veo, Runway o Pika permeten crear vídeos tipus animació, collage o “moodboard” molt impactants. Vídeo com a suport de contingut: per il·lustrar idees en vídeos de presentació, storytelling digital, xarxes socials o música, aquests clips són un recurs ràpid i barat. Complementar produccions reals: es poden generar fons, transicions o elements decoratius per combinar amb vídeo gravat. Què encara no funciona (massa) bé? Però, com deia el poeta, tot està per fer i tot és possible, així que hi ha sol·licituds que encara no estan prou treballades per donar un resultat coherent: Narrativa complexa: costa fer vídeos amb estructura narrativa. Els personatges no mantenen coherència, ni l’estètica, ni les accions entre escenes. És més fàcil fer un tràiler que una història. Expressions humanes realistes: les cares, gestos i detalls encara cauen en la zona incòmoda del “quasi, però no prou”. Algunes vegades és fascinant, altres una mica inquietant. Control de moviments i transicions: tot i que millora, encara és difícil aconseguir seqüències controlades: comença amb una escena i acaba en una altra totalment diferent, sense avís. Relació cost/eficiència: els models més avançats encara són privats o cars, i generar vídeos amb resolució alta i coherència pot portar minuts (o hores) i molts recursos. Tot això ho comento mentre escric aquest article, però potser la setmana vinent, he de començar a esborrar temes de la llista, perquè els nous models aviat (si no ja) em faran quedar malament… Llavors… ja puc fer servir vídeo per a la meva empresa o projecte? Depèn. Però la resposta curta és: sí, si saps què vols i què esperar. Per exemple: Si vols fer vídeos per xarxes socials, reels, tiktoks o presentacions visuals, aquestes eines són perfectes per crear escenes d’impacte ràpidament. Si ets una agència o freelance creatiu, pots començar a oferir serveis visuals nous sense càmeres ni rodatges. Si tens una idea per a un vídeo i no tens pressupost, pots fer prototips visuals que transmetin el to o l’estil. Si ets educador, formador o divulgador, pots enriquir els teus materials amb visualitzacions úniques. El que no pots fer (encara) és confiar-hi per produccions llargues, vídeos d’empresa corporatius o documentals.  L’aparició de Veo 3 i la millora general de les eines de vídeo per IA ens diuen una cosa clara: ja ha començat la nova era de la creació audiovisual assistida per IA. No substituirà la producció professional, però pot canviar completament com pensem el contingut visual, com el generem i com el distribuïm. Com tot canvi profund, no és immediat ni màgic, però és inevitable. I potser, d’aquí molt poc, fer un vídeo serà tan senzill com escriure un paràgraf, mes o menys llarg, però un paràgraf!

La nova era del vídeo generat per IA: què pot fer avui i què no Llegeix més »

Què pot fer i què no pot fer (encara) la IA multimodal?

Temps de lectura: 3 minutsSi portes temps provant GPT-4o, Gemini o Claude, segurament ja t’ha passat: li passes una foto, li parles, li demanes que et respongui amb veu i et meravella… però també et desespera. Perquè no sempre entén bé, a vegades respon amb informació genèrica o directament s’inventa el que veu. La IA multimodal ha avançat moltíssim, però encara hi ha una gran distància entre el que promet i el que pot fer de manera fiable cada dia. I no passa res, és part del procés. Per això avui volem posar una mica de llum sobre què és capaç de fer bé la IA multimodal i quines coses encara estan “a mig fer”. Què pot fer bé la ia multimodal (avui mateix) La bona notícia és que hi ha aplicacions que ja funcionen força bé i poden aportar valor real, tant a nivell personal com professional. Veiem  Llegir i entendre imatges senzilles : Els models com GPT-4o o Claude poden descriure amb bastant precisió imatges clares: gràfics, pantalles, esquemes, objectes, etc. És molt útil per interpretar dades visuals o ajudar en accessibilitat.  Mantenir una conversa per veu fluida: Els nous models són capaços de mantenir converses en temps real amb to natural, reconeixent emocions i matisos. GPT-4o, per exemple, sorprèn pel seu to humà i la seva capacitat de resposta.  Resumir i extreure informació de documents visuals: Pots passar-li una captura d’un PowerPoint o un fragment d’un PDF, i fer-li preguntes sobre el contingut. No sempre és perfecte, però funciona molt bé per contextos coneguts i estructurats.  Interpretar dades multimodals de forma integrada: La força real és que pot entendre text, imatge i veu en un mateix context. Pots parlar-li d’una imatge mentre l’està mirant i et respon contextualment. Això és nou, i és molt potent. Què encara no pot fer (del tot bé) Aquí és on cal una mica de paciència i realisme. Aquestes funcionalitats encara tenen moltes limitacions:  Entendre imatges complexes o amb molt soroll visual: Escenes amb molts elements, text petit o contextos abstractes (com una foto d’una classe amb molts estudiants o un mapa complex) poden confondre el model o portar-lo a donar respostes vagues o incorrectes.  Raonar amb imatges i dades combinades de forma precisa : Si li passes una taula amb números i li demanes una anàlisi detallada, pot fallar. El raonament matemàtic o estadístic encara no és consistent, i les respostes poden ser poc fiables.  Interaccions multimodals en temps real 100% fluïdes :Tot i que es parla molt del “temps real”, la realitat és que encara hi ha latències, talls, i respostes que triguen. La fluïdesa total (com si fos una conversa humana amb visualització constant) encara no hi és.  Respostes completament veraces i precises :Com qualsevol model generatiu, pot inventar dades (“hallucinations”) o interpretar malament el que veu o escolta. Sobretot quan les preguntes són obertes o ambigus. El risc de confondre potencial amb realitat El gran repte d’aquesta etapa és que els vídeos promocionals són molt millors que l’experiència real. I això pot portar a frustracions, especialment en entorns professionals que esperen una resposta fiable cada vegada. Però això no vol dir que no siguin útils. Vol dir que cal entendre molt bé el context, els límits i els usos adequats. Per exemple, un assistent multimodal és ideal per ajudar a navegar una web complexa o entendre una gràfica, però no és bona idea fer-lo servir per prendre decisions crítiques sense supervisió. Cap on evoluciona tot això? Els pròxims mesos veurem millores ràpides en: Exactitud visual: millor reconeixement de detalls i context d’imatge Control de la veu: to, pauses, emoció més realistes i adaptatius Temps de resposta: converses més fluïdes i menys temps d’espera Integració amb aplicacions reals: podran actuar sobre sistemes, no només parlar I, a mitjà termini, veurem agents multimodals autònoms capaços no només d’interpretar informació diversa, sinó de fer accions concretes dins entorns empresarials, operatius o creatius. La multimodalitat en IA no és ciència ficció, però tampoc és màgia. És una realitat amb molt potencial que ja comença a ser útil, però que encara té molt recorregut per fer. Si saps què li pots demanar (i què no), pots començar a aprofitar-la ara mateix. Però si vols que et resolgui la vida com a “siri del futur”, encara hauràs d’esperar una mica. Al final, la clau està en l’equilibri: aprofitar el que funciona, detectar el que falla, i continuar explorant com aquesta nova forma d’interacció amb la tecnologia ens pot ajudar a crear productes i serveis molt més humans.

Què pot fer i què no pot fer (encara) la IA multimodal? Llegeix més »

Com la IA multimodal canviarà les interfícies digitals

Temps de lectura: 3 minutsHi ha una pregunta que em fan sovint, últimament: “Tots aquests models nous, com el GPT-4o o el Gemini, canviaran la manera com fem apps o webs?” La meva resposta és clara: sí, i de manera profunda. Amb l’arribada de la IA multimodal, les interfícies digitals tradicionals tenen els dies comptats tal i com les coneixem. Estem entrant en una nova etapa on la interacció amb la tecnologia ja no es basa només en fer clics o omplir formularis, sinó en parlar, mostrar, assenyalar, escoltar, interpretar… tot alhora. Una mica d’història: com hem interactuat fins ara Durant dècades, la relació amb la tecnologia ha passat per interfícies gràfiques estàtiques: menús, botons, camps de text i una lògica molt clara de pas a pas. Fins i tot quan van aparèixer els primers assistents com Siri o Alexa, les interaccions eren limitades: preguntes senzilles, poques capacitats, i sense context multimodal. Era útil, però no gaire flexible ni natural. Ara, amb la IA multimodal, això comença a trontollar. Per què? Què passa quan l’IA pot veure, escoltar i parlar? Quan un model pot processar text, imatge, veu i vídeo de manera combinada, el que tenim ja no és un formulari intel·ligent. És un interlocutor digital. I això ho canvia tot. Alguns exemples reals: En lloc d’omplir un formulari, pots explicar el que necessites parlant o mostrant una imatge. En comptes de llegir una ajuda en línia, pots preguntar per veu i rebre una explicació personalitzada amb imatges i exemples. En una app mèdica, pots fer una foto a un informe i preguntar què vol dir. En una eina d’aprenentatge, pots combinar vídeos, preguntes orals i documents PDF en una sola sessió interactiva. Aquest tipus d’interacció no només és més còmoda, sinó que acosta la tecnologia a molta més gent, incloent-hi persones amb dificultats de lectura, de visió o amb menys habilitats digitals. El final de les interfícies clàssiques? No, però sí una transformació No desapareixeran demà mateix, els botons i els menús, però començarem a veure aplicacions que es dissenyen pensant en la conversa, no en el clic. Ara apareix el concepte de “Dissenyar per a la IA multimodal”, i què significa? Doncs és força senzill: Reduir la fricció: menys passos per fer una acció, més intuïció. Acceptar múltiples entrades: la persona pot parlar, escriure o mostrar i l’aplicació ha d’entendre-ho. Context constant: les apps han de recordar allò que s’ha dit o mostrat abans, no començar de zero cada vegada. Resposta rica: l’output pot ser text, veu, gràfics, animacions o, fins i tot, accions directes. És una oportunitat de repensar completament la UX i el producte: de deixar de crear interfícies per als humans adaptant-se a les màquines i començar a crear màquines que s’adaptin als humans. I per a les empreses, què implica tot això? Si tens una app, una eina interna o un servei digital, la pregunta no és si t’afectarà, sinó quan i com. Alguns escenaris que ja estem veient: Empreses que afegeixen assistents multimodals interns per consultar dades, revisar documents i fer gestions sense navegar per 10 pantalles. Plataformes de formació que permeten fer preguntes orals sobre vídeos o documents, amb respostes personalitzades en temps real. Eines de suport que combinen xatbots amb visió per entendre captures de pantalla o documents enviats pel client. La bona notícia és que no cal començar de zero. Les eines com l’API de GPT-4o o l’SDK de Gemini permeten afegir aquestes funcionalitats sobre sistemes ja existents, fent una evolució progressiva. Cap a on anem En els pròxims mesos i anys, veurem créixer el concepte d’aplicació sense interfície fixa, on el canal principal pot ser la veu, la càmera o, fins i tot, una combinació contínua de senyals. On el context i la conversa seran la nova interfície. Per als product managers, dissenyadors, desenvolupadors i equips digitals en general, això és una oportunitat única per reimaginar el producte, oferir una millor experiència i, alhora, arribar a nous públics. La IA multimodal no només és un avanç tecnològic: és una nova manera de pensar les interfícies. I com tot bon canvi profund, no només canvia el com… també canvia el perquè. Seguirem aquest tema amb atenció, perquè realment promet!

Com la IA multimodal canviarà les interfícies digitals Llegeix més »

Les IA Multimodals: una guia pràctica.

Temps de lectura: 3 minutsQuè vol dir realment que una IA sigui multimodal? Fa unes setmanes, parlant amb un client que volia integrar un assistent d’IA en una aplicació, em va dir: “vull que sigui multimodal, com el GPT-4o, que he llegit que veu, parla i ho fa tot”. Vaig somriure i li vaig respondre: “ok, però… saps exactament què vol dir això?”. I aquí va començar una conversa que crec que molts estem tenint aquests dies, dins i fora del món tècnic. Perquè sí, la IA multimodal ja és aquí. Però, què vol dir exactament aquest concepte? I per què és tan rellevant ara? Una definició ràpida i clara Quan diem que una IA és multimodal, ens referim a la seva capacitat d’entendre i generar informació en diversos formats alhora: text, veu, imatge, vídeo, codi… I fer-ho d’una manera coherent i integrada. Per exemple: Si li passes una imatge d’un plat i li preguntes “és apte per a celíacs?”, t’hauria d’entendre. Si li mostres un gràfic i li dius “resumeix-me què mostra”, hauria de poder fer-ho. Si parles amb veu i la IA et respon amb veu, text i referències visuals, estàs davant d’una experiència multimodal real. No és només fer moltes coses, sinó combinar modalitats per entendre millor el context i oferir respostes més naturals i útils. D’on venim i per què això és nou Fins ara, la majoria de sistemes d’IA eren unimodals: entrenats per treballar només amb text, només amb imatge, només amb veu… Alguns sistemes feien “trampes” unint diferents models (per exemple, un per reconèixer veu i un altre per generar text), però no era una comprensió integrada. El canvi ha vingut amb models com: GPT-4o (OpenAI), que pot llegir text, mirar imatges, escoltar veu i parlar amb to i emoció. Gemini 1.5 (Google), que combina entrada de documents, imatges, vídeos i més en una sola consulta. Claude 3 (Anthropic), que entén arxius complexos i contextos visuals en paral·lel al text. Aquests nous models ja neixen amb arquitectura multimodal, i això els dona una fluïdesa i versatilitat molt superior. Per què és tan rellevant ara mateix? Perquè obre les portes a interaccions molt més naturals i potents entre humans i màquines. Fins ara, quan interactuàvem amb una IA, havíem de pensar com ella: escriure les consultes amb cura, estructurar els inputs, adaptar-nos al seu format. Amb la multimodalitat, és l’IA qui s’adapta a nosaltres. I això transforma completament la manera com dissenyem aplicacions, eines i serveis: A l’empresa, pots tenir un assistent que entén informes, documents, taules i àudios interns. A l’educació, pots crear materials interactius on la IA explica una imatge mentre respon preguntes en veu. A la salut, pots interpretar una radiografia mentre es conversa amb el metge o el pacient. És una nova manera de “parlar” amb la tecnologia, molt més propera a la nostra forma humana d’entendre el món. Els límits també existeixen També cal ser realistes. La multimodalitat encara té límits: No tots els models poden generar multimodalitat (alguns només entenen però no generen imatges o veu). Els costos computacionals són més alts, i això pot limitar l’accés a aquestes funcionalitats. L’experiència d’usuari encara s’ha de polir: a vegades la veu triga, la imatge no es carrega bé o el context es perd. Però malgrat això, el camí és clar i imparable. Estem veient l’inici d’una nova fase on la IA no només ens entén millor, sinó que pot entendre el món com nosaltres: amb tots els sentits digitals possibles. I ara què? En els pròxims articles explorarem com aquesta capacitat multimodal està transformant sectors concrets, com afecta el disseny de productes digitals i quines oportunitats obre per a empreses que volen innovar, millorar serveis o automatitzar processos complexos. Però per començar, quedem-nos amb aquesta idea: la multimodalitat no és una funció addicional, és un canvi de paradigma. Ja no estem parlant només amb màquines que llegeixen i escriuen. Ara també veuen, escolten, assenyalen i entenen. I això ho canvia tot.

Les IA Multimodals: una guia pràctica. Llegeix més »

Agents clàssics vs. agents basats en LLM: dues maneres de pensar

Temps de lectura: 2 minutsCom tots ja sabeu, el món dels agents d’intel·ligència artificial ha viscut una revolució amb l’aparició dels LLMs (Large Language Models). Però abans que aquests models entressin en escena, ja existien agents d’IA que funcionaven amb regles i sistemes més tradicionals. Contrastem aquests agents clàssics amb els agents basats en LLM, per entendre com pensen, com actuen i per què aquests nous agents estan transformant la forma com entenem la IA. Què és un agent clàssic? Els agents clàssics són sistemes dissenyats per operar en entorns definits mitjançant regles, lògica i planificació programada. Característiques: Segueixen regles fixes (IF… THEN…) Utilitzen planificació formal (com A* o algoritmes heurístics) Són predictibles i deterministes Funcionen bé en entorns acotats i amb dades estructurades Exemple: Un robot que navega per un magatzem seguint una ruta predefinida optimitzada per evitar obstacles. Què és un agent basat en LLM? Els agents basats en LLMs (com GPT-4, Claude o DeepSeek) poden entendre llenguatge natural, raonar i prendre decisions a partir de contextos no estructurats. Aquests agents actuen com una mena de “cervell flexible” que pot adaptar-se a una gran varietat de situacions. Característiques: Entenen i generen llenguatge natural Aprenen de grans volums de dades Són probabilístics i adaptatius Poden raonar en temps real, fer preguntes, planificar i auto-reflexionar Exemple: Un assistent digital que llegeix documents, extrau informació i escriu un resum adaptat al teu estil i objectius. Diferències clau Aspecte Agent clàssic Agent LLM Entrades Dades estructurades Llenguatge natural, textos, APIs Decisió Regles i lògica programada Raonament estadístic i context Adaptabilitat Baixa Molt alta Coneixement Tancat i explícit Amplíssim i implícit Context Limitat Pot gestionar contextos llargs i canviants Creativitat Inexistent Pot improvisar, sintetitzar i adaptar Quin és millor? Depèn de l’ús. Agents clàssics són ideals per a entorns molt definits i predictibles, on la fiabilitat és clau (per exemple, un sistema de control industrial). Agents LLM brillen en entorns oberts, canviants i amb dades no estructurades, com atenció al client, assistents personals, automatització intel·ligent o consultoria d’informació. En molts casos, la millor opció és combinar-los: fer servir agents LLM per la part flexible i natural, i agents clàssics per a l’execució rigorosa i controlada. Cap on va el futur? La tendència clara és cap a agents més híbrids i capaços: LLMs que aprenen a controlar sistemes amb regles. Agents clàssics que incorporen mòduls de llenguatge. Sistemes multi-agent on cada tipus d’agent té un rol específic (ja en vaig parlar en l’article anterior!). El que abans era només lògica, ara és una conversa constant entre raonament i acció. Els agents clàssics ens han portat molt lluny en entorns estructurats. Però els agents basats en LLM han obert una nova era d’intel·ligència adaptativa, capaç de gestionar informació complexa, parlar amb humans i actuar amb criteri. El futur de la IA no és un o l’altre, sinó una col·laboració intel·ligent entre lògica i llenguatge, entre regles i raonament.

Agents clàssics vs. agents basats en LLM: dues maneres de pensar Llegeix més »

Quan els agents col·laboren: el poder dels sistemes multi-agent

Temps de lectura: 2 minutsFins ara hem parlat d’agents d’IA capaços de percebre, pensar i actuar de forma autònoma. Però què passa quan no hi ha un únic agent, sinó diversos col·laborant entre si per assolir un objectiu comú? Això és el que anomenem un sistema multi-agent (MAS, per les seves sigles en anglès). Aquest enfocament s’inspira en equips humans: cada agent té un rol, unes habilitats i una responsabilitat, i junts poden resoldre problemes molt més complexos que un agent en solitari. Què és un sistema multi-agent? Un sistema multi-agent és una arquitectura on diversos agents d’IA treballen de forma coordinada, cadascun amb una funció específica, compartint informació i prenent decisions conjuntament (o de forma distribuïda). Per exemple, en un projecte de recerca, un agent pot buscar informació, un altre pot resumir-la, un tercer pot verificar la font i un quart pot generar l’informe final. Com es comuniquen? Tot això està molt bé, pero cal coordinació i comunicació oi?  Com es fa tot això? Doncs els agents es poden comunicar mitjançant: Missatges en llenguatge natural (si utilitzen LLMs) Protocols d’intercanvi d’estat i accions (en sistemes clàssics) Compartint memòria comuna o accedint a un entorn centralitzat Per tant, una arquitectura típica de sistema multi-agent inclou: Un planificador principal (opcional) Agents especialitzats per tasques concretes Un mecanisme de coordinació o supervisió (pot ser automàtic o semidirigit) Avantatges dels sistemes multi-agent Inicialment pinta molt bé , quines son les avantatges doncs? Especialització: Cada agent pot fer una tasca molt bé, sense haver de ser generalista. Escalabilitat: Es poden afegir nous agents fàcilment si cal ampliar capacitats. Robustesa: Si un agent falla, els altres poden continuar treballant. Paral·lelisme: Diverses tasques poden executar-se simultàniament. Exemples d’aplicació reals Deixem la teòria i pasem a la pràctica doncs, com ho apliquem? Automatització empresarial: Si muntem un sistema per automatizar processos industrials podem fer un agent que llegeix factures, un altre les valida, un tercer actualitza el CRM i finalment, un altre redacta notificacions al client. Recerca científica assistida:  O ho planteixem d’un altre manera per recerca: un agent cerca estudis, un altre resumeix dades clau, un altre genera hipòtesis i per acaqbar, un quart en fa anàlisi crítica. Assistents personals avançats:  I en el terreny pèrsonal, podem tenir un agent que planifica una reunió, un altre que reserva espais, un altre s’encarrega de la logística i per rematar-ho un altre envia resums i seguiments. Multi-agent vs. un sol agent gegant Una de les grans preguntes és: no seria millor tenir un agent molt potent que ho pugui fer tot? No sempre. Els sistemes multi-agent tenen avantatges com: Modularitat: més fàcils de mantenir i escalar Menys costos computacionals per agent Millor control i supervisió I en entorns complexos, distribuir la responsabilitat ajuda a evitar colls d’ampolla i millorar la traçabilitat. Plataformes que ja ho estan aplicant Llistem exemples on ja es pot veure com funcionen: CrewAI: permet definir equips d’agents amb rols i objectius col·laboratius AutoGen (Microsoft): enfocament de multi-agent amb LLMs col·laborant per fer codificació i raonament complex LangGraph: grafs de decisions entre agents amb estats compartits OpenAgents: concepte obert on l’usuari pot orquestrar agents independents amb objectius compartits Els sistemes multi-agent són com equips de treball digitals: especialitzats, coordinats i flexibles. Permeten abordar problemes que un sol agent no podria resoldre amb eficàcia, i representen un pas natural cap a entorns d’IA més modulars, escalables i realistes. Amb el creixent ús de LLMs, la col·laboració entre agents intel·ligents es perfila com una de les grans tendències de l’IA aplicada. No es tracta només de tenir un agent més intel·ligent, sinó de tenir agents que saben treballar junts.

Quan els agents col·laboren: el poder dels sistemes multi-agent Llegeix més »

Aplicacions reals d’agents d’IA en l’empresa: més enllà dels xatbots

Temps de lectura: 4 minuts  Els agents d’IA no només serveixen per mantenir converses o automatitzar tasques senzilles. Avui dia, els agents intel·ligents estan revolucionant una gran varietat de sectors, des de l’automatització de processos fins a l’optimització de la presa de decisions estratègiques. En aquest article parlem de com els agents d’IA s’estan utilitzant per millorar l’eficiència i la competitivitat a les empreses. En quins processos els podem aplicar? Veiem-ho. Automatització de processos empresarials Un dels camps on els agents d’IA han fet un salt més gran és en l’automatització de processos. Ja no parlem només de robotització de tasques repetitives, sinó de processos més complexos que impliquen ràpides decisions de negoci. Exemples d’aplicació: Gestió de factures i pagaments: agents que recullen dades de factures, les validen automàticament, les validen contra bases de dades i processen pagaments. Automatització de la cadena de subministrament: agents que analitzen les dades de l’inventari, preveuen la demanda i fan recomanacions per optimitzar les comandes i els enviaments. Gestió de recursos humans: agents que gestionen el reclutament, avaluant CVs, responent preguntes de candidats i organitzant entrevistes.   Aquestes aplicacions poden reducir costos, augmentar la productivitat i permetre als empleats centrar-se en tasques més estratègiques. Millora de la presa de decisions Els agents d’IA no només fan automatitzacions, també són molt útils per ajudar les empreses a prendre decisions més informades. Utilitzant anàlisi de dades massives i modelització predictiva, poden ajudar a preveure tendències i generar estratègies basades en dades. Exemples d’aplicació: Anàlisi de mercat i clients: agents que analitzen les dades de vendes, tendències del mercat i interaccions amb els clients per proporcionar informes predictius sobre comportaments futurs. Gestió financera: agents que analitzen el mercat financer per detectar oportunitats d’inversió o per gestionar riscos. Personalització de l’oferta: a través de l’anàlisi del comportament del client, els agents poden personalitzar ofertes i crear estratègies de màrqueting individualitzades.   Aquests agents són capaços de prendre decisions ràpides i molt més informades que un ésser humà, ajudant-los a ma Assistència al client 24/7 Els agents d’IA són essencials en el món de l’atenció al client, on poden proporcionar un servei constant i millorar l’experiència de l’usuari. Com? Exemples d’aplicació: Xatbots intel·ligents: responen a preguntes, resolen problemes comuns i redirigeixen problemes més complexos als éssers humans. Amb el temps, aprenen del comportament dels usuaris i milloren les seves respostes. Assistents virtuals per a empreses: agents més avançats que no només responen preguntes, sinó que també poden gestionar cites, fer recomanacions o fins i tot gestionar tasques administratives internes. Atenció telefònica: agents de veu que gestionen trucades de servei al client, responen preguntes freqüents i poden processar sol·licituds de manera autònoma.   Aquesta aplicació millora l’eficiència operativa i permet a les empreses oferir serveis les 24 hores del dia, reduint els temps d’espera i augmentant la satisfacció del client. Optimització i personalització de processos de màrqueting Els agents d’IA poden optimitzar i personalitzar les estratègies de màrqueting de manera que les empreses puguin arribar millor al seu públic objectiu i adaptar les seves campanyes a les necessitats canviants dels clients. Exemples d’aplicació: Segmentació de clients: agents que analitzen el comportament dels consumidors, classifiquen els clients en grups i els ofereixen contingut personalitzat (correus electrònics, publicitat, recomanacions de productes). Campanyes publicitàries automatitzades: agents que dissenyen i llançen campanyes publicitàries a través de múltiples canals de manera automatitzada, optimitzant els pressupostos i millorant l’eficàcia. Optimització de preus dinàmics: Agents que ajusten els preus en temps real segons la demanda, les preferències del consumidor i les condicions del mercat.   Aquesta personalització massiva permet a les empreses connectar-se amb els seus clients de manera més eficaç i oferir-los contingut i productes més rellevants, millorant la conversió i la fidelització. Seguretat cibernètica La seguretat cibernètica és un altre camp on els agents d’IA tenen un paper fonamental. A mesura que els ciberatacs són més sofisticats, la detecció automàtica de vulnerabilitats i amenaces és més crítica que mai. Exemples d’aplicació: Monitorització i detecció de fraus: agents que analitzen patrons de dades en temps real i identifiquen activitats sospitoses (fraus de targeta de crèdit, intrusions de xarxes, etc.). Gestió de riscos: agents que fan auditories de seguretat automàtiques per detectar vulnerabilitats i proposar solucions de millora. Respostes automàtiques: agents que poden reaccionar immediatament davant d’un atac, bloquejant accions malicioses i limitant el dany.   Aquestes aplicacions ajuden a protegir les empreses contra amenaces cada cop més sofisticades, millorant la seva seguretat sense necessitat d’una supervisió constant. En resum, hem vist com els agents d’IA estan transformant el món empresarial, i no només amb tasques simples, com l’atenció al client. Des de l’automatització de processos interns fins a l’optimització de les decisions estratègiques, els agents intel·ligents ajuden les empreses a millorar l’eficiència, reduir costos i augmentar la competitivitat. Aquestes aplicacions, que semblaven ciència ficció fa uns anys, són ara una realitat que canvia radicalment el funcionament de les organitzacions modernes. Els agents d’IA són aquí per quedar-se i continuaran creant oportunitats per millorar en pràcticament tots els àmbits del negoci. En seguirem parlant en propers articles!

Aplicacions reals d’agents d’IA en l’empresa: més enllà dels xatbots Llegeix més »

Com funciona un agent d’IA? Arquitectura i components clau

Temps de lectura: 2 minuts  Els agents d’intel·ligència artificial no són només interfícies intel·ligents que responen preguntes. Són sistemes autònoms capaços de raonar, decidir i actuar. Però… com estan construïts realment? Quins components fan possible que funcionin? Analitzarem l’arquitectura bàsica d’un agent d’IA, posant especial èmfasi en els agents moderns basats en models de llenguatge (LLMs) i les plataformes que els donen suport. Parlarem dels blocs bàsics, el bucle de funcionament, les arquitectures més populars i les eines que pot fer servir un agent. Els blocs bàsics d’un agent Tot agent funcional sol estar format per quatre grans components: 1. L’observació o percepció És la capacitat de recollir informació del món exterior. Pot venir de: Entrades de text (converses amb usuaris…) Dades d’un sistema (APIs, fitxers, sensors) Resultats d’eines (navegació, cerca, càlculs) 2. El raonament i presa de decisions Aquí és on entra en joc la intel·ligència: LLMs com GPT o Claude processen les dades i avaluen opcions. L’agent decideix què fer a continuació (resoldre, buscar, preguntar més…). 3. L’acció El sistema actua segons el pla: Crida una eina externa (una API, un buscador, un codi). Escriu una resposta. Executa una acció en una interfície (automatització). 4. La memòria Els agents poden tenir: Memòria a curt termini: Manté el context de la conversa o acció actual. Memòria a llarg termini: Recorda dades persistents (preferències, interaccions passades, informació rellevant per a l’usuari).   El bucle de funcionament Els agents segueixen un cicle iteratiu que s’anomena sovint Think → Act → Observe: Think: Processen la informació i decideixen què fer. Act: Fan una acció (busquen, pregunten, calculen…). Observe: Analitzen el resultat de l’acció per decidir el següent pas. Aquest bucle es pot repetir diverses vegades fins que s’arriba a una resposta final o a un objectiu complert. Arquitectures populars: LangChain, Auto-GPT i més Hi ha plataformes que faciliten la construcció d’aquests agents: LangChain: Permet orquestrar LLMs amb eines, memòria i fluxos lògics. Ideal per a agents conversacionals complexos. Auto-GPT / AgentGPT: Agents que s’autogestionen per resoldre tasques amb mínim d’input humà. CrewAI o MultiOn: Orientades a la col·laboració entre agents o l’automatització personal. Aquestes arquitectures combinen els components anteriors amb estratègies avançades de planificació, reflexió i ús d’eines. Quines eines pot fer servir un agent? Els agents poden fer servir una varietat d’eines externes: Cercadors (Google, DuckDuckGo, Bing) Codificadors i intèrprets de codi (Python, JavaScript) Bases de dades i APIs pròpies d’empresa Calculadores, calendaris, traductors, etc. El fet que un agent pugui combinar la generació de text amb accions sobre entorns digitals fa que esdevingui una peça clau en l’automatització intel·ligent. Un agent d’IA és molt més que un model de llenguatge: és una estructura modular, amb capacitats de percebre, raonar, actuar i aprendre. La seva arquitectura permet construir sistemes adaptatius, capaços de treballar en entorns complexos i dinàmics. A mesura que avancem cap a una IA més pràctica i autònoma, entendre com funcionen per dins aquests agents és essencial per aprofitar tot el seu potencial. En seguiré parlant en propers articles!

Com funciona un agent d’IA? Arquitectura i components clau Llegeix més »

OpenAI adopta l’estàndard d’Anthropic: un pas clau cap al futur dels agents intel·ligents

Temps de lectura: 3 minutsAquesta setmana m’ha impactat especialment una notícia que, si bé pot passar desapercebuda per a molts, marca un abans i un després en el desenvolupament d’agents d’IA: OpenAI ha decidit adoptar el mateix estàndard que fins ara utilitzava el seu rival Anthropic per connectar models amb dades i eines externes. Per a mi, aquest moviment és molt més que una qüestió tècnica. És el primer gran pas real cap a la creació d’un ecosistema d’agents intel·ligents interoperables, i això tindrà un impacte directe en múltiples indústries. Especialment en el món dels negocis, on l’automatització intel·ligent és clau, però també en àrees com el Travel Tech, que ja fa temps que busquen formes de fer més eficients i personalitzades les seves operacions. Per què és tan important aquest moviment? Fins ara, cada empresa desenvolupava els seus propis connectors, eines i maneres d’enllaçar la seva IA amb el món exterior. Això generava fragmentació, dificultats per a la integració i molta feina duplicada. El fet que OpenAI –que podríem dir que és l’empresa més influent en el panorama de la IA generativa– adopti l’estàndard obert del seu rival directe, és un senyal molt clar: el futur de la IA no és en models aïllats, sinó en agents que col·laboren, s’integren i s’orquestren amb facilitat. Aquest tipus d’estàndard permet que diferents models puguin fer servir les mateixes eines, connectar-se a les mateixes fonts de dades i actuar en entorns compartits. Dit d’una altra manera: obre la porta a una nova generació d’agents d’IA, més útils, més adaptables i més fàcils de desplegar en entorns empresarials reals. Què significa això per al món dels negocis? Imagina’t un agent d’IA que no només entén què necessita un client, sinó que pot accedir a sistemes interns com l’ERP, el CRM o la base de dades de productes i prendre decisions en base a aquestes dades en temps real. Aquesta és la promesa dels nous MCP (Modern Customer Platforms) que integren IA: no només conversar, sinó actuar. Amb aquesta estandardització, es pot crear una única interfície d’agents que funcioni tant amb GPT-4o com amb Claude 3 o altres models. Això redueix la dependència d’un sol proveïdor, facilita les proves entre tecnologies i obre una nova etapa de modularitat i flexibilitat per a les empreses. I en el món del Travel Tech, què pot suposar? El sector del turisme és ideal per ser “agentificat”. Aquí tens alguns exemples pràctics de com això pot canviar les coses: Planificació intel·ligent de viatges: un agent que llegeix preferències de l’usuari, accedeix a sistemes de reserves, verifica la disponibilitat d’activitats i genera itineraris personalitzats en qüestió de segons. Atenció al client contextual: un agent que no només respon preguntes, sinó que sap si un vol s’ha cancel·lat, quina habitació està assignada o si el client té punts acumulats. Automatització d’operacions: des de canvis d’última hora fins a processos interns de reassignació de recursos, els agents poden actuar com una primera capa d’intel·ligència operativa. El fet que aquests agents puguin utilitzar un estàndard comú i ser construïts sobre infraestructures diverses fa que siguin molt més viables per a empreses mitjanes i petites, que podran accedir a solucions d’alt valor sense dependre d’un únic ecosistema tancat. La decisió d’OpenAI de sumar-se a l’estàndard impulsat per Anthropic podria semblar un detall tècnic, però és en realitat un gest de maduresa i visió d’ecosistema. Significa reconèixer que la innovació real no passa només per fer el model més gran, sinó per fer que els models siguin útils i fàcilment integrables al món real. Per als que treballem en la intersecció entre tecnologia, automatització i negocis (i molt especialment en sectors com el turisme), aquest és un pas esperançador. És una mostra que la IA està passant de ser un experiment a convertir-se en una infraestructura compartida, oberta i útil per a tothom. El futur no serà d’un sol model dominant, sinó d’agents capaços d’entendre el món i actuar-hi, construïts sobre estàndards oberts i adaptats a les necessitats de cada negoci. Aquest moviment és només l’inici.

OpenAI adopta l’estàndard d’Anthropic: un pas clau cap al futur dels agents intel·ligents Llegeix més »

Desplaça cap amunt