Com funciona un agent d’IA? Arquitectura i components clau

Temps de lectura: 2 minuts

Els agents d’intel·ligència artificial no són només interfícies intel·ligents que responen preguntes. Són sistemes autònoms capaços de raonar, decidir i actuar. Però… com estan construïts realment? Quins components fan possible que funcionin?

Analitzarem l’arquitectura bàsica d’un agent d’IA, posant especial èmfasi en els agents moderns basats en models de llenguatge (LLMs) i les plataformes que els donen suport.

Parlarem dels blocs bàsics, el bucle de funcionament, les arquitectures més populars i les eines que pot fer servir un agent.

Els blocs bàsics d’un agent

Tot agent funcional sol estar format per quatre grans components:

1. L’observació o percepció

És la capacitat de recollir informació del món exterior. Pot venir de:

- Entrades de text (converses amb usuaris…)
- Dades d’un sistema (APIs, fitxers, sensors)
- Resultats d’eines (navegació, cerca, càlculs)

2. El raonament i presa de decisions

Aquí és on entra en joc la intel·ligència:

- LLMs com GPT o Claude processen les dades i avaluen opcions.
- L’agent decideix què fer a continuació (resoldre, buscar, preguntar més…).

3. L’acció

El sistema actua segons el pla:

1. Crida una eina externa (una API, un buscador, un codi).
2. Escriu una resposta.
3. Executa una acció en una interfície (automatització).

4. La memòria

Els agents poden tenir:

- Memòria a curt termini: Manté el context de la conversa o acció actual.
- Memòria a llarg termini: Recorda dades persistents (preferències, interaccions passades, informació rellevant per a l’usuari).

El bucle de funcionament

Els agents segueixen un cicle iteratiu que s’anomena sovint Think → Act → Observe:

Think: Processen la informació i decideixen què fer.
Act: Fan una acció (busquen, pregunten, calculen…).
Observe: Analitzen el resultat de l’acció per decidir el següent pas.

Aquest bucle es pot repetir diverses vegades fins que s’arriba a una resposta final o a un objectiu complert.

Arquitectures populars: LangChain, Auto-GPT i més

Hi ha plataformes que faciliten la construcció d’aquests agents:

LangChain: Permet orquestrar LLMs amb eines, memòria i fluxos lògics. Ideal per a agents conversacionals complexos.
Auto-GPT / AgentGPT: Agents que s’autogestionen per resoldre tasques amb mínim d’input humà.
CrewAI o MultiOn: Orientades a la col·laboració entre agents o l’automatització personal.

Aquestes arquitectures combinen els components anteriors amb estratègies avançades de planificació, reflexió i ús d’eines.

Quines eines pot fer servir un agent?

Els agents poden fer servir una varietat d’eines externes:

Cercadors (Google, DuckDuckGo, Bing)
Codificadors i intèrprets de codi (Python, JavaScript)
Bases de dades i APIs pròpies d’empresa
Calculadores, calendaris, traductors, etc.

El fet que un agent pugui combinar la generació de text amb accions sobre entorns digitals fa que esdevingui una peça clau en l’automatització intel·ligent. Un agent d’IA és molt més que un model de llenguatge: és una estructura modular, amb capacitats de percebre, raonar, actuar i aprendre. La seva arquitectura permet construir sistemes adaptatius, capaços de treballar en entorns complexos i dinàmics. A mesura que avancem cap a una IA més pràctica i autònoma, entendre com funcionen per dins aquests agents és essencial per aprofitar tot el seu potencial. En seguiré parlant en propers articles!