Gemini 2.0: primeres impressions després d’unes setmanes d’ús

Temps de lectura: 2 minuts

Durant unes setmanes he tingut l’oportunitat de provar Gemini 2.0, el nou model d’IA de Google, que promet redefinir el mercat. Aquesta experiència m’ha servit per comprovar quins són els seus punts forts, els seus límits i com es compara amb dos grans competidors del moment: GPT-4o d’OpenAI i Claude 3.5 d’Anthropic. Si estàs pensant en utilitzar Gemini 2.0 per treball, projectes personals o curiositat, aquí tens una visió pràctica de com es comporta.

Punts forts: per què destaca Gemini 2.0?

Multimodalitat sense fissures: Gemini 2.0 integra text, imatges i vídeos de manera natural. Pots pujar una foto d’un producte, demanar descripcions detallades i generar contingut relacionat. Aquesta funcionalitat és molt més fluida que la de GPT-4o, que encara és menys avançada en aquest aspecte.
Recerca en temps real: Gemini 2.0 inclou de manera nativa capacitats de recerca en temps real, molt útils per respondre a preguntes basades en informació recent. Això el fa més competitiu en entorns dinàmics, com notícies, en comparació amb GPT-4o.
Adaptabilitat del to: Una altra característica destacada és la capacitat d’ajustar el to de les respostes segons la situació, mantenint sempre un nivell de qualitat alt.

Punts febles: encara queda camí per recórrer

Detalls tècnics limitats: En respostes que requereixen molta profunditat, Gemini no aconsegueix arribar al nivell de GPT-4o, que és més consistent en temes tècnics i acadèmics.
Temps de resposta en multimodalitat: Algunes sol·licituds amb imatges o vídeos triguen més temps del que seria ideal, cosa que pot ser un inconvenient en moments de pressió.
Idiomes menys comuns: Tot i que funciona bé amb idiomes principals, no és tan consistent en català o altres llengües menys utilitzades, cosa que GPT-4o gestiona millor.

Comparativa amb els competidors

1. GPT-4o (OpenAI):

Avantatges: Model robust i fiable per tasques tècniques complexes. Excel·leix en respostes acadèmiques i professionals, amb un bon suport per a idiomes minoritaris.
Desavantatges: Limitacions en multimodalitat i menys capacitat d’adaptació al to del contingut.

2. Claude 3.5 (Anthropic):

Avantatges: Excel·lent en explicar conceptes complexos de manera clara i fàcil. Gran rendiment en tasques creatives i col·laboratives.
Desavantatges: Capacitat limitada en treball multimodal i menys precisió en la recerca en temps real.

Per tant podem resumir que la multimodalitat de Gemini supera la dels competidors, però encara queda darrere de GPT-4o en profunditat i de Claude 3 en claredat explicativa.

Gemini 2.0 és una aposta interessant per a aquells que necessiten treballar amb contingut multimodal o busquen eines d’IA capaces d’adaptar-se a diferents contextos. Tot i això, no és ideal per a tasques molt tècniques o per a treballar en idiomes menys comuns, on GPT-4o continua sent més consistent. Si Google manté aquest ritme d’innovació, Gemini pot convertir-se en una eina clau el 2025. Recomano provar-lo si busques una IA pràctica, adaptable i ben enfocada en l’experiència multimodal.