Ejecutar modelos LLM en local sin GPU – Comparativa práctica de modelos

Ejecutar modelos LLM en local sin GPU – Comparativa práctica de modelos

En algunas de las soluciones que desarrollamos en Agentes de IA utilizamos una técnica conocida como RAG (Retrieval Augmented Generation), “Generación Aumentada por Recuperación”. Es una técnica que consiste en añadir contenido relacionado al contexto a la hora de hacer una consulta a un modelo para que este pueda generar su respuesta teniendo en cuenta esa información aportada. Esa contenido extra es aportado por el cliente y generalmente es contenido que el modelo “desconoce”. Aunque en teoría los proveedores con los que trabajamos (OpenAI, Anthropic, Groq) no utilizan los datos enviados por el usuario a través de ...

Leer más