
What Is an NFT? Complete Guide Updated for 2026
Originally published on beltsys.com

What Is DeFi? Complete Guide to Decentralized Finance in 2026
Originally published on beltsys.com

What Is a Token? Complete Guide to Crypto, Blockchain, and AI Tokens in 2026
Originally published on beltsys.com

What Is an NFT? Complete Guide Updated for 2026
Originally published on beltsys.com

What Is DeFi? Complete Guide to Decentralized Finance in 2026
Originally published on beltsys.com

What Is a Token? Complete Guide to Crypto, Blockchain, and AI Tokens in 2026
Originally published on beltsys.com

Subscribe to Beltsys Labs

Subscribe to Beltsys Labs
Share Dialog
Share Dialog
<100 subscribers
<100 subscribers


El fine-tuning de LLMs es una de las técnicas más poderosas — y más malinterpretadas — de la IA en 2026. Cada semana alguien pregunta: "¿debería hacer fine-tuning de mi modelo?" Y la respuesta casi siempre es: "depende." Depende de tu tarea, tus datos, tu presupuesto y tus requisitos de latencia.
Esta guía cubre qué es el fine-tuning, cuándo tiene sentido frente a RAG y prompting, las técnicas que lo hacen accesible (LoRA, QLoRA, DPO), qué modelos elegir en 2026, cuánto cuesta realmente, y qué implicaciones tiene para compliance y privacidad.

El fine-tuning es el proceso de tomar un modelo de lenguaje pre-entrenado (como Llama 3, Mistral o GPT-4) y re-entrenarlo con datos específicos de tu dominio para que se comporte de una forma determinada. Según IBM, el fine-tuning es un subconjunto del transfer learning: aprovechas el conocimiento que el modelo ya tiene y lo adaptas a tu caso de uso.
Analogía: Un LLM pre-entrenado es un médico generalista que sabe de todo. El fine-tuning lo convierte en un cardiólogo — conserva su conocimiento general pero responde con expertise especializado en su área.
Pre-entrenamiento | Fine-tuning |
|---|---|
Entrena desde cero con billones de tokens | Adapta un modelo ya entrenado |
Requiere miles de GPUs durante semanas | Puede hacerse con 1 GPU en horas |
Coste: millones de dólares | Coste: $10-$10.000 (depende del tamaño) |
Conocimiento general | Conocimiento específico del dominio |
Lo hacen OpenAI, Meta, Google | Lo puede hacer cualquier empresa |
Esta es la pregunta que ningún competidor responde de forma completa:
Criterio | Prompting | RAG | Fine-tuning |
|---|---|---|---|
Cuándo usarlo | Tareas genéricas, experimentación | Conocimiento que cambia frecuentemente | Comportamiento específico y estable |
Datos necesarios | Ninguno | Documentos/base de conocimiento | Cientos a miles de pares input-output |
Coste inicial | $0 (API) | $500-5.000 (infra vectorial) | $10-10.000 (GPU) |
Coste recurrente | Alto (tokens por llamada) | Medio (hosting + API) | Bajo (modelo local) |
Latencia | Variable (API) | Mayor (búsqueda + generación) | Menor (modelo optimizado local) |
Privacidad datos |
Regla práctica:
¿Necesitas que el modelo "sepa" información actualizada? → RAG
¿Necesitas que el modelo "se comporte" de una forma específica? → Fine-tuning
¿Necesitas ambos? → RAG + fine-tuning (la combinación más potente)
Entrenamiento supervisado con pares de input-output curados. Ejemplo: le das al modelo 1.000 pares de "pregunta → respuesta ideal" y aprende el patrón.
LoRA no modifica todos los parámetros del modelo — solo entrena "adaptadores" de bajo rango que se añaden a las capas existentes. Reduce la necesidad de GPU/VRAM entre 10x y 100x.
Combina cuantización de 4 bits con LoRA. Permite hacer fine-tuning de modelos de 65B+ parámetros en una sola GPU de consumo (24GB VRAM). Es la técnica que democratizó el fine-tuning.
El método que OpenAI usó para alinear ChatGPT. Entrena un "reward model" basado en preferencias humanas, luego optimiza el LLM para maximizar esa recompensa. Complejo pero efectivo para alineación.
Alternativa más simple a RLHF. No necesita reward model separado — optimiza directamente las preferencias. Menos infraestructura, resultados comparables.
Técnica | Complejidad | GPU necesaria | Mejora |
|---|---|---|---|
SFT | Baja | Media-alta | Comportamiento específico |
LoRA | Baja-media | Baja (10-100x menos VRAM) | Comportamiento + eficiencia |
QLoRA | Media | Muy baja (1 GPU consumo) | Como LoRA, modelos gigantes |
RLHF | Alta | Alta (reward model + policy) | Alineación con humanos |
DPO | Media | Media | Alineación simplificada |
Modelo | Tamaños | Licencia | Diferenciación | Fine-tuning friendly |
|---|---|---|---|---|
Llama 3 (Meta) | 8B, 70B, 405B | Open (con restricciones) | Mejor balance rendimiento/tamaño | ✓✓✓ (ecosistema HuggingFace) |
Mistral | 7B, 8x7B (Mixtral), Large | Apache 2.0 / comercial | Mejor ratio calidad/parámetros | ✓✓✓ (CoffeeBytes caso exitoso) |
DeepSeek | 7B, 67B, V3 | MIT | Fuerte en razonamiento y código | ✓✓ (cuidado: caracteres chinos) |
Qwen (Alibaba) | 7B, 14B, 72B | Apache 2.0 | Fuerte multilingüe, matemáticas | ✓✓ |
Experiencia real de CoffeeBytes: DeepSeek falló (generó caracteres chinos), Llama falló, Mistral 7B fue el que funcionó. La lección: no todos los modelos responden igual al fine-tuning. Prueba siempre 2-3 antes de comprometerte.
Plataforma | GPU | Coste | Límite | Ideal para |
|---|---|---|---|---|
Google Colab | T4 (15GB) | Gratis | Sesiones limitadas | Experimentación, tutoriales |
Kaggle | P100/T4 | Gratis | 30h/semana | Fine-tuning modelos 7B |
Lambda Labs | A100 (80GB) | $1.10/h | Por uso | Fine-tuning serio |
RunPod | A100, H100 | Desde $0.39/h | Por uso | Producción |
Vast.ai | Variable |
Para un fine-tuning básico de un modelo 7B con LoRA: 2-4 horas en Google Colab gratis. Para producción con modelo 70B en QLoRA: 4-8 horas en Lambda Labs (~$5-9).
Enfoque | Coste inicial | Coste mensual | Privacidad | Personalización |
|---|---|---|---|---|
API (GPT-4, Claude) | $0 | $500-5.000+ (tokens) | Datos van a la nube | Baja (prompt only) |
RAG + API | $500-3.000 | $300-2.000 (API + hosting) | Documentos locales | Media |
Fine-tuning (7B, LoRA) | $10-100 (GPU) | $50-200 (hosting modelo) | 100% on-premise | Alta |
Fine-tuning (70B, QLoRA) | $50-500 (GPU) | $200-1.000 (hosting) | 100% on-premise | Muy alta |
Fine-tuning + RAG |
Dato clave de privacidad: Con fine-tuning, tus datos nunca salen de tu servidor. Con API, cada prompt viaja a OpenAI/Anthropic. Para sectores regulados (fintech, salud, legal), esta diferencia es determinante.
El IIC-UAM documentó un caso práctico:
Sin fine-tuning: Chatbot RAG con GPT-3.5 → puntuación 3,59/5 en calidad de respuesta
Con fine-tuning: Mejora medible en calidad de respuesta Y control de formato (estructura, longitud, tono)
Conclusión: RAG aporta conocimiento; fine-tuning aporta comportamiento. La combinación supera a ambos por separado.
El EU AI Act plantea una pregunta sin respuesta clara: ¿un modelo fine-tuneado es un "nuevo" sistema de IA?
Si modificas sustancialmente el comportamiento del modelo → puede clasificarse como nuevo sistema → compliance obligatorio
Si el fine-tuning es menor (adaptación de tono/formato) → probablemente no
Recomendación: Documenta el proceso de fine-tuning, los datos usados, y las evaluaciones realizadas. Si tu modelo toma decisiones en sanidad, finanzas o contratación, asume que necesitas compliance.
Deadline: 2 de agosto de 2026. Multas: hasta 35M€ o 7% de facturación global.
En Beltsys aplicamos fine-tuning de LLMs para casos de uso Web3:
Modelos entrenados en Solidity para generación y auditoría de smart contracts
LLMs especializados en documentación de ERC-3643, ERC-4337 y estándares de tokenización
Chatbots con RAG + fine-tuning para soporte técnico de plataformas Web3
Agentes IA fine-tuneados para análisis de transacciones on-chain
La combinación de fine-tuning + RAG es ideal para fintechs y empresas blockchain que necesitan modelos que "hablen" su lenguaje técnico con datos actualizados. Consultoría blockchain e IA.
El fine-tuning es el proceso de re-entrenar un modelo de lenguaje pre-entrenado con datos específicos de tu dominio para que se comporte de una forma determinada. Según IBM, es un subconjunto del transfer learning: aprovechas el conocimiento general del modelo y lo adaptas a tu caso de uso con cientos o miles de pares de entrenamiento.
Usa fine-tuning cuando necesitas que el modelo "se comporte" de forma específica (tono, formato, tipo de respuesta). Usa RAG cuando necesitas que el modelo "sepa" información actualizada. Usa ambos cuando necesitas comportamiento personalizado con conocimiento actualizado. El fine-tuning aporta comportamiento; RAG aporta conocimiento.
Un fine-tuning básico de un modelo 7B con LoRA: $10-100 en GPU (2-4 horas). Un modelo 70B con QLoRA: $50-500. Hosting mensual del modelo: $50-1.000 según tamaño. Comparado con APIs: el fine-tuning es más barato a largo plazo y mantiene los datos on-premise.
LoRA (Low-Rank Adaptation) es una técnica que entrena solo una pequeña fracción de los parámetros del modelo, reduciendo la necesidad de GPU/VRAM entre 10x y 100x. QLoRA añade cuantización de 4 bits, permitiendo fine-tuning de modelos de 65B+ parámetros en una sola GPU de consumo. Democratizó el fine-tuning.
Mistral 7B es el más fiable según experiencia práctica (CoffeeBytes). Llama 3 tiene el mejor ecosistema (HuggingFace). DeepSeek es fuerte en código pero puede generar caracteres chinos. Gemma y Phi son ideales para edge/mobile. Recomendación: prueba siempre 2-3 modelos antes de comprometerte.
Potencialmente sí. Si el fine-tuning modifica sustancialmente el comportamiento del modelo, puede clasificarse como un "nuevo" sistema de IA con obligaciones de compliance. Para modelos que toman decisiones en sanidad, finanzas o contratación, asume que necesitas documentación y compliance. Deadline: 2 agosto 2026.
Beltsys es una empresa española de desarrollo blockchain e inteligencia artificial, especializada en fine-tuning de LLMs para Web3, smart contracts y soluciones fintech. Con experiencia en más de 300 proyectos desde 2016, Beltsys implementa modelos personalizados con RAG y fine-tuning para empresas que necesitan IA que hable su lenguaje técnico. Conoce más sobre Beltsys
Related: Smart Contracts Related: Desarrollo Web3 Related: Consultoría Blockchain Related: Tokenización inmobiliaria
Publicado originalmente en beltsys.com
El fine-tuning de LLMs es una de las técnicas más poderosas — y más malinterpretadas — de la IA en 2026. Cada semana alguien pregunta: "¿debería hacer fine-tuning de mi modelo?" Y la respuesta casi siempre es: "depende." Depende de tu tarea, tus datos, tu presupuesto y tus requisitos de latencia.
Esta guía cubre qué es el fine-tuning, cuándo tiene sentido frente a RAG y prompting, las técnicas que lo hacen accesible (LoRA, QLoRA, DPO), qué modelos elegir en 2026, cuánto cuesta realmente, y qué implicaciones tiene para compliance y privacidad.

El fine-tuning es el proceso de tomar un modelo de lenguaje pre-entrenado (como Llama 3, Mistral o GPT-4) y re-entrenarlo con datos específicos de tu dominio para que se comporte de una forma determinada. Según IBM, el fine-tuning es un subconjunto del transfer learning: aprovechas el conocimiento que el modelo ya tiene y lo adaptas a tu caso de uso.
Analogía: Un LLM pre-entrenado es un médico generalista que sabe de todo. El fine-tuning lo convierte en un cardiólogo — conserva su conocimiento general pero responde con expertise especializado en su área.
Pre-entrenamiento | Fine-tuning |
|---|---|
Entrena desde cero con billones de tokens | Adapta un modelo ya entrenado |
Requiere miles de GPUs durante semanas | Puede hacerse con 1 GPU en horas |
Coste: millones de dólares | Coste: $10-$10.000 (depende del tamaño) |
Conocimiento general | Conocimiento específico del dominio |
Lo hacen OpenAI, Meta, Google | Lo puede hacer cualquier empresa |
Esta es la pregunta que ningún competidor responde de forma completa:
Criterio | Prompting | RAG | Fine-tuning |
|---|---|---|---|
Cuándo usarlo | Tareas genéricas, experimentación | Conocimiento que cambia frecuentemente | Comportamiento específico y estable |
Datos necesarios | Ninguno | Documentos/base de conocimiento | Cientos a miles de pares input-output |
Coste inicial | $0 (API) | $500-5.000 (infra vectorial) | $10-10.000 (GPU) |
Coste recurrente | Alto (tokens por llamada) | Medio (hosting + API) | Bajo (modelo local) |
Latencia | Variable (API) | Mayor (búsqueda + generación) | Menor (modelo optimizado local) |
Privacidad datos |
Regla práctica:
¿Necesitas que el modelo "sepa" información actualizada? → RAG
¿Necesitas que el modelo "se comporte" de una forma específica? → Fine-tuning
¿Necesitas ambos? → RAG + fine-tuning (la combinación más potente)
Entrenamiento supervisado con pares de input-output curados. Ejemplo: le das al modelo 1.000 pares de "pregunta → respuesta ideal" y aprende el patrón.
LoRA no modifica todos los parámetros del modelo — solo entrena "adaptadores" de bajo rango que se añaden a las capas existentes. Reduce la necesidad de GPU/VRAM entre 10x y 100x.
Combina cuantización de 4 bits con LoRA. Permite hacer fine-tuning de modelos de 65B+ parámetros en una sola GPU de consumo (24GB VRAM). Es la técnica que democratizó el fine-tuning.
El método que OpenAI usó para alinear ChatGPT. Entrena un "reward model" basado en preferencias humanas, luego optimiza el LLM para maximizar esa recompensa. Complejo pero efectivo para alineación.
Alternativa más simple a RLHF. No necesita reward model separado — optimiza directamente las preferencias. Menos infraestructura, resultados comparables.
Técnica | Complejidad | GPU necesaria | Mejora |
|---|---|---|---|
SFT | Baja | Media-alta | Comportamiento específico |
LoRA | Baja-media | Baja (10-100x menos VRAM) | Comportamiento + eficiencia |
QLoRA | Media | Muy baja (1 GPU consumo) | Como LoRA, modelos gigantes |
RLHF | Alta | Alta (reward model + policy) | Alineación con humanos |
DPO | Media | Media | Alineación simplificada |
Modelo | Tamaños | Licencia | Diferenciación | Fine-tuning friendly |
|---|---|---|---|---|
Llama 3 (Meta) | 8B, 70B, 405B | Open (con restricciones) | Mejor balance rendimiento/tamaño | ✓✓✓ (ecosistema HuggingFace) |
Mistral | 7B, 8x7B (Mixtral), Large | Apache 2.0 / comercial | Mejor ratio calidad/parámetros | ✓✓✓ (CoffeeBytes caso exitoso) |
DeepSeek | 7B, 67B, V3 | MIT | Fuerte en razonamiento y código | ✓✓ (cuidado: caracteres chinos) |
Qwen (Alibaba) | 7B, 14B, 72B | Apache 2.0 | Fuerte multilingüe, matemáticas | ✓✓ |
Experiencia real de CoffeeBytes: DeepSeek falló (generó caracteres chinos), Llama falló, Mistral 7B fue el que funcionó. La lección: no todos los modelos responden igual al fine-tuning. Prueba siempre 2-3 antes de comprometerte.
Plataforma | GPU | Coste | Límite | Ideal para |
|---|---|---|---|---|
Google Colab | T4 (15GB) | Gratis | Sesiones limitadas | Experimentación, tutoriales |
Kaggle | P100/T4 | Gratis | 30h/semana | Fine-tuning modelos 7B |
Lambda Labs | A100 (80GB) | $1.10/h | Por uso | Fine-tuning serio |
RunPod | A100, H100 | Desde $0.39/h | Por uso | Producción |
Vast.ai | Variable |
Para un fine-tuning básico de un modelo 7B con LoRA: 2-4 horas en Google Colab gratis. Para producción con modelo 70B en QLoRA: 4-8 horas en Lambda Labs (~$5-9).
Enfoque | Coste inicial | Coste mensual | Privacidad | Personalización |
|---|---|---|---|---|
API (GPT-4, Claude) | $0 | $500-5.000+ (tokens) | Datos van a la nube | Baja (prompt only) |
RAG + API | $500-3.000 | $300-2.000 (API + hosting) | Documentos locales | Media |
Fine-tuning (7B, LoRA) | $10-100 (GPU) | $50-200 (hosting modelo) | 100% on-premise | Alta |
Fine-tuning (70B, QLoRA) | $50-500 (GPU) | $200-1.000 (hosting) | 100% on-premise | Muy alta |
Fine-tuning + RAG |
Dato clave de privacidad: Con fine-tuning, tus datos nunca salen de tu servidor. Con API, cada prompt viaja a OpenAI/Anthropic. Para sectores regulados (fintech, salud, legal), esta diferencia es determinante.
El IIC-UAM documentó un caso práctico:
Sin fine-tuning: Chatbot RAG con GPT-3.5 → puntuación 3,59/5 en calidad de respuesta
Con fine-tuning: Mejora medible en calidad de respuesta Y control de formato (estructura, longitud, tono)
Conclusión: RAG aporta conocimiento; fine-tuning aporta comportamiento. La combinación supera a ambos por separado.
El EU AI Act plantea una pregunta sin respuesta clara: ¿un modelo fine-tuneado es un "nuevo" sistema de IA?
Si modificas sustancialmente el comportamiento del modelo → puede clasificarse como nuevo sistema → compliance obligatorio
Si el fine-tuning es menor (adaptación de tono/formato) → probablemente no
Recomendación: Documenta el proceso de fine-tuning, los datos usados, y las evaluaciones realizadas. Si tu modelo toma decisiones en sanidad, finanzas o contratación, asume que necesitas compliance.
Deadline: 2 de agosto de 2026. Multas: hasta 35M€ o 7% de facturación global.
En Beltsys aplicamos fine-tuning de LLMs para casos de uso Web3:
Modelos entrenados en Solidity para generación y auditoría de smart contracts
LLMs especializados en documentación de ERC-3643, ERC-4337 y estándares de tokenización
Chatbots con RAG + fine-tuning para soporte técnico de plataformas Web3
Agentes IA fine-tuneados para análisis de transacciones on-chain
La combinación de fine-tuning + RAG es ideal para fintechs y empresas blockchain que necesitan modelos que "hablen" su lenguaje técnico con datos actualizados. Consultoría blockchain e IA.
El fine-tuning es el proceso de re-entrenar un modelo de lenguaje pre-entrenado con datos específicos de tu dominio para que se comporte de una forma determinada. Según IBM, es un subconjunto del transfer learning: aprovechas el conocimiento general del modelo y lo adaptas a tu caso de uso con cientos o miles de pares de entrenamiento.
Usa fine-tuning cuando necesitas que el modelo "se comporte" de forma específica (tono, formato, tipo de respuesta). Usa RAG cuando necesitas que el modelo "sepa" información actualizada. Usa ambos cuando necesitas comportamiento personalizado con conocimiento actualizado. El fine-tuning aporta comportamiento; RAG aporta conocimiento.
Un fine-tuning básico de un modelo 7B con LoRA: $10-100 en GPU (2-4 horas). Un modelo 70B con QLoRA: $50-500. Hosting mensual del modelo: $50-1.000 según tamaño. Comparado con APIs: el fine-tuning es más barato a largo plazo y mantiene los datos on-premise.
LoRA (Low-Rank Adaptation) es una técnica que entrena solo una pequeña fracción de los parámetros del modelo, reduciendo la necesidad de GPU/VRAM entre 10x y 100x. QLoRA añade cuantización de 4 bits, permitiendo fine-tuning de modelos de 65B+ parámetros en una sola GPU de consumo. Democratizó el fine-tuning.
Mistral 7B es el más fiable según experiencia práctica (CoffeeBytes). Llama 3 tiene el mejor ecosistema (HuggingFace). DeepSeek es fuerte en código pero puede generar caracteres chinos. Gemma y Phi son ideales para edge/mobile. Recomendación: prueba siempre 2-3 modelos antes de comprometerte.
Potencialmente sí. Si el fine-tuning modifica sustancialmente el comportamiento del modelo, puede clasificarse como un "nuevo" sistema de IA con obligaciones de compliance. Para modelos que toman decisiones en sanidad, finanzas o contratación, asume que necesitas documentación y compliance. Deadline: 2 agosto 2026.
Beltsys es una empresa española de desarrollo blockchain e inteligencia artificial, especializada en fine-tuning de LLMs para Web3, smart contracts y soluciones fintech. Con experiencia en más de 300 proyectos desde 2016, Beltsys implementa modelos personalizados con RAG y fine-tuning para empresas que necesitan IA que hable su lenguaje técnico. Conoce más sobre Beltsys
Related: Smart Contracts Related: Desarrollo Web3 Related: Consultoría Blockchain Related: Tokenización inmobiliaria
Publicado originalmente en beltsys.com
Datos van a la nube
Datos en tu servidor (retrieval) |
Datos en tu servidor (entrenamiento) |
Actualización | Inmediata (cambias el prompt) | Rápida (actualizas documentos) | Lenta (re-entrenas) |
Personalización | Baja-media | Media | Alta |
Mejor para | Exploración, prototipos | Soporte, FAQs, documentación | Tono, formato, tareas especializadas |
Gemma (Google)
2B, 7B |
Permisiva |
Ligero, ideal para edge/mobile |
✓✓ |
Phi (Microsoft) | 3B | MIT | Ultra-ligero, sorprendente calidad | ✓✓ |
Desde $0.10/h
Por uso |
Presupuesto mínimo |
$500-3.000 |
$200-1.000 |
Híbrido configurable |
Máxima |
Datos van a la nube
Datos en tu servidor (retrieval) |
Datos en tu servidor (entrenamiento) |
Actualización | Inmediata (cambias el prompt) | Rápida (actualizas documentos) | Lenta (re-entrenas) |
Personalización | Baja-media | Media | Alta |
Mejor para | Exploración, prototipos | Soporte, FAQs, documentación | Tono, formato, tareas especializadas |
Gemma (Google)
2B, 7B |
Permisiva |
Ligero, ideal para edge/mobile |
✓✓ |
Phi (Microsoft) | 3B | MIT | Ultra-ligero, sorprendente calidad | ✓✓ |
Desde $0.10/h
Por uso |
Presupuesto mínimo |
$500-3.000 |
$200-1.000 |
Híbrido configurable |
Máxima |
No activity yet