TL;DR — Resumen Rápido
Construye un pipeline RAG privado con Ollama. Usa embeddings locales, bases de datos vectoriales y Open WebUI para chatear con PDFs y documentos sin APIs en la nube.
¿Qué es RAG?
RAG (Generación Aumentada por Recuperación) hace que los modelos de IA respondan usando tus datos específicos. El proceso: fragmentar → embeber → almacenar → consultar → generar.
Con Ollama, todo el pipeline corre localmente — tus documentos nunca salen de tu máquina.
Opción A: RAG sin Código con Open WebUI
Sube documentos con el ícono 📎 en cualquier conversación. Configura nomic-embed-text como modelo de embedding.
Opción B: Pipeline Python con LangChain
from langchain_community.embeddings import OllamaEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_community.llms import Ollama
embeddings = OllamaEmbeddings(model="nomic-embed-text")
llm = Ollama(model="llama3.2")
Modelos Recomendados
| Modelo Embedding | Tamaño | Mejor Para |
|---|---|---|
nomic-embed-text | 274 MB | Documentos en inglés |
mxbai-embed-large | 670 MB | Multilingüe |