TL;DR — Resumen Rápido

Construye un pipeline RAG privado con Ollama. Usa embeddings locales, bases de datos vectoriales y Open WebUI para chatear con PDFs y documentos sin APIs en la nube.

¿Qué es RAG?

RAG (Generación Aumentada por Recuperación) hace que los modelos de IA respondan usando tus datos específicos. El proceso: fragmentar → embeber → almacenar → consultar → generar.

Con Ollama, todo el pipeline corre localmente — tus documentos nunca salen de tu máquina.

Opción A: RAG sin Código con Open WebUI

Sube documentos con el ícono 📎 en cualquier conversación. Configura nomic-embed-text como modelo de embedding.

Opción B: Pipeline Python con LangChain

from langchain_community.embeddings import OllamaEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_community.llms import Ollama

embeddings = OllamaEmbeddings(model="nomic-embed-text")
llm = Ollama(model="llama3.2")

Modelos Recomendados

Modelo EmbeddingTamañoMejor Para
nomic-embed-text274 MBDocumentos en inglés
mxbai-embed-large670 MBMultilingüe

Artículos Relacionados