Skip to main content
📝 Desarrollo con AI

RAG Anything Convirtió Mis PDFs Escaneados en Conocimiento Consultable

Cómo RAG Anything extiende LightRAG para ingerir imágenes, gráficos y PDFs escaneados. Tutorial completo de configuración con MinerU, PaddleOCR y grafos de conocimiento unificados.

27 min

Tiempo de lectura

5,300

Palabras

Apr 02, 2026

Publicado

Engr Mejba Ahmed

Escrito por

Engr Mejba Ahmed

Compartir Artículo

RAG Anything Convirtió Mis PDFs Escaneados en Conocimiento Consultable

RAG Anything Convirtió Mis PDFs Escaneados en Conocimiento Consultable

Tuve un informe financiero de 47 páginas en el escritorio durante tres semanas. PDF escaneado. Gráficos de barras en cada dos páginas. Tablas de ingresos renderizadas como imágenes, no como datos reales. El tipo de documento que hace que cualquier sistema RAG que haya construido se encoja de hombros y diga: "aquí hay texto ininteligible que encontré entre los encabezados."

Llevaba meses usando LightRAG -- ingesta de texto, construcción de grafos de conocimiento, recuperación híbrida. Manejaba mis archivos markdown y documentos de texto plano a la perfección. Pero cada vez que intentaba alimentarlo con algo que tuviera gráficos, diagramas o páginas escaneadas, el resultado era algo entre inútil y cómicamente incorrecto. Una vez le pregunté sobre las tendencias de ingresos del Q3 y me devolvió un párrafo sobre el formato del índice. El grafo de conocimiento había indexado fielmente la basura de OCR de los encabezados de página e ignorado los datos reales que había en el gráfico de barras debajo.

Ese informe financiero fue el punto de quiebre. Necesitaba que mi sistema RAG entendiera los documentos como yo los entiendo -- no solo las palabras en la página, sino los gráficos, las imágenes, los datos visuales que contienen la mitad del significado de cualquier documento de negocio serio. Y fue entonces cuando encontré RAG Anything.

Desarrollado por el mismo equipo de HKUDS detrás de LightRAG, RAG Anything es un wrapper que incorpora procesamiento de documentos multimodal a tu configuración de LightRAG existente. No reemplaza a LightRAG. Lo extiende. Y la manera en que maneja la separación entre contenido de texto y visual es genuinamente inteligente -- lo suficientemente inteligente como para que reconstruyera toda mi pipeline de ingesta de documentos alrededor de él en un solo fin de semana.

Aquí está el desglose completo de cómo funciona, cómo lo configuré y qué pasó cuando finalmente pasé ese informe financiero por él.

Por Qué el RAG Estándar Falla con Documentos del Mundo Real

El sucio secreto de la mayoría de los tutoriales de RAG es que demuestran con archivos markdown impecables y PDFs de texto limpio. El tipo de documentos donde cada carácter ya es legible por máquina, bien estructurado y listo para el chunking. Eso es quizás el 30% de los documentos con los que realmente trabajo.

¿El otro 70%? Contratos escaneados. Presentaciones exportadas a PDF. Papers de investigación con ecuaciones LaTeX. Informes financieros donde los datos más importantes viven dentro de gráficos de barras y circulares. Memorandos internos que alguien imprimió, firmó a mano y luego volvió a escanear. Formularios gubernamentales. Facturas con logos y tablas renderizadas como imágenes.

Las pipelines estándar de RAG -- incluido el LightRAG vanilla -- manejan estos documentos con lo que yo llamo el enfoque de "entrecerrar los ojos y esperar". Ejecutan extracción de texto básica, obtienen basura parcial de la capa de OCR, hacen chunking del texto que encuentran, lo embeddizan y lo dan por terminado. ¿Los gráficos? Invisibles. ¿Las imágenes? Ignoradas. ¿La escritura escaneada a mano? Una ensalada de caracteres mal reconocidos.

Intenté soluciones alternativas. Pasé documentos por herramientas de OCR separadas antes de alimentarlos a LightRAG. Usé GPT-4o para describir imágenes y luego inyecté esas descripciones como texto. Incluso construí una pipeline de preprocesamiento que extraía imágenes de PDFs, enviaba cada una a un modelo de visión, recibía descripciones de texto de vuelta, y fusionaba esas descripciones en el flujo de texto original antes del chunking.

Funcionó. Apenas. La carga de mantenimiento era brutal, el costo de procesamiento era alto porque cada imagen pasaba por una API de visión en la nube, y el grafo de conocimiento terminaba con conexiones extrañas entre las entidades de texto "reales" y las entidades de imagen "descritas". Existían en universos paralelos dentro de la misma base de datos.

RAG Anything resuelve esto de una manera fundamentalmente diferente. En lugar de tratar las imágenes como un descuido que debe convertirse en texto, las procesa como un tipo de dato de primera clase con su propio espacio de embedding y su propia rama del grafo de conocimiento -- y luego fusiona todo en una capa de recuperación unificada. La distinción importa más de lo que podría sonar.

Pero antes de explicar la arquitectura, necesitas entender el parser de documentos que hace posible todo.

MinerU: El Parser de Documentos que Hace el Trabajo Pesado

En el corazón de RAG Anything se encuentra MinerU, un parser de documentos de código abierto del equipo de OpenDataLab. Si no lo has encontrado antes, MinerU es lo que ocurre cuando construyes una herramienta de extracción de PDF que realmente respeta la complejidad de los documentos reales.

La mayoría de los parsers de PDF tratan una página como un flujo plano de texto. MinerU la trata como un layout -- con encabezados, párrafos, tablas, imágenes, ecuaciones, notas al pie y barras laterales, cada uno identificado y enviado a un modelo de extracción especializado. Piénsalo como un sistema de triaje. El documento llega a MinerU, y MinerU dice: "Este bloque es un encabezado. Este bloque es texto del cuerpo. Esto es una tabla. Esto es una imagen de gráfico. Esto es una ecuación LaTeX." Cada componente es procesado por el modelo más adecuado para manejarlo.

Para texto, MinerU usa PaddleOCR -- el motor de OCR de código abierto de Baidu que soporta más de 100 idiomas desde PP-OCRv5. PaddleOCR no es solo reconocimiento de caracteres. Maneja layouts complejos, texto de múltiples columnas, texto rotado y texto incrustado en imágenes. Cuando MinerU identifica un bloque de texto en un PDF escaneado, PaddleOCR extrae los caracteres reales con una precisión sorprendentemente alta.

Para elementos que no son texto -- gráficos, diagramas, fotografías, esquemas -- MinerU adopta un enfoque diferente. Los captura como capturas de pantalla. Capturas de pantalla limpias y recortadas que preservan la información visual exactamente como aparece en la página.

Esta separación es la perspectiva clave que hace que RAG Anything funcione. En lugar de intentar forzar todo a texto (lo que pierde información) o intentar procesar todo como imágenes (lo que es caro y lento), MinerU divide el documento en dos cubos limpios:

  • Cubo de texto: Todo lo que es realmente texto, extraído mediante OCR con alta fidelidad
  • Cubo de imágenes: Todo lo que es visual, capturado como capturas de pantalla con contexto completo

Ambos cubos alimentan la siguiente etapa de la pipeline. Y aquí es donde la arquitectura de RAG Anything se pone interesante -- porque cada cubo obtiene su propio track de procesamiento paralelo.

MinerU se ejecuta completamente de forma local. Sin llamadas a API para la fase de parsing. Sin datos saliendo de tu máquina. La contrapartida es que es más pesado que una biblioteca de PDF simple -- estás descargando modelos de ML reales para detección de layouts, OCR y clasificación de componentes. En mi M2 MacBook Pro, la descarga inicial del modelo fue de alrededor de 2 GB. Después de eso, parsear un PDF escaneado de 50 páginas en CPU tarda aproximadamente 45 segundos. Cambiar a GPU (que cubriré en la sección de configuración) lo reduce a unos 12 segundos.

Vale la pena enfatizar el procesamiento local. Cada página de tu documento permanece en tu hardware durante el parsing. El único momento en que los datos salen de tu máquina es en la siguiente etapa, cuando el texto y las imágenes extraídas se envían a un LLM para la extracción de entidades y la generación de embeddings.

La Arquitectura de Doble Pipeline: Cómo Funciona RAG Anything Realmente

Aquí es donde la ingeniería se vuelve genuinamente inteligente. Una vez que MinerU ha dividido tu documento en cubos de texto e imagen, RAG Anything ejecuta dos pipelines de procesamiento en paralelo -- una para cada cubo. Ambas pipelines hacen las mismas dos cosas, pero de manera diferente.

Pipeline 1: Procesamiento de texto

El cubo de texto va a un LLM (GPT-4o mini por defecto, aunque puedes intercambiarlo por cualquier modelo). El LLM realiza dos operaciones:

  1. Extracción de entidades y relaciones -- Lee el texto e identifica entidades (personas, empresas, conceptos, fechas, cifras financieras) y las relaciones entre ellas. Estas se convierten en nodos y aristas en un grafo de conocimiento.
  2. Generación de embeddings -- Los chunks de texto se convierten en embeddings vectoriales (usando text-embedding-3-large por defecto) y se almacenan en una base de datos vectorial.

Esto es esencialmente lo que el LightRAG vanilla ya hace. Nada nuevo aquí.

Pipeline 2: Procesamiento de imágenes

El cubo de imágenes va al mismo LLM, pero la interacción es diferente. Cada captura de pantalla -- cada gráfico, diagrama, esquema y elemento visual que extrajo MinerU -- se envía a las capacidades de visión del LLM. El LLM analiza la imagen y realiza las mismas dos operaciones:

  1. Extracción de entidades y relaciones del contenido visual -- El modelo mira un gráfico de barras y extrae entidades como "Ingresos Q1: $2,4M" y "Ingresos Q3: $3,1M" y la relación "los ingresos aumentaron un 29% de Q1 a Q3." Estas se convierten en nodos y aristas en un grafo de conocimiento específico de imágenes.
  2. Generación de embeddings a partir de descripciones visuales -- El modelo genera descripciones de texto enriquecidas de cada imagen, y esas descripciones se convierten en embeddings y se almacenan en una base de datos vectorial específica de imágenes.

Ahora tienes cuatro estructuras de datos:

Estructura de datos Fuente Contiene
Base de datos vectorial de texto Texto extraído por OCR Embeddings semánticos de contenido de texto
Grafo de conocimiento de texto Texto extraído por OCR Entidades y relaciones del texto
Base de datos vectorial de imágenes Capturas de pantalla visuales Embeddings semánticos de descripciones de imágenes
Grafo de conocimiento de imágenes Capturas de pantalla visuales Entidades y relaciones de datos visuales

La Fusión

RAG Anything luego fusiona estas cuatro estructuras en dos: una base de datos vectorial unificada y un grafo de conocimiento unificado. Las entidades de texto e imagen coexisten en el mismo grafo. Los embeddings de texto e imagen viven en el mismo espacio vectorial. Cuando consultas el sistema, la recuperación ocurre en ambas modalidades simultáneamente.

Esta es la parte que solucionó mi problema del "universo paralelo". Cuando estaba haciendo conversión imagen-a-texto como paso de preprocesamiento, las entidades derivadas de imágenes y las entidades derivadas de texto estaban desconectadas. El paso de fusión de RAG Anything asegura que estén vinculadas. Si el texto menciona "ingresos del Q3" y un gráfico de barras muestra datos de ingresos del Q3, ambas entidades existen en el mismo grafo de conocimiento con relaciones superpuestas. La capa de recuperación puede obtener de ambas fuentes para construir una respuesta completa.

Y aquí está la parte que no esperaba: la base de datos de RAG Anything fusionada luego se combina con tu base de datos de LightRAG existente. Si ya has estado ejecutando LightRAG con documentos de texto, RAG Anything no sobrescribe nada de eso. Lo añade. Terminas con una base de datos vectorial consolidada y un grafo de conocimiento consolidado que abarca todo -- tus documentos de texto originales Y tus documentos multimodales recién ingeridos.

La experiencia de consulta no cambia en absoluto. Misma API. Mismos prompts en lenguaje natural. Mismos modos de recuperación. El sistema maneja la complejidad de la recuperación multi-fuente y multi-modal en segundo plano.

Esa fluidez fue lo que me convenció de adoptarlo. No tuve que reconstruir nada. No tuve que cambiar mis patrones de consulta. Simplemente gané la capacidad de ingerir una categoría completamente nueva de documentos.

Cómo Configuré Todo (Paso a Paso)

No voy a endulzarlo: la configuración inicial es más pesada que LightRAG vanilla. Estás añadiendo un parser de documentos con modelos de ML, un motor de OCR y dependencias adicionales de Python. Pero una vez configurado, la experiencia del día a día es fluida.

Aquí está la configuración exacta que seguí.

Paso 1: Asegúrate de que LightRAG ya esté funcionando.

Si aún no tienes LightRAG configurado, empieza por ahí. RAG Anything envuelve a LightRAG -- necesita una instalación funcional para extender. El repositorio de GitHub de LightRAG tiene instrucciones claras. Yo estaba ejecutando LightRAG con la interfaz basada en Docker, que te da una interfaz web para subir documentos de texto y consultar el grafo de conocimiento.

Paso 2: Instalar RAG Anything y sus dependencias.

RAG Anything es instalable a través de pip:

pip install raganything

Esto descarga el framework principal. Pero también necesitas MinerU para el parsing de documentos:

pip install mineru

La primera vez que se ejecuta MinerU, descarga sus modelos de detección de layouts y clasificación. Espera unos 2 GB de descargas. PaddleOCR viene incluido como dependencia de MinerU, por lo que no necesitas instalarlo por separado.

Paso 3: Usar el prompt de configuración one-shot de Claude Code.

Esta fue la parte que me ahorró horas. El repositorio de RAG Anything incluye un prompt de Claude Code que automatiza la configuración:

  • Actualiza las rutas de almacenamiento para que coincidan con tu directorio de datos de LightRAG existente
  • Configura los modelos de IA (GPT-4o mini para extracción de entidades, text-embedding-3-large para embeddings por defecto)
  • Corrige un bug conocido donde los embeddings se envuelven doble durante el paso de fusión

Ejecuté el prompt en Claude Code apuntado a mi directorio de proyecto de LightRAG, y manejó la configuración en unos 90 segundos. Sin esto, habría tenido que editar manualmente los archivos de configuración y probablemente luchar contra el bug del double-wrap durante una hora antes de encontrar el issue de GitHub al respecto.

Paso 4: Configurar tus claves de API.

RAG Anything necesita acceso a un LLM con capacidades de visión para el procesamiento de imágenes. Usé GPT-4o mini porque el costo es bajo y la calidad de visión es sólida para la interpretación de gráficos y diagramas. Necesitarás tu clave de API de OpenAI configurada en el entorno o archivo de configuración.

Para los embeddings, el valor predeterminado es text-embedding-3-large. La misma clave de API lo cubre.

Paso 5: Probar con un documento simple.

Antes de lanzarle PDFs escaneados complejos, probé con un documento de una sola página que contenía un párrafo de texto y un gráfico de barras. Esto valida que MinerU está parseando correctamente, PaddleOCR está extrayendo texto, el modelo de visión está interpretando el gráfico, y el paso de fusión está produciendo una base de datos unificada.

from raganything import RAGAnything

rag = RAGAnything(
    working_dir="./rag_storage",
    llm_model="gpt-4o-mini",
    embedding_model="text-embedding-3-large"
)

# Ingerir un documento multimodal
rag.insert("./test_document.pdf")

# Consultar tanto contenido de texto como visual
result = rag.query("¿Qué muestra el gráfico de barras sobre los ingresos?")
print(result)

Cuando esto devolvió datos numéricos reales del gráfico -- no una descripción del gráfico, sino los valores específicos que contenía -- supe que la pipeline estaba funcionando.

Paso 6: Ingerir tus documentos reales.

Aquí hay un detalle operativo importante: la ingesta de documentos que no son texto no puede ocurrir a través de la interfaz web de LightRAG. La interfaz no sabe sobre MinerU o la arquitectura de doble pipeline. Necesitas ejecutar la ingesta a través del script de Python (o una skill de Claude Code que lo envuelva).

Los documentos de texto todavía pueden pasar por la interfaz de LightRAG como de costumbre. Solo los documentos multimodales necesitan el enfoque basado en script.

Después de la ingesta, descubrí que reiniciar el contenedor de Docker que ejecuta la interfaz de LightRAG era a veces necesario para que reconociera la base de datos recién fusionada. No siempre, pero lo suficiente como para añadir un reinicio del contenedor a mi script de ingesta.

Si prefieres que alguien construya este tipo de pipeline desde cero para tu flujo de trabajo de documentos específico, acepto proyectos de integración de IA. Puedes ver lo que he construido en fiverr.com/s/EgxYmWD.

Consejo pro: Cambia MinerU al procesamiento con GPU. En CPU, MinerU es funcional pero lento para documentos grandes. Si tienes una GPU NVIDIA (o un Mac serie M con soporte Metal), configurar MinerU para usar aceleración GPU hace una diferencia dramática. Mi PDF escaneado de 50 páginas pasó de 45 segundos a 12 segundos. Claude Code puede ayudarte a modificar la configuración de MinerU para habilitar GPU -- es un cambio de flag de configuración, no una reinstalación.

Lo Que Realmente le Eché (Y Lo Que Volvió)

La prueba real fue ese informe financiero. 47 páginas. Escaneado de un documento impreso. Gráficos de barras mostrando los ingresos mensuales de enero a septiembre de 2025. Tablas renderizadas como imágenes. Logos de empresas. Notas al pie en letra pequeña. El tipo de documento que representa el peor caso para el RAG tradicional.

Lo pasé por el script de ingesta y observé los logs. MinerU procesó cada página, clasificó los componentes y los dividió en los dos cubos. PaddleOCR extrajo texto de los párrafos principales y encabezados. Los gráficos de barras, tablas y logos fueron al cubo de imágenes. El LLM procesó ambos cubos, extrajo entidades y relaciones, generó embeddings y fusionó todo en la base de datos unificada.

Tiempo total de procesamiento: unos 3 minutos para las 47 páginas en GPU. Costo de API para las llamadas al LLM: aproximadamente $0,08. El procesamiento local (MinerU + PaddleOCR) fue gratuito.

Luego lo consulté.

"¿Cuáles fueron las tendencias de ingresos mensuales de enero a septiembre de 2025?"

La respuesta volvió con números específicos. Enero: $1,2M. Febrero: $1,4M. Marzo: $1,3M. Todo el camino hasta septiembre: $2,1M. Identificó la tendencia general al alza, notó la caída en marzo y referenció la aceleración del Q3. Estos datos existían solo en un gráfico de barras. No había texto en el documento que listara estos números. El modelo de visión había leído el gráfico, extraído los valores, creado entidades para cada punto de datos y construido relaciones entre ellos en el grafo de conocimiento.

Ejecuté una segunda consulta: "¿Qué departamentos mostraron el mayor crecimiento?"

Esta extrajo de ambas modalidades. Las secciones de texto del informe discutían el rendimiento departamental en prosa. Los gráficos mostraban los números. La respuesta combinó ambos -- citando porcentajes de crecimiento específicos de los gráficos y análisis contextual del texto. Recuperación unificada, funcionando exactamente como fue diseñada.

Por comparación, pasé el mismo documento por mi pipeline anterior -- LightRAG vanilla con extracción de texto básica. La primera consulta no devolvió nada útil. La segunda consulta devolvió un párrafo vago del resumen ejecutivo que mencionaba "fuerte rendimiento departamental" sin números. Noche y día.

Los Compromisos Honestos que Nadie Menciona

RAG Anything es impresionante. Genuinamente resolvió un problema con el que había estado luchando durante meses. Pero no está exento de fricción, y te haría un flaco favor si no expusiera claramente los inconvenientes.

La configuración es más pesada que LightRAG vanilla. Estás ejecutando los modelos de ML de MinerU localmente, lo que significa descargar ~2 GB de pesos de modelos, administrar dependencias adicionales de Python y lidiar con conflictos de versiones ocasionales entre PaddleOCR y otros paquetes. Mi primer intento de instalación falló por una incompatibilidad de versión de numpy entre MinerU y otra biblioteca en mi entorno. Un entorno virtual limpio lo solucionó, pero el debugging me costó 30 minutos.

La ingesta de documentos que no son texto requiere la línea de comandos. No puedes arrastrar y soltar un PDF escaneado en la interfaz web de LightRAG y hacer que se procese a través de la pipeline multimodal. Necesitas ejecutar el script de Python. Para un desarrollador, es una inconveniencia menor. Para alguien que esperaba un flujo de trabajo puramente basado en GUI, es una limitación.

Los reinicios del contenedor Docker después de la ingesta son molestos. La interfaz de LightRAG no siempre detecta la base de datos fusionada de inmediato. Reiniciar el contenedor es una solución de 10 segundos, pero interrumpe cualquier sesión activa. He visto que esto ocurre alrededor del 60% de las veces después de la ingesta multimodal.

La precisión del modelo de visión varía. GPT-4o mini hace un trabajo sólido interpretando gráficos de barras estándar, gráficos de líneas y tablas simples. Pero tiene dificultades con diagramas de dispersión muy cargados, diagramas de flujo complejos y gráficos con etiquetas superpuestas. Tuve una infografía con una matriz codificada por colores donde el modelo identificó incorrectamente dos de las seis categorías. Para datos financieros críticos, recomendaría verificar las entidades extraídas contra el documento fuente.

El costo escala con el número de imágenes, no con la longitud del documento. Cada imagen en el cubo de imágenes hace una llamada a la API separada al modelo de visión. Un documento de 10 páginas con 2 gráficos cuesta aproximadamente lo mismo que un documento de solo texto de 100 páginas. Pero, ¿un documento de 10 páginas con 30 imágenes incrustadas? Eso son 30 llamadas a la API de visión. El costo por llamada es pequeño (fracciones de un centavo con GPT-4o mini), pero se acumula si procesas documentos con muchas imágenes a escala. Monitorea tu uso para los primeros lotes.

La clasificación de MinerU no es perfecta. Alrededor del 5% de las veces en mis pruebas, MinerU clasificó incorrectamente un bloque de texto como imagen o viceversa. Un párrafo renderizado en una fuente inusual fue capturado como captura de pantalla en lugar de ser procesado por OCR. Una imagen de encabezado decorativa fue enviada a la pipeline de OCR en lugar de a la pipeline de visión. Estos casos extremos no rompen el sistema -- simplemente significan que parte del contenido se procesa a través de la ruta menos óptima.

A pesar de estos compromisos, el resultado neto es abrumadoramente positivo. Pasé de un sistema RAG que podía manejar quizás el 30% de mis documentos reales a uno que maneja más del 90%. Ese salto en cobertura cambió qué tipos de preguntas podía hacer y qué tipos de flujos de trabajo podía construir.

Hacia Dónde Va Esto (Y Lo Que Estoy Siguiendo)

RAG Anything se lanzó a principios de 2026 y ya está en un punto en el que lo considero listo para producción para la mayoría de los casos de uso. Pero hay algunos desarrollos que estoy siguiendo.

MinerU-Diffusion, un paper de investigación del equipo de MinerU publicado en 2026, propone tratar el OCR de documentos como "renderizado inverso" usando modelos de difusión. Si esto llega al MinerU de producción, el salto en calidad de OCR podría ser significativo -- particularmente para escaneos degradados y anotaciones escritas a mano.

Soporte de múltiples parsers. RAG Anything ya soporta tanto MinerU como Docling como parsers de documentos, seleccionando automáticamente el mejor según el tipo de documento. A medida que se añadan más parsers, la cobertura de formatos de documentos en casos extremos seguirá expandiéndose.

Integración de LLM local. Ahora mismo, los pasos de extracción de entidades y descripción de imágenes requieren un LLM en la nube con capacidades de visión. Pero la comunidad de Ollama ya está experimentando con la ejecución de RAG Anything contra modelos de visión locales como LLaVA. Si los modelos de visión locales alcanzan la calidad de GPT-4o mini para la interpretación de gráficos, toda la pipeline podría ejecutarse sin llamadas a API en la nube. Cero datos saliendo de tu máquina. Cero costo por documento después de la configuración inicial.

La propia evolución de LightRAG. LightRAG superó las 28.000 estrellas de GitHub a principios de 2026 y fue aceptado en EMNLP 2025. El proyecto se mantiene activamente con actualizaciones incrementales que no alteran la estructura del grafo -- lo que significa que el paso de fusión de RAG Anything debería seguir siendo compatible a medida que LightRAG evolucione.

La tendencia más amplia es clara: los sistemas RAG están pasando de solo texto a verdaderamente multimodal. La pregunta no es si tu pipeline RAG necesitará manejar imágenes y gráficos. Es si estarás listo cuando el próximo documento importante llegue a tu escritorio como un PDF escaneado lleno de datos visuales.

La Configuración que Me Funciona Ahora Mismo

Después de dos semanas de uso diario, aquí está la configuración en la que me he asentado:

  • Parser de documentos: MinerU con aceleración GPU habilitada
  • Motor de OCR: PaddleOCR (incluido con MinerU) -- maneja mis documentos en inglés y bengalí sin problemas
  • LLM para extracción de entidades: GPT-4o mini -- rápido, barato y lo suficientemente bueno para la interpretación de gráficos
  • Modelo de embedding: text-embedding-3-large -- la diferencia de calidad sobre modelos más pequeños es notable en la precisión de recuperación
  • Almacenamiento: Sistema de archivos local con volúmenes Docker para la interfaz de LightRAG
  • Flujo de ingesta: Skill de Claude Code que envuelve el script de ingesta de Python, maneja el reinicio del contenedor y registra estadísticas de procesamiento
  • Interfaz de consulta: Interfaz web de LightRAG para consultas ad-hoc, API de Python para acceso programático

El costo mensual total para ejecutar esta configuración en mi biblioteca de documentos es de alrededor de $3-5 en llamadas a la API. La mayor parte de eso es la ingesta inicial de documentos con muchas imágenes. Una vez que los documentos están ingeridos, las consultas llegan primero al grafo de conocimiento local y a la base de datos vectorial -- el LLM solo se llama para la generación de respuestas, no para la recuperación.

Para contexto, mi enfoque anterior -- pasar cada imagen por la API de visión de GPT-4o como paso de preprocesamiento -- me costaba $15-20 al mes para una biblioteca de documentos más pequeña. El parsing local primero de RAG Anything con procesamiento selectivo en la nube redujo mis costos en aproximadamente un 75%.

Qué Viene Después Si Quieres Construir Esto

Esto es lo que haría si empezara desde cero hoy.

Primero, haz funcionar LightRAG vanilla. Ingiere algunos documentos de texto. Ejecuta algunas consultas. Entiende cómo funciona el grafo de conocimiento, cómo se extraen las entidades y relaciones, y cómo se comporta la recuperación a dos niveles (bajo nivel para hechos específicos, alto nivel para temas conceptuales). Mi publicación anterior sobre la construcción de sistemas de investigación con IA cubre los patrones de gestión del conocimiento que aplican aquí.

Segundo, instala RAG Anything y MinerU en un entorno virtual limpio. No lo mezcles con otros proyectos de ML -- el árbol de dependencias es suficientemente profundo como para que los conflictos de versiones sean probables si compartes un entorno.

Tercero, prueba con un solo documento, moderadamente complejo. No tu caso más difícil. Algo con una mezcla de texto y algunos gráficos. Verifica que las cuatro estructuras de datos se estén generando y fusionando correctamente.

Cuarto, expande gradualmente. Añade más documentos. Prueba diferentes tipos -- PDFs escaneados, presentaciones, informes con muchas imágenes. Nota dónde cae la calidad de clasificación o extracción y si eso importa para tus consultas.

Quinto, configura la automatización de la ingesta. Ya sea una skill de Claude Code, un cron job o un script manual que ejecutas semanalmente -- ten un proceso confiable para introducir nuevos documentos en la pipeline.

La brecha entre "tengo documentos" y "puedo consultar mis documentos de manera inteligente" solía ser enorme para cualquier cosa más allá del texto limpio. RAG Anything reduce esa brecha a algo manejable. No a cero -- la configuración es trabajo real. Pero manejable.

¿Ese informe financiero que estuvo tres semanas en mi escritorio? Lo consulto diariamente ahora. El martes pasado, un cliente preguntó sobre patrones de ingresos estacionales y tuve la respuesta -- con cifras mensuales específicas extraídas de gráficos de barras escaneados -- en menos de diez segundos. No porque me hubiera memorizado los datos. Porque construí un sistema que realmente entiende los documentos que le doy, datos visuales y todo.

El PDF escaneado dejó de ser un archivo muerto en el momento en que dejé de tratar las imágenes como ciudadanos de segunda clase en mi pipeline de RAG.

Preguntas Frecuentes

¿Puede RAG Anything procesar documentos sin ninguna llamada a la API en la nube?

La fase de parsing de documentos (MinerU + PaddleOCR) se ejecuta completamente de manera local sin llamadas a la nube. La extracción de entidades y la generación de embeddings actualmente requieren un LLM en la nube con capacidades de visión, aunque la comunidad está desarrollando activamente alternativas locales usando Ollama y LLaVA.

¿Qué formatos de documento soporta RAG Anything?

RAG Anything maneja PDFs (tanto nativos como escaneados), DOCX, PPTX, XLSX y formatos de imagen comunes. MinerU identifica componentes de layout en todos estos, enrutando automáticamente texto a OCR y elementos visuales a la captura de pantalla.

¿Cuánto cuesta ejecutar RAG Anything por documento?

Los documentos de solo texto cuestan fracciones de un centavo. Para documentos con muchas imágenes, cada elemento visual hace una llamada a la API de visión del LLM -- aproximadamente $0,001-0,003 por imagen con GPT-4o mini. Un PDF escaneado de 50 páginas con 20 gráficos cuesta aproximadamente $0,04-0,08 en total. Para el desglose de costos completo, consulta la sección de configuración anterior.

¿RAG Anything reemplaza a LightRAG?

No. RAG Anything es un wrapper que extiende LightRAG con capacidades multimodales. Tu base de datos de LightRAG existente, el grafo de conocimiento y la interfaz de consulta permanecen sin cambios. RAG Anything añade a ellos fusionando datos multimodales en las mismas estructuras unificadas.

¿Qué tan precisa es la extracción de datos de gráficos y diagramas?

Para gráficos de barras estándar, gráficos de líneas y tablas simples, la precisión es alta -- GPT-4o mini identifica correctamente valores y tendencias en la gran mayoría de los casos. La precisión disminuye con diagramas de dispersión muy cargados, etiquetas superpuestas y gráficos complejos de múltiples ejes. Verifica los datos financieros críticos contra los documentos fuente.


Trabajemos Juntos

¿Buscas construir sistemas de IA, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudarte.

Coffee cup

¿Te gustó este artículo?

Tu apoyo me ayuda a crear más contenido técnico detallado, herramientas de código abierto y recursos gratuitos para la comunidad de desarrolladores.

Temas Relacionados

Engr Mejba Ahmed

Sobre el Autor

Engr Mejba Ahmed

Engr. Mejba Ahmed builds AI-powered applications and secure cloud systems for businesses worldwide. With 10+ years shipping production software in Laravel, Python, and AWS, he's helped companies automate workflows, reduce infrastructure costs, and scale without security headaches. He writes about practical AI integration, cloud architecture, and developer productivity.

Discussion

Comments

0

No comments yet

Be the first to share your thoughts

Leave a Comment

Your email won't be published

2  +  4  =  ?

Seguir Aprendiendo

Artículos Relacionados

Ver Todos

Comments

Leave a Comment

Comments are moderated before appearing.

Learning Resources

Expand Your Knowledge

Accelerate your growth with structured courses, verified certificates, interactive flashcards, and production-ready AI agent skills.

Sample Certificate of Completion

Sample certificate — complete any course to earn yours

Engr Mejba Ahmed

Engr Mejba Ahmed

Claude Code Expert · Online

👋

Hey there!

Quick Actions

WhatsApp Instant reply

Chat on WhatsApp

+880 1723 741224 · Instant reply

Popular Questions

Engr Mejba Ahmed is connected
Engr Mejba Ahmed is typing...
Engr Mejba Ahmed avatar

✉ Want me to follow up? Drop your email

Engr Mejba Ahmed avatar

📞 Connect Directly

Choose how you'd like to reach me

WhatsApp

+880 1723 741224

Email

[email protected]

✓ Details sent! I'll get back to you shortly.

Powered by OpenAI

335+

Blog Posts

25

AI Courses

63

Projects

Services & Expertise

Pricing & Process

Learning & Resources

Connect & Support