6 proyectos de IA open-source en GitHub que probé personalmente

Casi no clono el primer repositorio.

Era una mañana de domingo, tenía tres cafés alineados y un agente a medio escribir que seguía alucinando argumentos de herramientas, y mi pestaña de “Trending” en GitHub hacía eso de que todos los proyectos parecen la misma captura de pantalla: terminal oscura, degradado púrpura, “autónomo” en el eslogan. Estaba a punto de cerrar el navegador e ir a arreglar mi agente roto con Claude Code y fuerza bruta. Entonces vi Hermes Agent, miré su diagrama de arquitectura de memoria y pensé, espera, esto podría realmente resolver el problema que estoy intentando forzar ahora mismo.

Así empezó este post.

Durante la semana siguiente, cloné seis proyectos de IA open-source que han estado subiendo en las listas de tendencias de GitHub entre marzo y principios de abril de 2026. No para reseñarlos como un turista leyendo notas de prensa. Para ejecutarlos realmente en mi máquina, romperlos, probar las partes que el README omite y ver cuáles valen tu fin de semana. Algunos cambiaron mi forma de pensar sobre dónde vive la IA (pista: no siempre en un centro de datos). Uno de ellos está haciendo memoria de agente de una manera que ahora estoy copiando descaradamente en mi propio stack. Y uno es un pequeño archivo CLAUDE.md que, en silencio, podría ser lo más útil que he instalado en todo el mes.

Antes de entrar en los seis proyectos, una idea que no dejaba de rondarme mientras probaba: la frontera interesante en la IA open-source ahora mismo no son los modelos más grandes. Son los más pequeños, más especializados, más locales y más honestos sobre lo que realmente son los LLM. Cada proyecto de esta lista va en esa dirección: alejándose del “un gran modelo en la nube lo hace todo” y acercándose a “pequeñas piezas, unidas de forma flexible, ejecutándose donde realmente trabajas”.

Vamos allá.

Por Qué Este Recopilatorio Es Diferente a Los Que Ya Has Leído

Lo sé. Otro artículo de “repositorios de GitHub en tendencia”. Yo también suelo pasar de largo.

El problema con la mayoría de estos recopilatorios es que están escritos solo a partir del README. Alguien abre el repositorio, lee la descripción destacada, toma la captura de pantalla y parafrasea la lista de funciones en quince párrafos de prosa que suena a IA. Terminas el artículo con cero idea de cómo es realmente usar la herramienta.

Yo enfoqué esto de otra manera. Para cada uno de estos seis proyectos, hice tres cosas:

Cloné el repositorio y lo puse a funcionar localmente — o lo instalé como lo haría un usuario normal (la galería edge la instalé en mi iPhone, la skill de Karpathy la integré en Claude Code como un plugin real).
Ejecuté una tarea concreta que se ajusta a cómo lo usaría en trabajo real — no la demo seleccionada del readme.
Anoté la primera cosa que falló, resultó confusa o no coincidía con el marketing.

Esa tercera parte es donde este post justifica su extensión. Las dos primeras cosas las puedes encontrar en cualquier blog. La tercera es la que te ahorra un sábado perdido.

Una nota de organización: llevo un tiempo escribiendo sobre el ecosistema open-source de agentes, y algunos de estos proyectos se solapan con temas que ya he tratado antes — cosas como el sistema de skills de agentes de Claude Code, alternativas open-source a Claude como OpenClaw, y gestión de flujos multi-agente con herramientas Kanban. Cuando haya un enlace directo, te llevaré al post más profundo en vez de repetir contenido.

Bien. Seis proyectos. Empecemos por el que, en silencio, es el más disruptivo.

1. Google AI Edge Gallery — La App Store para LLMs Pequeños en tu Bolsillo

La primera vez que instalas Google AI Edge Gallery y apagas el wifi, parece un pequeño truco de magia.

Abres la app. Cargas un modelo — por ejemplo, una de las variantes compactas de Gemma 4 del catálogo integrado. Tocas "chat". Escribes una pregunta. Responde. Sin un spinner esperando al servidor. Sin el banner de "Comprobando conexión...". Sin un contador de tokens en la nube subiendo. Solo un modelo, el silicio de tu teléfono y una respuesta.

Esa es la propuesta, y es real.

Qué es realmente

AI Edge Gallery es una app de referencia open-source de Google — Kotlin en Android, Swift en iOS — construida sobre LiteRT-LM, el nuevo motor de inferencia de alto rendimiento de Google para ejecutar LLMs en el edge. Piensa en la galería como una vitrina y una herramienta de desarrollo fusionadas: una app pulida para el usuario final que puedes ejecutar en tu propio teléfono, y una base de código open-source que puedes bifurcar, simplificar y reutilizar en tu propio proyecto de IA móvil.

El repositorio está en google-ai-edge/gallery en GitHub. La versión para iOS está en la App Store como "Google AI Edge Gallery". Y lo importante: toda la implementación de referencia — selección de modelos, inferencia local, salida estructurada, incluso llamadas a herramientas agenticas — está ahí en el código para que la leas.

Qué probé

La llevé en tres direcciones concretas:

Prueba 1: Modo avión, generación de texto largo. Cargué una variante pequeña de Gemma, puse mi iPhone en modo avión y le pedí que redactara una nota de lanzamiento de tres párrafos a partir de una lista de puntos. La respuesta fue quizá un 40% más lenta que una llamada a la nube desde el mismo lugar, pero — y este es el punto — sucedió, en un dispositivo que, para la red, era un ladrillo. Para redactar sobre la marcha donde la privacidad importa (notas médicas, resúmenes para clientes, cualquier cosa que no quieras que pase por una API de terceros), esto ya es útil.

Prueba 2: Habilidades agenticas con llamadas a herramientas. Según el blog de desarrolladores de Google, Gemma 4 en el edge ya soporta lo que llaman "habilidades agenticas" — grounding vía Wikipedia, mapas interactivos, tarjetas de resumen. Probé el flujo con grounding en Wikipedia y funcionó más o menos como prometen, aunque la fiabilidad de las llamadas a herramientas fue visiblemente más inestable que lo que suelo ver en modelos cloud más grandes. Bien para una demo. Aún no apto para producción.

Prueba 3: Bifurcar el código en mi propio proyecto móvil. Aquí es donde la galería brilla. Porque es una app de referencia real y funcional, puedes ver exactamente cómo Google piensa que debe cablearse la inferencia LLM en el dispositivo — gestión de modelos, manejo de memoria, construcción de prompts, toda la pila. Pasé una hora leyendo el pipeline de inferencia y aprendí más sobre arquitectura práctica de IA en el edge que en tres semanas de posts en blogs.

Lo que falla (o al menos, lo que es mejorable)

Dos advertencias honestas. Primero, los modelos que puedes ejecutar hoy en un teléfono son realmente pequeños, y sus limitaciones se notan. Espera respuestas seguras pero erróneas en todo lo que requiera conocimiento general amplio o razonamiento de varios pasos. Segundo, la ruta de llamadas a herramientas agenticas es nueva y algo frágil — cuando falla, lo hace en silencio, lo cual es peor que un error ruidoso.

La verdadera conclusión

La IA en el dispositivo ya no es solo una "demo interesante en un paper académico". Está disponible, como open source, con una app de referencia de producción que puedes ejecutar ahora mismo. Todo desarrollador móvil que conozco debería dedicar una noche a clonar este repo y leer el código de inferencia. El futuro en el que cada app tiene un pequeño modelo local haciendo el 80% del trabajo antes de tocar una API en la nube está mucho más cerca.

Y ese es el primer proyecto. Si la edge gallery trata de dónde corre la IA, el siguiente proyecto trata de cómo aprendemos de ella.

2. DeepTutor — Asistente de Aprendizaje Nativo de Agentes y de Código Abierto

Voy a decir algo que puede sonar injusto para ChatGPT: si realmente quieres aprender de un documento, la ventana de chat convencional es la interfaz equivocada.

Seguro que lo has sentido. Subes un PDF, haces preguntas, recibes respuestas, pero nunca aprendes el documento. No hay estructura. No hay progreso. No existe un “esto es lo que has entendido, esto es lo que te falta, aquí tienes una pregunta de práctica para comprobarlo”. El documento y el chat viven en dos universos distintos, y tú acabas copiando y pegando frenéticamente entre ambos.

DeepTutor, del laboratorio de ciencia de datos de la Universidad de Hong Kong, es el intento de código abierto más serio que he visto para solucionar esto.

Qué es

DeepTutor se presenta como un “asistente de aprendizaje personalizado nativo de agentes”. Traducción: es un sistema de código abierto y multiagente construido en torno a la idea de que aprender es un flujo de trabajo, no un chat. Subes PDFs, TXT o Markdown. Construye una base de conocimientos indexada y buscable. Luego ejecuta agentes encima: uno para preguntas y respuestas con citas precisas, otro para generar preguntas de práctica, otro para rutas de aprendizaje guiadas paso a paso, y otro para construir un grafo de conocimiento que conecta entidades y relaciones a lo largo de tus materiales.

Lo que me parece más interesante: mantiene un “perfil” persistente de ti —tus objetivos, tus preferencias, tu progreso actual— y un “resumen” dinámico de lo que has aprendido. Ese es el bucle de retroalimentación que las interfaces de chat no tienen.

Según los mantenedores, el proyecto superó las 1.400 estrellas en GitHub en su primera semana y sigue creciendo. No he verificado de forma independiente el número actual de estrellas, pero la actividad en el repositorio es claramente real.

Qué probé

Lo puse a prueba con un conjunto que realmente necesitaba entender: la documentación del Anthropic Agent SDK más dos PDFs técnicos extensos sobre arquitectura de memoria para agentes. Unas 180 páginas repartidas en tres archivos. Esto fue lo que ocurrió:

Subí los archivos, esperé el indexado (sorprendentemente rápido — menos de dos minutos en una máquina de especificaciones medias) y lancé una pregunta que me había estado costando resolver: “¿Cuándo entra en acción la compactación de memoria del SDK y cuáles son los trade-offs entre la compactación eager y lazy?” La respuesta llegó con citas específicas a los pasajes exactos de los PDFs, no paráfrasis vagas. Solo eso ya lo puso por delante de la experiencia típica de chat con PDF que había probado decenas de veces antes.

Luego probé el generador de preguntas de práctica. Produjo cinco preguntas con un nivel de dificultad adecuado, de las cuales tres resultaron realmente útiles (las otras dos eran triviales). El recorrido guiado de aprendizaje fue donde realmente se ganó su lugar: convirtió los tres documentos en un plan de lecciones básico con puntos de control.

Sus limitaciones

La configuración es más compleja que simplemente “instalar una app”. Es un sistema multiagente de código abierto, lo que significa que tienes que conectar modelos, variables de entorno y un runtime local. Es un proyecto para desarrolladores y usuarios avanzados, no para tu amigo no técnico que solo quiere un chat mejorado para PDFs. Además, la calidad de las preguntas de práctica y del grafo de conocimiento varía bastante según el LLM que conectes.

Por qué importa

DeepTutor apunta a algo mucho más grande que sí mismo. El futuro de “aprender con IA” no es una ventana de chat acoplada a un visor de PDFs. Son flujos de trabajo de agentes diseñados específicamente, donde la IA conoce tus objetivos, tu progreso y el material —y orquesta todo en torno a esos tres elementos. DeepTutor es una versión temprana, imperfecta pero muy prometedora de ese futuro, y es completamente open source. Si enseñas, das clases particulares, creas materiales didácticos o simplemente quieres aprender más de tu pila de documentos, clónalo.

Eso hace dos proyectos sobre dónde vive la IA y cómo aprendemos de ella. Ahora llegamos al que ha cambiado silenciosamente mi forma de pensar sobre la memoria de los agentes.

3. Hermes Agent — Un agente de IA que realmente recuerda

Bien. Este es el que me hizo reestructurar mi propio agente.

Aquí está el problema con el que tarde o temprano se topa todo desarrollador de agentes de IA open-source: la memoria. Empiezas con un prompt limpio, construyes contexto a lo largo de una sesión y todo funciona. Luego intentas que el agente recuerde entre sesiones. Tu primer movimiento es meter todo en el prompt del sistema: conversaciones pasadas, preferencias del usuario, datos del proyecto. Funciona. Hasta que deja de funcionar. Hasta que el prompt se infla más allá de lo razonable, el coste se dispara, la latencia se hunde y el modelo empieza a recordar mal, con seguridad, cosas que debería saber.

He visto este patrón una docena de veces. He construido este patrón una docena de veces. Hermes Agent, de Nous Research, es el primer framework open-source que he encontrado que trata la memoria como un problema arquitectónico de primer nivel y lo resuelve como debería resolverse: con capas de memoria especializadas y recuperación bajo demanda, en lugar de saturar el prompt.

Qué hay realmente en el sistema de memoria

Según la documentación del proyecto, Hermes ejecuta una arquitectura de memoria multinivel (el marketing a veces la llama de tres capas, a veces multinivel — me quedaré con lo que describen los docs). Como mínimo, separa:

Memoria de sesión — el contexto estándar en ejecución de la interacción actual.
Memoria persistente — hechos, preferencias y detalles del proyecto que sobreviven entre sesiones.
Memoria de habilidades — cuando el agente resuelve algo no trivial, escribe un "documento de habilidad" reutilizable que describe cómo llegó a esa solución, y ese documento se convierte en algo recuperable a lo que el agente puede referirse más adelante.

Por debajo, la capa persistente utiliza búsqueda de texto completo FTS5 más resumen impulsado por LLM, así que en lugar de meter todas las conversaciones pasadas en el prompt, el agente recupera solo los fragmentos relevantes cuando son relevantes. También incorpora modelado dialéctico del usuario (tomado de Honcho) para mantener un modelo vivo del usuario en vez de un simple bloque estático de "acerca de mí".

Nous Research lo llama "un agente que crece contigo". Según lo que probé, esa descripción está bastante justificada.

Qué probé

Probé Hermes en un escenario que conozco bien: un proyecto de desarrollo de software de larga duración donde el agente necesita recordar decisiones arquitectónicas entre sesiones sin tener que ser re-informado cada vez. Le di una descripción ficticia de una base de código SaaS, mantuve una conversación de diseño, cerré la sesión, volví tres horas después y le hice una pregunta de seguimiento que dependía de una decisión de la conversación anterior.

Recordó. No porque tuviera todo el chat previo en contexto, sino porque recuperó el documento de decisión específico, lo mostró y continuó desde ahí. Ese es el comportamiento correcto, y es la primera vez que veo que un framework de agente open-source lo hace de forma limpia.

También probé el ciclo de generación de habilidades: guié a Hermes a través de una tarea moderadamente compleja (crear el esqueleto de un CLI en TypeScript) y, al terminar, comprobé si se había escrito a sí mismo una habilidad. Así fue. El documento de habilidad no era perfecto — era un poco demasiado específico para la tarea exacta que le había dado — pero el ciclo funcionó. La próxima vez que le pida crear algo similar, tendrá esa habilidad para reutilizar.

Dónde tendría cuidado

Hermes es joven, evoluciona rápido y su arquitectura es ambiciosa. Algunas cosas a vigilar: la calidad de la recuperación depende mucho de cómo se construya el índice FTS5, los documentos de habilidades pueden acumular basura si no los depuras de vez en cuando, y como el sistema se modifica a sí mismo (añadiendo habilidades con el tiempo), deberías tratar el almacén de habilidades como un repositorio de código — revisa lo que escribe, no lo des por sentado.

Si estás construyendo cualquier tipo de agente de IA persistente, este es el proyecto que tienes que leer este mes. No necesariamente para adoptarlo tal cual, sino para estudiarlo. El modelo mental — la memoria como recuperación a través de capas especializadas, no saturación—es el modelo mental correcto, y Hermes es la implementación open-source más limpia que he encontrado.

Y eso lleva naturalmente al siguiente problema: una vez que tienes agentes inteligentes, ¿cómo ejecutas más de dos sin volverte loco?

4. Multica — Gestión de Proyectos para Equipos Humanos y de Agentes

Tengo una confesión. Durante meses, mi “flujo de trabajo multiagente” consistía en seis terminales de Claude Code en un gestor de ventanas en mosaico, nombradas agent-1 a agent-6, y un documento de Notion que actualizaba a mano cuando me acordaba. Eso no es un flujo de trabajo. Es un mecanismo de supervivencia.

Multica intenta solucionar exactamente ese problema.

Qué es

Multica se describe como “la plataforma de agentes gestionados open-source”: una capa de orquestación y gestión de proyectos para agentes de codificación con IA. A diferencia de las herramientas que intentan ser el agente, Multica se integra con el agente que ya usas (Claude Code, Codex, OpenClaw, OpenCode — el daemon detecta automáticamente los CLIs en tu PATH) y te ofrece una interfaz tipo Kanban para asignar, seguir y coordinar el trabajo entre ellos.

La propuesta en lenguaje sencillo: “trata a tus agentes de codificación como compañeros de equipo.” Creas una tarea. La asignas a un agente. El agente la toma, reporta el estado, señala bloqueos y actualiza el tablero mientras trabaja. Obtienes un panel de control estilo misión que muestra en tiempo real lo que hace cada agente, y un ciclo de vida de tareas que refleja cómo operan realmente los equipos de ingeniería humanos.

Multica es autoalojable mediante Docker Compose o Kubernetes, y también ofrecen una versión en la nube gestionada si no quieres mantener tu propia infraestructura.

Qué probé

Ejecuté la versión autoalojada con Docker Compose en mi máquina de desarrollo, la conecté a mi instalación local de Claude Code y le lancé tres tareas pequeñas: añadir un limitador de tasa a una API de Express, escribir una GitHub Action para un proyecto Node y refactorizar un componente React desordenado. Tareas estándar que cualquier agente de codificación razonable debería poder manejar.

Lo que me gustó: ver cómo las columnas Kanban se actualizaban en tiempo real a medida que el agente movía los tickets de “en cola” → “en progreso” → “necesita revisión”. Cuando el agente se atascó en el refactor de React porque el componente era más raro de lo que la tarea describía, marcó un bloqueo en vez de generar basura silenciosamente. Ese es el comportamiento exacto que esperas de un sistema gestionado.

Lo que no me encantó: la configuración inicial tomó más tiempo del que esperaba. La detección automática de mi CLI de Claude Code fue impecable, pero hacer que el runtime se comunicara con mi directorio de proyectos preferido requirió algunos ajustes de configuración. No fue difícil, solo que no fue “un solo clic”.

Dónde destaca — y dónde no

Multica brilla cuando realmente ejecutas varios agentes en paralelo sobre trabajos relacionados. En el momento en que orquestas tres o más agentes en un proyecto, algo como Multica pasa de ser “una interfaz bonita” a “realmente necesario”. Si solo ejecutas un agente en una tarea, es excesivo.

También vale la pena decirlo: esta categoría se está llenando rápido. Vibe Kanban, Veritas Kanban, paneles Mission Control, el propio Agent HQ de GitHub — todos quieren ser la capa de “gestor de proyectos para agentes”. La propuesta de Multica es open-source, autoalojado, multi-CLI. Si esos son tus requisitos, es una opción sólida. Si te sientes cómodo en un ecosistema cerrado, puede que no lo necesites.

Una conexión interesante: ya he escrito antes sobre cómo las interfaces Kanban se están convirtiendo en la UI por defecto para sistemas multiagente, y Multica es un buen ejemplo de esa tendencia. El espacio de herramientas para agentes ha decidido claramente que “tickets en un tablero” es la abstracción correcta para la colaboración humano+IA, y no creo que eso vaya a cambiar.

Cuatro menos. Siguiente: un proyecto que no tiene absolutamente nada que ver con agentes, memoria u orquestación, y está en esta lista porque hace algo mucho más simple. Competir con un SaaS de pago.

5. OpenScreen (y compañía) — Screen Studio gratuito, sin suscripciones

Screen Studio es una aplicación para Mac realmente atractiva. También cuesta $29 al mes o una tarifa única considerable, según el plan que elijas, y eso es mucho para un grabador de pantalla, incluso si hace auto-zoom y animación de cursor de forma realmente impecable.

La comunidad de código abierto, siendo la comunidad de código abierto, vio esto y dijo: podemos construir eso.

Y lo hicieron. Varias veces.

Qué existe realmente

El resumen original para este artículo describía "Open Source Screen Studio" como un único proyecto, pero lo que encontré en abril de 2026 se parece más a un pequeño ecosistema de proyectos muy similares orbitando la misma idea:

OpenScreen — la alternativa original de código abierto a Screen Studio. Sin suscripciones, sin marcas de agua, gratis para uso comercial.
Recordly — grabador de pantalla para Mac/Windows/Linux con auto-zoom, cursores animados, subtítulos automáticos. Construido sustancialmente sobre la base de OpenScreen.
Open Recorder — una versión con Tauri + Rust de la misma idea, optimizada para ser pequeña y rápida.
Open ScreenStudio — otro fork/variante, centrado en el zoom automático y efectos de cursor suaves.

Son cuatro proyectos open source haciendo esencialmente el mismo trabajo, todos nacidos en los últimos seis a nueve meses. Si quieres una opción aún más consolidada, las alternativas veteranas (OBS Studio, ShareX) siguen existiendo, pero no tienen la "estética pulida de walkthrough" que persiguen estos proyectos más recientes.

Qué probé

Instalé OpenScreen e hice lo que normalmente haría en Screen Studio: grabar un walkthrough de dos minutos de un flujo de trabajo en la terminal, con auto-zoom en los clics y un fondo suave detrás de la ventana. El resultado no fue idéntico píxel a píxel al de Screen Studio, pero para el 90% de los casos —videos tutoriales, reemplazos de Loom, walkthroughs de producto— fue lo suficientemente bueno como para que la diferencia no importara. Y no pagué $29.

Recordly es el que realmente recomendaría probar primero si usas Mac y quieres la experiencia más parecida; es el más activamente mantenido del grupo a principios de abril de 2026.

Por qué importa esta categoría de proyectos

Esto no va solo de grabar pantalla. Va del patrón.

Cada categoría de SaaS creativo de pago —grabación de pantalla, herramientas de escritura, utilidades de diseño, toma de notas, gestión de tareas— está recibiendo ahora su versión "alternativa gratuita y open source construida con Tauri o Electron en un fin de semana". A veces, tres versiones. La economía del software de productividad de consumo cerrado está siendo presionada desde abajo de una forma que no ocurría hace dos años, y la razón es en parte la IA: cuando un desarrollador en solitario puede usar Claude Code para crear una app de escritorio real en un fin de semana, el coste de clonar un producto de $29/mes tiende a cero.

He estado escribiendo sobre cómo la IA está revolucionando los modelos de precios SaaS y este es el mismo patrón reproduciéndose en una categoría concreta. Espera ver mucho más de esto.

Queda uno más. Y este es el repositorio más pequeño de la lista. Y puede que sea mi favorito.

6. Habilidades Inspiradas en Karpathy para Claude Code — El Pequeño Archivo que Corrigió los Peores Hábitos de Mi Agente

Andrej Karpathy ha sido públicamente vocal, en repetidas ocasiones, sobre cómo los LLMs de la generación actual fallan de maneras predecibles y específicas cuando se usan para programar. Las citas que vale la pena recordar son, aproximadamente: los modelos asumen cosas incorrectas por ti y siguen adelante sin comprobar. No gestionan su confusión, no buscan aclaraciones, no muestran inconsistencias, no presentan compensaciones, no se resisten cuando deberían hacerlo.

Eso sí que es un diagnóstico contundente. Y Forrest Chang tomó ese diagnóstico y lo convirtió en un solo archivo CLAUDE.md que puedes añadir a cualquier proyecto de Claude Code.

Qué es

andrej-karpathy-skills es, en esencia, un solo archivo. Es una configuración CLAUDE.md destilada a partir de las observaciones de Karpathy sobre los errores comunes de los LLM al programar, empaquetada como un plugin para Claude Code. Lo instalas, vive a nivel de proyecto o usuario, y reconfigura el comportamiento de Claude Code en las tareas donde es más probable que falle.

Los principios generales que aplica:

Ejecución orientada a objetivos por encima de instrucciones imperativas. En vez de simplemente "haz lo que el usuario dijo", el agente se orienta a comprender el objetivo detrás de la instrucción y verificar el éxito en función de ese objetivo.
Cambios quirúrgicos en lugar de reescrituras extensas. Si se le pide corregir un bug, corrige ese bug. No refactorices silenciosamente tres archivos no relacionados mientras estás ahí.
Expón las suposiciones en vez de actuar sobre ellas en silencio. Si hay ambigüedad, pregunta. Si hay una compensación, nómbrala.
Define criterios de éxito verificables. No afirmes que algo funciona. Ejecuta lo que demuestre que funciona.

Ninguno de estos principios es revolucionario. Pero todos marcan la diferencia entre un agente que te ahorra una hora y uno que te hace perder tres.

Qué probé

Instalé el plugin en mi configuración diaria de Claude Code y seguí mi flujo de trabajo habitual durante una semana: corrección de bugs, pequeñas funcionalidades, algo de refactorización en el sitio de la marca. Dos cosas cambiaron notablemente.

Primero, el problema de las refactorizaciones excesivas disminuyó considerablemente. Le pedí que corrigiera un bug específico de caché en un controlador de Laravel. Antes del plugin, "amablemente" también habría reescrito la firma del método y movido tres líneas no relacionadas. Después del plugin, corrigió el bug, dejó todo lo demás intacto y explicó el motivo.

Segundo —y este es el cambio más importante— empezó a hacer mejores preguntas. Cuando le di instrucciones ambiguas (a propósito, como prueba), en vez de adivinar y seguir adelante, se detuvo y preguntó qué interpretación prefería. Solo ese cambio de comportamiento ya justifica la instalación.

La advertencia honesta

Esto es un solo archivo de configuración, no un framework. Es tan bueno como el LLM que está moldeando, y no puede corregir limitaciones fundamentales del modelo —solo exponerlas de forma más honesta. Si usas Claude Code con un modelo base débil, este plugin lo hará menos imprudente, no más inteligente. Si usas Claude Code con un modelo base sólido, este plugin es una mejora real de productividad.

Llevo tiempo escribiendo sobre habilidades de Claude Code y cómo crear las tuyas, y este es un gran ejemplo del patrón llevado al mínimo. Demuestra que un archivo de habilidades realmente bien escrito puede ser más valioso que un plugin complicado con herramientas personalizadas.

El patrón subyacente en los seis proyectos

Después de una semana de pruebas, me senté a analizar qué tenían en común estos seis proyectos más allá de ser "open source" y de "IA". Esto es lo que descubrí.

Todos rechazan el monolito. Google Edge Gallery demuestra que la IA no tiene por qué residir en un centro de datos. DeepTutor plantea que tu flujo de aprendizaje no tiene que estar atado a una ventana de chat. Hermes propone que la memoria de tu agente no tiene por qué estar en su prompt. Multica muestra que tu flujo de trabajo multiagente no tiene que vivir en seis pestañas de terminal. OpenScreen defiende que tus herramientas creativas no tienen por qué estar detrás de un muro de suscripción. Y la skill de Karpathy demuestra que el cerebro de tu agente de código no tiene que ser una gran esperanza de que el modelo acierte.

Cada uno de estos proyectos toma una parte del modelo mental de "un gran sistema de IA que lo hace todo" y lo descompone en piezas más pequeñas, más especializadas y más abiertas. Esa es la verdadera tendencia. No es una herramienta, modelo o benchmark específico, sino la descomposición de los flujos de trabajo de IA en partes que puedes poseer, intercambiar y ejecutar tú mismo.

El otro patrón: la especialización con opinión está superando a la generalidad de propósito general. Hermes supera a los "clones de Claude con prompts inflados" no porque sea un modelo más grande, sino porque tiene una visión clara sobre la memoria. DeepTutor supera al "chat genérico con PDF" porque tiene una postura definida sobre el aprendizaje. El plugin de skills de Karpathy supera al Claude Code estándar porque tiene una visión clara sobre dónde fallan los LLM. En un mundo donde cada modelo fundacional compite por ser generalista, las victorias provienen de agentes y herramientas que son especializadas con confianza y sin concesiones.

Si estás construyendo en este espacio — incluso como desarrollador en solitario — esa es la conclusión que escribiría en una nota adhesiva. Elige un punto de vista. Sé especializado. No intentes ser más generalista que los modelos fundacionales. No puedes, y no lo necesitas.

Qué Estoy Haciendo con Todo Esto

Aquí tienes mi plan honesto para las próximas dos semanas, por si te resulta útil.

Estoy tomando la arquitectura de memoria de Hermes como inspiración y reconstruyendo la capa de memoria en mi propio stack de agentes — específicamente la división entre memoria de sesión, persistente y de habilidades. La habilidad de Karpathy ya está instalada en mi flujo diario con Claude Code, y no pienso desinstalarla. Tengo Multica corriendo en una máquina de desarrollo para un experimento con cuatro agentes de codificación en paralelo en un proyecto real. Y voy a dedicar una noche a leer el pipeline de inferencia de Edge Gallery solo para aprender.

DeepTutor lo guardo en la recámara para un caso de uso específico: la próxima vez que necesite aprender a fondo un documento técnico largo, esa será la herramienta que usaré en vez de otra ronda de chat en la nube.

OpenScreen ya está reemplazando mi flujo de grabación de pantalla, lo cual — dado que escribo muchos tutoriales — es, silenciosamente, el mayor ahorro de tiempo semanal de esta lista.

Tu reto para el fin de semana, si quieres uno: elige el proyecto de esta lista que se relacione con un problema que ya tengas. Clónalo. Hazlo funcionar. Rómpelo una vez. Vuelve y decide si lo mantienes. Eso es todo. Un proyecto, un fin de semana, una prueba honesta.

Porque lo que aprendí esta semana — lo que sigo aprendiendo cada vez que hago una de estas inmersiones profundas — es que leer sobre herramientas no es lo mismo que ejecutarlas, y el flujo de trabajo de nadie ha cambiado solo por leer un blog. Los proyectos de esta lista son interesantes. Lo que sucede después de clonar uno es lo que realmente importa.

Ve y clona algo.

Preguntas Frecuentes

¿Cuáles son los mejores proyectos de IA open-source en GitHub en abril de 2026?

Los proyectos de IA open-source más interesantes en este momento se dividen entre inferencia en dispositivo (Google AI Edge Gallery, LiteRT-LM), memoria y orquestación de agentes (Hermes Agent, Multica), flujos de aprendizaje (DeepTutor), alternativas a Screen Studio (OpenScreen, Recordly) y plugins de habilidades para Claude Code (andrej-karpathy-skills). Para un análisis más profundo de la relevancia de cada uno, consulta los seis recorridos de proyectos anteriores.

¿Realmente puedo ejecutar un LLM en mi teléfono sin internet?

Sí. Google AI Edge Gallery, construido sobre LiteRT-LM, ejecuta modelos LLM pequeños de pesos abiertos como las variantes de Gemma 4 completamente en el dispositivo, tanto en iOS como en Android. El rendimiento es más lento que la inferencia en la nube y los modelos son más pequeños, pero para casos de uso privados, offline y sensibles a la latencia, ya está listo para producción en flujos de trabajo reales.

¿Es Hermes Agent mejor que Claude Code u OpenClaw para construir agentes de IA?

Resuelven problemas diferentes. Claude Code y OpenClaw son entornos de agentes enfocados en la programación; Hermes Agent es un framework de agentes de propósito general con un sistema de memoria multinivel especializado. Si estás construyendo un agente personal de larga duración que necesita recordar cosas entre sesiones, la arquitectura de memoria de Hermes merece ser estudiada — consulta la sección de Hermes más arriba para el desglose completo.

¿Cuál es la mejor alternativa open-source a Screen Studio?

A abril de 2026, OpenScreen es la alternativa open-source original a Screen Studio, mientras que Recordly es el fork más activamente mantenido y con mayor paridad de funciones. Open Recorder (Tauri + Rust) es la opción más ligera. Los tres son gratuitos, sin suscripciones, y adecuados para la mayoría de los flujos de trabajo de tutoriales y walkthroughs.

¿Vale la pena instalar el plugin de Claude Code de Karpathy?

Para usuarios diarios de Claude Code, sí. Es un único archivo de configuración que aplica cambios quirúrgicos en el código, expone supuestos y reduce el problema de refactorizaciones excesivas — abordando exactamente los errores comunes de codificación con LLM que Andrej Karpathy ha señalado repetidamente. Es la instalación de menor esfuerzo y mayor impacto de esta lista.

Trabajemos Juntos

¿Buscas construir sistemas de IA, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudarte.

Fiverr (desarrollos e integraciones a medida): fiverr.com/s/EgxYmWD
Portafolio: mejba.me
Ramlit Limited (soluciones empresariales): ramlit.com
ColorPark (diseño y branding): colorpark.io
xCyberSecurity (servicios de seguridad): xcybersecurity.io