6 projetos de IA open source no GitHub que testei na prática

Eu quase não clonei o primeiro repositório.

Era uma manhã de domingo, eu tinha três cafés alinhados e um agente meio escrito que continuava alucinando argumentos de ferramentas, e minha aba “Trending” do GitHub estava naquele modo em que todo projeto parece o mesmo screenshot — terminal escuro, gradiente roxo, “autonomous” no slogan. Eu já estava pronto para fechar o navegador e ir consertar meu agente quebrado com Claude Code e força bruta. Então vi o Hermes Agent, olhei para o diagrama da arquitetura de memória dele e pensei, espera, isso talvez resolva exatamente o que estou tentando forçar agora.

Foi assim que esse post começou.

Na semana seguinte, clonei seis projetos de IA open source que vêm subindo nos rankings de tendências do GitHub entre março e início de abril de 2026. Não para resenhar como turista lendo press release. Para realmente rodar na minha máquina, quebrar, testar as partes que o README ignora e ver quais realmente valem seu fim de semana. Alguns deles mudaram minha visão sobre onde a IA pode rodar (dica: nem sempre em datacenter). Um deles está fazendo memória de agente de um jeito que agora estou copiando sem vergonha para minha própria stack. E um deles é um simples arquivo CLAUDE.md que talvez seja, discretamente, a coisa mais útil que instalei no mês.

Antes de entrar nos seis projetos, um ponto de contexto que ficou martelando enquanto eu testava: a fronteira interessante da IA open source agora não são modelos maiores. São modelos menores, mais especializados, mais locais e mais honestos sobre o que LLMs realmente são. Todo projeto desta lista puxa nessa direção — longe do “um modelo gigante na nuvem resolve tudo” e em direção ao “pequenas peças, frouxamente conectadas, rodando onde você realmente trabalha”.

Vamos lá.

Por Que Este Resumo É Diferente Dos Que Você Já Leu

Eu sei. Mais um post de “repositórios em alta no GitHub”. Eu também passo direto por eles.

O problema da maioria desses resumos é que são escritos a partir do README. Alguém abre o repositório, lê a descrição fixada, pega o screenshot e parafraseia a lista de recursos em quinze parágrafos de prosa com cara de IA. Você termina o artigo com zero ideia de como é realmente usar aquilo.

Eu segui outro caminho. Para cada um desses seis projetos, fiz três coisas:

Clonei o repositório e coloquei para rodar localmente — ou instalei do jeito que um usuário comum faria (a edge gallery foi para o meu iPhone, a skill do Karpathy entrou no Claude Code como um plugin de verdade).
Executei uma tarefa concreta que condiz com meu uso real — não o demo selecionado a dedo do readme.
Anotei a primeira coisa que quebrou, ficou confusa ou não bateu com o marketing.

É essa terceira parte que justifica o tamanho deste post. As duas primeiras você encontra em qualquer blog. A terceira é o que te salva de perder um sábado à toa.

Um aviso rápido: já escrevo sobre o ecossistema open-source de agentes há um tempo, e alguns desses projetos se sobrepõem a temas que já tratei antes — como o sistema de skills de agentes do Claude Code, alternativas open-source ao Claude como o OpenClaw e gestão de fluxos multiagente com ferramentas Kanban. Quando houver um link direto, vou te direcionar para o post mais aprofundado, em vez de repetir conteúdo.

Vamos lá. Seis projetos. Começando por aquele que, discretamente, é o mais disruptivo.

1. Google AI Edge Gallery — A App Store Para Pequenos LLMs No Seu Bolso

A primeira vez que você instala o Google AI Edge Gallery e desliga o wifi, parece um pequeno truque de mágica.

Você abre o app. Carrega um modelo — digamos, uma das variantes compactas do Gemma 4 do catálogo integrado. Toca em "chat". Digita uma pergunta. Ele responde. Sem spinner esperando por um servidor. Sem banner de "Verificando conexão...". Sem contador de tokens subindo em algum lugar na nuvem. Apenas um modelo, o silício do seu telefone e uma resposta.

Essa é a proposta — e ela é real.

O que é, de fato

O AI Edge Gallery é um app de referência open-source do Google — Kotlin no Android, Swift no iOS — construído sobre o LiteRT-LM, o novo mecanismo de inferência de alta performance do Google para rodar LLMs na borda. Pense na galeria como uma vitrine e uma ferramenta de desenvolvimento fundidas em uma só: um app polido para o usuário final que você pode rodar no seu próprio celular, e um código-fonte aberto que você pode fazer fork, simplificar e reutilizar no seu próprio projeto de IA móvel.

O repositório está em google-ai-edge/gallery no GitHub. A versão para iOS está na App Store como "Google AI Edge Gallery". E o que vale saber: toda a implementação de referência — UI de seleção de modelo, inferência local, saída estruturada, até chamadas de ferramentas agenticas — está ali no código para você ler.

O que eu testei

Levei o app a três situações específicas:

Teste 1: Modo avião, geração de texto longo. Carreguei uma variante pequena do Gemma, coloquei meu iPhone em modo avião e pedi para redigir uma nota de lançamento de três parágrafos a partir de uma lista de tópicos. A resposta foi talvez 40% mais lenta do que uma chamada na nuvem do mesmo local, mas — e esse é o ponto — aconteceu, em um dispositivo que, para toda a rede, era um tijolo. Para rascunhos em movimento onde privacidade importa (anotações médicas, briefings de clientes, qualquer coisa que você não quer trafegando por uma API de terceiros), isso já é útil.

Teste 2: Habilidades agenticas com chamadas de ferramentas. Segundo o blog de desenvolvedores do Google, o Gemma 4 na borda agora suporta o que eles chamam de "habilidades agenticas" — grounding via Wikipedia, mapas interativos, cartões de resumo. Testei o fluxo com grounding na Wikipedia e funcionou mais ou menos como anunciado, embora a confiabilidade das chamadas de ferramentas fosse visivelmente mais instável do que estou acostumado em modelos maiores na nuvem. Serve para demo. Ainda não serve para produção.

Teste 3: Fazendo fork do código para meu próprio projeto mobile. É aqui que a galeria brilha. Por ser um app de referência real, pronto para uso, você pode ver exatamente como o Google pensa que a inferência de LLMs no dispositivo deve ser estruturada — gerenciamento de modelos, manipulação de memória, construção de prompts, toda a stack. Passei uma hora lendo o pipeline de inferência e aprendi mais sobre arquitetura prática de IA na borda do que três semanas de posts em blogs me ensinariam.

O que deixa a desejar (ou pelo menos, o que ainda é bruto)

Dois avisos honestos. Primeiro, os modelos que você pode rodar realisticamente em um celular hoje são realmente pequenos, e suas limitações aparecem. Espere respostas confiantes, porém erradas, em qualquer coisa que exija conhecimento amplo de mundo ou raciocínio em múltiplas etapas. Segundo, o caminho de chamadas de ferramentas agenticas é novo e um pouco frágil — quando falha, falha silenciosamente, o que é um modo de falha pior do que um erro explícito.

O verdadeiro aprendizado

IA no dispositivo não é mais um "demo legal em artigo científico". Está sendo lançado, como open source, com um app de referência pronto para produção que você pode rodar agora mesmo. Todo desenvolvedor mobile que conheço deveria passar uma noite clonando esse repositório e lendo o código de inferência. O futuro em que todo app tem um pequeno modelo local fazendo 80% do trabalho antes de recorrer a uma API na nuvem ficou muito mais próximo.

E esse é o primeiro projeto. Se a edge gallery é sobre onde a IA roda, o próximo projeto é sobre como aprendemos com ela.

2. DeepTutor — Assistente de Aprendizagem Open-Source, Nativo para Agentes

Vou dizer algo que pode soar injusto com o ChatGPT: para realmente aprender a partir de um documento, a janela de chat comum é a interface errada.

Você já sentiu isso. Você faz upload de um PDF, faz perguntas, recebe respostas, mas nunca aprende o documento. Não há estrutura. Não há progresso. Não existe um “aqui está o que você entendeu, aqui está o que está fraco, aqui está uma questão para praticar e descobrir.” O documento e o chat vivem em dois universos diferentes, com você freneticamente copiando e colando entre eles.

O DeepTutor, do laboratório de ciência de dados da HKU, é a tentativa open-source mais séria que já vi para resolver isso.

O que é

O DeepTutor se apresenta como um “assistente de aprendizagem personalizado, nativo para agentes”. Em outras palavras: é um sistema open-source, multiagente, construído em torno da ideia de que aprender é um fluxo de trabalho, não um chat. Você faz upload de PDFs, arquivos TXT ou Markdown. Ele constrói uma base de conhecimento pesquisável. Depois, executa agentes sobre essa base — um para perguntas e respostas com citações corretas do documento, um para geração de questões de prática, um para trilhas de aprendizagem guiadas em múltiplas etapas, outro para construção de grafos de conhecimento que conectam entidades e relações entre seus materiais.

O que acho interessante: ele mantém um “perfil” persistente seu — seus objetivos, suas preferências, seu progresso em andamento — e um “resumo” contínuo do que você já aprendeu. Esse é o ciclo de feedback que as interfaces de chat não têm.

Segundo os mantenedores, o projeto ultrapassou 1.400 estrelas no GitHub na primeira semana de lançamento e continua crescendo. Não verifiquei independentemente a contagem atual de estrelas, mas a atividade no repositório é claramente real.

O que testei

Coloquei o DeepTutor para trabalhar em uma pilha que eu realmente precisava entender: a documentação do Anthropic Agent SDK mais dois PDFs técnicos extensos sobre arquitetura de memória para agentes. Aproximadamente 180 páginas em três arquivos. Eis o que aconteceu:

Fiz o upload, esperei a indexação (surpreendentemente rápida — menos de dois minutos em uma máquina intermediária) e fiz uma pergunta com a qual vinha lutando: “Quando a compactação de memória do SDK é acionada e quais são os trade-offs entre compactação eager e lazy?” A resposta veio com citações específicas dos trechos exatos nos PDFs, não paráfrases vagas. Só isso já colocou o DeepTutor à frente de todas as experiências de chat-com-PDF que já tentei.

Depois, usei o gerador de questões de prática. Ele produziu cinco perguntas em um nível de dificuldade adequado, das quais três foram realmente úteis (as outras duas eram triviais). O caminho de aprendizagem guiado foi onde ele realmente se destacou — transformou os três documentos em um plano de aula básico com pontos de verificação.

Onde fica devendo

A configuração é mais complexa do que “instalar um app”. É um sistema open-source multiagente, o que significa que você precisa configurar modelos, variáveis de ambiente e um runtime local. É um projeto para desenvolvedores e usuários avançados, não para aquele seu amigo não técnico que só quer um chat melhor com PDFs. Além disso, a qualidade das questões de prática e do grafo de conhecimento varia bastante dependendo do LLM que você conectar.

Por que importa

O DeepTutor aponta para algo maior do que ele mesmo. O futuro do “aprender com IA” não é uma janela de chat acoplada a um visualizador de PDF. São fluxos de trabalho de agentes feitos sob medida, onde a IA conhece seus objetivos, seu progresso e o material — e orquestra tudo isso. O DeepTutor é uma versão inicial, imperfeita, mas muito promissora desse futuro, e é totalmente open-source. Se você ensina, dá aulas particulares, cria materiais didáticos ou só quer aprender mais com sua pilha de documentos, clone o projeto.

Esses são dois projetos sobre onde a IA vive e como aprendemos com ela. Agora chegamos ao que silenciosamente mudou minha forma de pensar sobre memória de agentes.

3. Hermes Agent — Um Agente de IA Que Realmente Lembra

Ok. Este foi o projeto que me fez reestruturar o meu próprio agente.

Aqui está o dilema que todo desenvolvedor de agentes de IA open-source enfrenta em algum momento: memória. Você começa com um prompt limpo, constrói o contexto ao longo de uma sessão e tudo funciona. Depois, tenta fazer o agente lembrar de informações entre sessões. Sua primeira tentativa é enfiar tudo no prompt do sistema — conversas passadas, preferências do usuário, fatos do projeto. Funciona. Até que não funciona mais. Até que o prompt cresce além do razoável, o custo explode, a latência despenca e o modelo começa a confundir com confiança coisas que deveria saber.

Já vi esse padrão uma dúzia de vezes. Já construí esse padrão uma dúzia de vezes. O Hermes Agent, da Nous Research, é o primeiro framework open-source que encontrei que trata a memória como um problema arquitetural de primeira ordem e resolve da forma como deveria ser resolvido: com camadas de memória especializadas, com recuperação sob demanda, em vez de entupir o prompt.

O que realmente compõe o sistema de memória

Com base na documentação do projeto, o Hermes roda uma arquitetura de memória multinível (o marketing às vezes chama de três camadas, às vezes de multinível — vou seguir o que os docs descrevem). No mínimo, ele separa:

Memória de sessão — o contexto padrão em execução da interação atual.
Memória persistente — fatos, preferências e detalhes do projeto que sobrevivem entre sessões.
Memória de habilidades — quando o agente resolve algo não trivial, ele escreve um “documento de habilidade” reutilizável descrevendo como chegou lá, e esse documento se torna algo recuperável que o agente pode consultar depois.

Por baixo dos panos, a camada persistente usa FTS5 para busca textual completa, além de sumarização guiada por LLM. Assim, em vez de enfiar todas as conversas passadas no prompt, o agente recupera apenas os trechos relevantes quando necessário. Ele também utiliza modelagem dialética do usuário (emprestada do Honcho) para manter um modelo vivo do usuário, em vez de um bloco estático de “sobre mim”.

A Nous Research chama isso de “um agente que cresce com você”. Pelo que testei, essa definição faz jus ao projeto.

O que eu testei

Testei o Hermes em um cenário que conheço bem: um projeto de código de longa duração em que o agente precisa lembrar decisões arquiteturais entre sessões, sem ser rebriefado toda vez. Dei a ele uma descrição fictícia de uma base de código SaaS, conduzi uma conversa de design, encerrei a sessão, voltei três horas depois e fiz uma pergunta de acompanhamento que dependia de uma decisão da conversa anterior.

Ele lembrou. Não por ter todo o chat anterior em contexto — mas por recuperar o documento específico da decisão, trazê-lo à tona e continuar a partir dali. Esse é o comportamento correto, e foi a primeira vez que vi um framework de agente open-source fazer isso de forma limpa.

Também testei o ciclo de geração de habilidades: conduzi o Hermes por uma tarefa moderadamente complexa (criação de um CLI em TypeScript) e, ao final, verifiquei se ele havia escrito uma habilidade para si mesmo. Havia. O documento de habilidade não era perfeito — estava um pouco específico demais para a tarefa exata que propus — mas o ciclo funcionou. Da próxima vez que eu pedir para criar algo semelhante, ele terá aquela habilidade para consultar.

Onde eu teria cautela

O Hermes é jovem, evolui rápido e sua arquitetura é ambiciosa. Alguns pontos de atenção: a qualidade da recuperação depende muito de como o índice FTS5 é construído, documentos de habilidade podem acumular lixo se você não fizer uma limpeza ocasional, e como o sistema é auto-modificável (adicionando habilidades ao longo do tempo), é recomendável tratar o repositório de habilidades como um repositório de código — revise o que ele escreve, não confie cegamente.

Se você está construindo qualquer tipo de agente de IA persistente, este é o projeto para estudar este mês. Não necessariamente para adotar integralmente, mas para analisar. O modelo mental — memória como recuperação em camadas especializadas, não entupimento — é o modelo mental correto, e o Hermes é a implementação open-source mais limpa que encontrei.

E isso leva naturalmente ao próximo problema: depois que você tem agentes inteligentes, como rodar mais de dois deles sem enlouquecer?

4. Multica — Gerenciamento de Projetos Para Times Humanos + Agentes

Tenho uma confissão a fazer. Por meses, meu “workflow multiagente” era seis terminais Claude Code em um gerenciador de janelas em mosaico, nomeados agent-1 até agent-6, e um documento no Notion que eu atualizava manualmente quando lembrava. Isso não é um workflow. É um mecanismo de sobrevivência.

Multica está tentando resolver exatamente esse problema.

O que é

O Multica se descreve como “a plataforma open-source de agentes gerenciados” — uma camada de orquestração e gerenciamento de projetos para agentes de codificação com IA. Diferente de ferramentas que tentam ser o agente, o Multica envolve qualquer agente que você já use (Claude Code, Codex, OpenClaw, OpenCode — o daemon detecta automaticamente CLIs no seu PATH) e oferece uma interface estilo Kanban para atribuir, acompanhar e coordenar o trabalho entre eles.

O argumento em português claro: “trate seus agentes de código como colegas de equipe.” Você cria uma tarefa. Atribui a um agente. O agente assume, reporta o status, sinaliza bloqueios e atualiza o quadro conforme trabalha. Você ganha um painel de controle que mostra o que cada agente está fazendo em tempo real, e um ciclo de vida de tarefas que espelha como times de engenharia humanos realmente operam.

O Multica pode ser auto-hospedado via Docker Compose ou Kubernetes, e eles também oferecem uma versão em nuvem gerenciada caso você não queira rodar sua própria infraestrutura.

O que testei

Rodei a versão auto-hospedada via Docker Compose na minha máquina de desenvolvimento, conectei ao meu Claude Code local e lancei três pequenas tarefas: adicionar um rate limiter a uma API Express, escrever uma GitHub Action para um projeto Node e refatorar um componente React bagunçado. Tarefas padrão que qualquer agente de código razoável deveria dar conta.

O que gostei: ver as colunas do Kanban atualizarem em tempo real conforme o agente movia os tickets de “em fila” → “em andamento” → “precisa de revisão”. Quando o agente travou na refatoração do React porque o componente era mais estranho do que o ticket descrevia, ele sinalizou um bloqueio em vez de simplesmente gerar código ruim. Esse é exatamente o comportamento que você espera de um sistema gerenciado.

O que não gostei: a configuração inicial demorou mais do que eu esperava. A detecção automática do meu CLI do Claude Code foi tranquila, mas fazer o runtime conversar com meu diretório de projetos preferido exigiu alguns ajustes de configuração. Nada difícil, só não foi “um clique”.

Onde brilha — e onde não brilha

O Multica brilha quando você realmente está rodando múltiplos agentes em paralelo em trabalhos relacionados. No momento em que você está orquestrando três ou mais agentes em um projeto, algo como o Multica deixa de ser “uma UI legal” para se tornar “realmente necessário”. Se você está rodando um agente em uma tarefa, é exagero.

Vale dizer também: essa categoria está ficando lotada rapidamente. Vibe Kanban, Veritas Kanban, dashboards Mission Control, o próprio Agent HQ do GitHub — todo mundo quer ser a camada de “gerente de projetos para agentes”. O diferencial do Multica é ser open-source, auto-hospedado e multi-CLI. Se esses são seus requisitos, é uma escolha forte. Se você está satisfeito em um ecossistema fechado, talvez não precise dele.

Uma conexão que vale destacar: já escrevi antes sobre como interfaces Kanban estão se tornando o padrão para sistemas multiagente, e o Multica é um bom exemplo dessa tendência. O espaço de ferramentas para agentes decidiu claramente que “tickets em um quadro” é a abstração certa para colaboração humano + IA, e não acho que isso vá mudar.

Quatro concluídos. A seguir: um projeto que não tem absolutamente nada a ver com agentes, memória ou orquestração, e está nesta lista porque faz algo muito mais simples. Derrubando um SaaS pago.

5. OpenScreen (e amigos) — Screen Studio gratuito, sem assinaturas

O Screen Studio é um app lindo para Mac. Também custa US$ 29/mês ou uma taxa única bem salgada, dependendo do plano que você escolher, e isso é muito para um gravador de tela, mesmo que ele faça auto-zoom e animação de cursor de forma realmente impecável.

A comunidade open-source, sendo a comunidade open-source, olhou para isso e disse: nós podemos construir isso.

E construíram. Várias vezes.

O que realmente existe por aí

O briefing original deste post descrevia o “Open Source Screen Studio” como um projeto único, mas o que encontrei em abril de 2026 é mais parecido com um pequeno ecossistema de projetos muito semelhantes, todos girando em torno da mesma ideia:

OpenScreen — a alternativa open-source original ao Screen Studio. Sem assinaturas, sem marcas d’água, gratuito para uso comercial.
Recordly — gravador de tela para Mac/Windows/Linux com auto-zooms, cursores animados, legendas automáticas. Evolui substancialmente a partir da base do OpenScreen.
Open Recorder — uma abordagem Tauri + Rust para a mesma ideia, otimizada para ser leve e rápida.
Open ScreenStudio — outro fork/variação, focado em zoom automático e efeitos suaves de cursor.

São quatro projetos open-source fazendo essencialmente o mesmo trabalho, todos surgidos nos últimos seis a nove meses. Se você quiser uma alternativa ainda mais consolidada, as opções veteranas (OBS Studio, ShareX) continuam existindo, mas não têm o “visual polido de walkthrough” que esses projetos mais novos estão buscando.

O que eu testei

Instalei o OpenScreen e fiz o que normalmente faria no Screen Studio: gravei um walkthrough de dois minutos de um fluxo de trabalho no terminal, com auto-zoom em eventos de clique e um fundo suave atrás da janela. O resultado não ficou pixel a pixel idêntico ao do Screen Studio, mas para 90% dos casos de uso — vídeos tutoriais, substitutos do Loom, demonstrações de produto — ficou bom o suficiente para que a diferença não importasse. E eu não paguei US$ 29.

O Recordly é o que eu realmente recomendaria testar primeiro se você está no Mac e quer a experiência mais próxima; é o mais ativamente mantido do grupo até o início de abril de 2026.

Por que essa categoria de projeto importa

Não se trata apenas de gravação de tela. É sobre o padrão.

Toda categoria de SaaS criativo pago — gravação de tela, ferramentas de escrita, utilitários de design, anotações, gestão de tarefas — agora está ganhando uma versão “alternativa open-source gratuita feita com Tauri ou Electron em um fim de semana”. Às vezes, três delas. A economia do software de produtividade para o consumidor, fechado e pago, está sendo pressionada de baixo para cima de um jeito que não era realidade há dois anos, e parte do motivo é a IA: quando um desenvolvedor solo pode usar o Claude Code para construir um app desktop real em um fim de semana, o custo de clonar um produto de US$ 29/mês cai para perto de zero.

Venho escrevendo sobre como a IA está mudando os modelos de preço do SaaS e este é o mesmo padrão se repetindo em uma categoria específica. Espere ver muito mais disso.

Falta só mais um. E este é o menor repositório da lista. E talvez seja o meu favorito.

6. Habilidades Inspiradas em Karpathy para Claude Code — O Pequeno Arquivo que Corrigiu os Piores Hábitos do Meu Agente

Andrej Karpathy tem sido publicamente vocal, repetidas vezes, sobre como os LLMs da geração atual falham de maneiras previsíveis e específicas quando usados para código. As citações que valem a pena lembrar são, em resumo: os modelos fazem suposições erradas por você e seguem adiante sem checar. Eles não gerenciam sua confusão, não buscam esclarecimentos, não expõem inconsistências, não apresentam trade-offs, não contestam quando deveriam.

É um diagnóstico e tanto. E Forrest Chang pegou esse diagnóstico e transformou em um único arquivo CLAUDE.md que você pode adicionar a qualquer projeto Claude Code.

O que é

andrej-karpathy-skills é, essencialmente, um arquivo. Trata-se de uma configuração CLAUDE.md destilada a partir das observações de Karpathy sobre armadilhas dos LLMs ao programar, empacotada como um plugin para Claude Code. Você instala, ele fica no nível do projeto ou do usuário, e reconfigura o comportamento do Claude Code nas tarefas em que ele mais costuma errar.

Os princípios que ele aplica são:

Execução orientada a objetivos em vez de instruções imperativas. Em vez de apenas “faça o que o usuário pediu”, o agente é incentivado a entender o objetivo por trás da instrução e verificar o sucesso em relação a ele.
Mudanças cirúrgicas em vez de reescritas abrangentes. Quando solicitado a corrigir um bug, corrija aquele bug. Não refatore silenciosamente três arquivos não relacionados enquanto está ali.
Explicitar suposições em vez de agir silenciosamente sobre elas. Se houver ambiguidade, pergunte. Se houver trade-off, nomeie.
Definir critérios de sucesso verificáveis. Não afirme que algo funciona. Execute o que prova que funciona.

Nenhum desses pontos é revolucionário. Todos eles são a diferença entre um agente que te economiza uma hora e um agente que te faz perder três.

O que eu testei

Instalei o plugin no meu setup diário do Claude Code e segui meu fluxo normal por uma semana — correções de bugs, pequenas features, alguns refactors no site da marca. Duas coisas mudaram de forma perceptível.

Primeiro, o problema de refatoração excessiva diminuiu bastante. Pedi para corrigir um bug específico de cache em um controller Laravel. Antes do plugin, ele teria “ajudado” também reescrevendo a assinatura do método e movendo três linhas não relacionadas. Depois do plugin, corrigiu o bug, deixou o resto intacto e explicou o motivo.

Segundo — e esse é o mais importante — ele começou a fazer perguntas melhores. Quando dei instruções ambíguas (de propósito, como teste), em vez de adivinhar e seguir em frente, ele parou e perguntou qual interpretação eu queria. Só essa mudança de comportamento já vale a instalação.

O alerta honesto

Este é um único arquivo de configuração, não um framework. Ele é tão bom quanto o LLM que está moldando, e não pode corrigir limitações fundamentais do modelo — apenas expô-las de forma mais honesta. Se você usa o Claude Code com um modelo base fraco, esse plugin vai deixá-lo menos imprudente, não mais inteligente. Se você usa o Claude Code com um modelo base forte, esse plugin é um upgrade real de produtividade.

Tenho escrito sobre habilidades do Claude Code e como criar as suas há algum tempo, e este é um ótimo exemplo do padrão feito de forma minimalista. Prova que um arquivo de skill realmente bem escrito pode ser mais valioso do que um plugin complicado com ferramentas customizadas.

O Padrão Por Trás dos Seis Projetos

Depois de uma semana testando, sentei para tentar entender o que esses seis projetos tinham em comum além de “open source” e “IA”. Eis a conclusão a que cheguei.

Todos rejeitam o monólito. O Google Edge Gallery mostra que IA não precisa viver em um datacenter. O DeepTutor mostra que seu fluxo de aprendizado não precisa viver em uma janela de chat. O Hermes mostra que a memória do seu agente não precisa viver no prompt. O Multica mostra que seu fluxo multiagente não precisa viver em seis abas de terminal. O OpenScreen mostra que suas ferramentas criativas não precisam ficar atrás de um paywall de assinatura. E o skill do Karpathy mostra que o cérebro do seu agente de código não precisa ser uma grande esperança de que o modelo vai acertar.

Cada um desses projetos está pegando um pedaço do modelo mental do “um grande sistema de IA faz tudo” e quebrando em partes menores, mais especializadas e mais abertas. Essa é a verdadeira tendência. Não é uma ferramenta, modelo ou benchmark específico — é a decomposição dos fluxos de trabalho de IA em partes que você pode possuir, trocar e rodar por conta própria.

Outro padrão: especialização opinativa está superando a generalidade generalista. O Hermes supera “clones do Claude cheios de prompts” não porque é um modelo maior, mas porque tem uma visão clara sobre memória. O DeepTutor supera “chat genérico com PDF” porque tem uma visão clara sobre aprendizado. O plugin de skills do Karpathy supera o Claude Code puro porque tem uma visão clara sobre onde os LLMs falham. Em um mundo onde todo modelo fundacional corre para ser generalista, as vitórias vêm de agentes e ferramentas que são confiantemente, implacavelmente especializadas.

Se você está construindo algo nessa área — mesmo como dev solo — essa é a lição que eu escreveria num post-it. Escolha um ponto de vista. Seja especializado. Não tente ser mais generalista que os modelos fundacionais. Você não vai conseguir, e nem precisa.

O Que Estou Fazendo Com Tudo Isso

Aqui está meu plano honesto para as próximas duas semanas, caso seja útil.

Estou usando a arquitetura de memória do Hermes como inspiração e reconstruindo a camada de memória na minha própria stack de agentes — especificamente a divisão entre memória de sessão, persistente e de habilidades. A skill do Karpathy já está instalada no meu Claude Code diário, e não pretendo desinstalá-la. Tenho o Multica rodando em uma máquina de desenvolvimento para um experimento com quatro agentes de codificação em paralelo em um projeto real. E vou reservar uma noite para ler o pipeline de inferência da Edge Gallery, só para aprender mesmo.

O DeepTutor estou guardando na manga para um caso de uso específico: quando eu precisar aprender profundamente um documento técnico longo, essa será a ferramenta que vou usar, em vez de mais uma rodada de chat na nuvem.

O OpenScreen já está substituindo meu fluxo de gravação de tela, o que — considerando que escrevo muitos tutoriais — é, discretamente, a maior economia de tempo semanal desta lista.

Seu desafio para o fim de semana, se quiser um: escolha o projeto desta lista que se encaixa em um problema que você já tem. Faça o clone. Coloque para rodar. Quebre uma vez. Volte e decida se vai manter. Só isso. Um projeto, um fim de semana, um teste honesto.

Porque o que aprendi esta semana — o que continuo aprendendo, toda vez que faço um desses mergulhos profundos — é que ler sobre ferramentas não é o mesmo que usá-las, e o fluxo de trabalho de ninguém muda só com um post de blog. Os projetos desta lista são interessantes. O que acontece depois que você clona um é o que realmente importa.

Vai lá e clone alguma coisa.

Perguntas Frequentes

Quais são os melhores projetos de IA open-source no GitHub em abril de 2026?

Os projetos de IA open-source mais interessantes atualmente se dividem entre inferência em dispositivo (Google AI Edge Gallery, LiteRT-LM), memória e orquestração de agentes (Hermes Agent, Multica), fluxos de aprendizado (DeepTutor), alternativas ao Screen Studio (OpenScreen, Recordly) e plugins de habilidades para Claude Code (andrej-karpathy-skills). Para entender em detalhes a importância de cada um, confira os seis projetos analisados acima.

É realmente possível rodar um LLM no meu celular sem internet?

Sim. O Google AI Edge Gallery, baseado no LiteRT-LM, executa LLMs de código aberto e pequeno porte, como as variantes do Gemma 4, totalmente no dispositivo, tanto em iOS quanto em Android. O desempenho é mais lento do que a inferência em nuvem e os modelos são menores, mas para casos de uso privados, offline e sensíveis à latência, já está pronto para produção em fluxos reais de trabalho.

O Hermes Agent é melhor que o Claude Code ou o OpenClaw para construir agentes de IA?

Eles resolvem problemas diferentes. Claude Code e OpenClaw são ambientes de agentes focados em programação; o Hermes Agent é um framework de agente de uso geral com um sistema de memória multinível especializado. Se você está criando um agente pessoal de longa duração que precisa lembrar informações entre sessões, a arquitetura de memória do Hermes merece ser estudada — veja a seção do Hermes acima para a análise completa.

Qual é a melhor alternativa open-source ao Screen Studio?

Em abril de 2026, o OpenScreen é a alternativa open-source original ao Screen Studio, enquanto o Recordly é o fork mais ativamente mantido e com maior paridade de recursos. O Open Recorder (Tauri + Rust) é a opção mais leve. Os três são gratuitos, sem assinaturas, e atendem bem à maioria dos fluxos de tutoriais e walkthroughs.

Vale a pena instalar o plugin Karpathy Claude Code?

Para quem usa o Claude Code diariamente, sim. É um único arquivo de configuração que impõe mudanças cirúrgicas no código, evidencia premissas e reduz o problema de refatoração excessiva — atacando exatamente as armadilhas de programação com LLM que Andrej Karpathy tem destacado repetidamente. É a instalação de menor esforço e maior impacto desta lista.

Vamos Trabalhar Juntos

Quer construir sistemas de IA, automatizar fluxos de trabalho ou escalar sua infraestrutura tecnológica? Eu posso ajudar.

Fiverr (soluções personalizadas & integrações): fiverr.com/s/EgxYmWD
Portfólio: mejba.me
Ramlit Limited (soluções corporativas): ramlit.com
ColorPark (design & branding): colorpark.io
xCyberSecurity (serviços de segurança): xcybersecurity.io