Blog

Artigos sobre IA, LLMs, RAG e desenvolvimento de sistemas inteligentes em produção. Experiências reais e lições aprendidas.

Todos agentes Agentes AI Engineer arquitetura Arquitetura áudio auth auto-evolução

IACarreiraComunicação

O que devs de IA ainda não aprenderam sobre comunicação

Chamar uma API de LLM qualquer dev consegue. Entender o problema real antes de abrir o editor é outra história. Aprendi isso numa palestra para empreendedores no Sebrae.

9 de maio de 20265 min de leitura

Ler artigo

agentesarquiteturapadrões

Seis padrões de arquitetura que todo agente vertical deveria implementar

O Claude Design virou referência não pelo que ele produz, mas por como ele foi construído. Seis padrões arquiteturais que aparecem nesse sistema podem ser extraídos e aplicados em qualquer agente vertical: jurídico, comercial, de RH, de operações.

6 de maio de 20266 min de leitura

Ler artigo

dadosferramentasinspeção

O gap entre ter dados e entender o que está nos dados

Antes de qualquer pipeline de AI processar dados, alguém precisa inspecioná-los. Excel quebra com volumes reais. Python resolve o volume mas exige código para cada pergunta. Existe uma camada de ferramentas que fica no meio e que faz essa inspeção ser prática.

1 de maio de 20265 min de leitura

Ler artigo

promptingcontextoLLMs

Prompt não é instrução. Contexto é o recurso que o modelo usa para raciocinar

A maioria das pessoas ainda trata prompt como uma instrução que você dá ao modelo. A mudança de perspectiva que importa é perceber que contexto é o recurso escasso, e o que você injeta nele determina o teto de qualidade do que sai.

28 de abril de 20264 min de leitura

Ler artigo

RAGauto-otimizaçãoexperimentos

Deixar o agente encontrar os parâmetros certos: o loop de auto-otimização

Um pipeline RAG tem pelo menos meia dúzia de parâmetros que afetam a qualidade: tipo de chunking, tamanho, overlap, top-k, modelo de embedding, estratégia de busca. A maioria dos times testa esses parâmetros manualmente. Existe uma alternativa.

23 de abril de 20265 min de leitura

Ler artigo

orquestraçãoagentestickets

O gargalo não é o modelo, é atenção humana gerenciando sessões

O teto de quanto você consegue extrair de agentes de código não é mais capacidade do modelo. É quanto contexto humano você consegue manter ativo ao mesmo tempo. A mudança de paradigma é de gerenciar sessões para gerenciar resultados.

16 de abril de 20265 min de leitura

Ler artigo

harnessframeworkagentes

O que é uma harness e por que a distinção com framework importa

Harness e framework não são sinônimos. Um framework te dá peças para montar um agente. Uma harness já é o agente, e você fornece o objetivo. Entender essa distinção muda o que você escolhe construir e por quê.

10 de abril de 20265 min de leitura

Ler artigo

multi-tenancyLangGraphauth

Multi-tenancy em agentes: onde a separação de dados tem que ser feita

O default de qualquer deploy de agente é perigoso: qualquer usuário pode ver os dados de qualquer outro. Resolver isso exige uma decisão arquitetural sobre onde a separação de contexto é feita. Na borda, na aplicação, ou na camada de infraestrutura de agente.

7 de abril de 20265 min de leitura

Ler artigo

RAGmultimodaláudio

Informação presa em áudio e vídeo: o próximo conjunto de dados que agentes vão precisar acessar

A maioria dos sistemas RAG trabalha com documentos de texto. Mas nas organizações, uma parte significativa do conhecimento está em gravações de reuniões, apresentações em vídeo, e áudios de treinamento. RAG multimodal é o caminho para desbloquear esse contexto.

2 de abril de 20264 min de leitura

Ler artigo

multimodalNemotronlocal

Modelo único para tudo ou pipeline de especialistas: o trade-off que ninguém resolve

A Nvidia lançou o Nemotron 3 Nano Omni: um modelo que processa texto, imagem, vídeo e áudio ao mesmo tempo, com receitas de treinamento abertas e documentadas. Isso levanta uma decisão arquitetural real para quem constrói agentes multimodais.

27 de março de 20265 min de leitura

Ler artigo

vozvoice AIlatência

O problema de latência em voice AI e o que full-duplex muda

Todo sistema de voz que você já usou tem o mesmo problema: três modelos em cadeia gerando três atrasos que se acumulam. O PersonaPlex resolveu isso com uma arquitetura diferente. Mas resolveu uma coisa e introduziu outra.

24 de março de 20264 min de leitura

Ler artigo

Claude Codesubagentesorquestração

Quando o seu agente usa outro agente para codar

Claude Code pode ser invocado como subagente por um orquestrador maior. Isso muda o que é possível construir: em vez de um agente especializado que gera código, você tem um agente geral que delega tarefas de código para um subagente com capacidade de execução.

19 de março de 20265 min de leitura

Ler artigo

harnessagenteswhatsapp

A harness é o produto, não o modelo

Chamar uma API de LLM não é construir um agente. A harness, o conjunto de responsabilidades ao redor do modelo, é o que transforma uma resposta em texto num sistema confiável. Entender isso muda o que você produz.

13 de março de 20265 min de leitura

Ler artigo

harnessestabilidadecontexto

Quando o modelo não degradou, mas o agente piorou

Existe uma categoria de reclamações sobre 'degradação de modelo' que, olhando com cuidado, não é degradação de modelo nenhuma. É degradação de harness. A diferença importa para quem está construindo sistemas que precisam ser estáveis.

10 de março de 20265 min de leitura

Ler artigo

guardrailssegurançaagentes

Guardrail não é uma camada única

O mercado trata guardrail como um único portão de segurança. Na prática, sistemas reais precisam de múltiplas camadas com responsabilidades distintas, e saber onde colocar cada uma faz a diferença entre um sistema resiliente e um demo bonito.

5 de março de 20266 min de leitura

Ler artigo

RAGGraphRAGgrafos

GraphRAG: quando RAG vetorial começa a falhar

RAG vetorial funciona bem para buscas diretas em documentos isolados. Mas quando a resposta exige conectar informação espalhada por centenas de fontes, a abordagem tradicional falha de forma silenciosa. GraphRAG existe para resolver esse problema específico.

27 de fevereiro de 20265 min de leitura

Ler artigo

DeepSeekmultimodalvisão

O problema que o DeepSeek Vision resolve que ninguém estava falando

Modelos multimodais evoluíram muito em resolução e detalhamento. Mas havia um gap diferente e mais fundamental: a linguagem é imprecisa para apontar objetos num raciocínio visual longo. O DeepSeek Vision resolveu isso de uma forma inesperadamente elegante.

24 de fevereiro de 20265 min de leitura

Ler artigo

LLMscontextojanela de contexto

Como você gasta a janela de contexto determina o que o modelo consegue fazer

A janela de contexto não é um espaço de armazenamento. É a memória de trabalho do modelo. O que você coloca ali, em que formato, em que ordem, determina a qualidade do raciocínio que sai. Saber gerir esse recurso é a habilidade mais subestimada em quem trabalha com LLMs.

20 de fevereiro de 20265 min de leitura

Ler artigo

LLMsfundamentostreinamento

O que entender sobre como LLMs funcionam muda na hora de construir com eles

Você não precisa entender álgebra linear para construir com LLMs. Mas entender como esses modelos são treinados muda o que você espera deles, por que eles falham onde falham, e o que vale otimizar no seu sistema.

17 de fevereiro de 20266 min de leitura

Ler artigo

automaçãocapturaN8N

O ponto de entrada define se o sistema vai ser usado

A maioria dos sistemas de captura morre no ponto de entrada, não no processamento. A diferença entre um alarme de incêndio e um fichário é o que separa uma automação que funciona de uma que você abandona na primeira semana.

13 de fevereiro de 20265 min de leitura

Ler artigo

auto-researchloop autônomomelhoria contínua

O ratchet loop: quando o agente faz a pesquisa e você define o que é bom

O Auto-Research do Karpathy não é sobre treinar modelos. É sobre um padrão: qualquer sistema com parâmetros ajustáveis e uma métrica mensurável pode ser melhorado autonomamente por um loop que só avança quando há progresso verificado.

10 de fevereiro de 20265 min de leitura

Ler artigo

agentesmemóriaskills

Os três pilares para um agente que melhora com o uso

A maioria dos agentes de IA sabe o que sabe no lançamento e permanece assim. Construir um agente que realmente melhora com o uso exige três camadas distintas: memória de fatos, skills de domínio, e histórico consultável. Cada uma tem uma função diferente e não é substituível pelas outras.

6 de fevereiro de 20266 min de leitura

Ler artigo

agentesescalaevals

Como estruturar o output de agentes quando você processa centenas de entradas ao mesmo tempo

Analisar centenas de entrevistas ou respostas de usuários com agentes exige uma estrutura de dados diferente do chat. A metáfora de tabela, onde cada resposta é uma linha e cada feature extraída é uma coluna, muda como você projeta o pipeline e como verifica qualidade.

3 de fevereiro de 20265 min de leitura

Ler artigo