TRL estimado

4–5 Validação em laboratório

Pipeline arquitetado, benchmarks iniciais, schema JSON preliminar e protótipos em execução local.

Foco inicial

Educação Especial Inclusiva (AEE)

Estudos de caso, PAAEs, planos de atendimento, diários pedagógicos, relatórios e planilhas municipais.

Inclusão digital Gestão educacional Interoperabilidade EducaDados Redução de desigualdades Inovação pública

Já desenvolvido

Completo
Definição conceitual do framework

Completo
Arquitetura inicial do pipeline

Completo
Schema preliminar JSON de saída

Completo
Benchmark em hardware limitado

Completo
Testes locais com modelos GGUF

Completo
Plano de fine-tuning e destilação

A desenvolver no Sandbox

Pendente
Dataset ouro validado

Pendente
Avaliação pedagógica

Pendente
Avaliação de Impacto Algorítmico

Pendente
Validação em ambiente controlado

Pendente
Métricas, riscos e salvaguardas

Pendente
Ampliação do conjunto de testes

Pipeline de processamento — 8 módulos

1

Ingestão multiformato

Recebe .xlsx, .xls, .docx, PDF, imagens. Identifica o tipo de artefato e prepara para extração. Suporta combinações de formatos em um único documento.

2

Extração com preservação de contexto estrutural

Converte sinais visuais (cor de fundo, células mescladas, espaçamento) em representação textual estruturada. Diferencial central do APDA ante pipelines genéricos.

openpyxlpython-docxPyMuPDFTesseractPaddleOCR

3

Anonimização multicamadas precede tudo

Remove PII antes de qualquer LLM. Regras determinísticas + modelos neurais + memória local para propagação consistente + revisão humana obrigatória.

4

Inferência de estrutura implícita

Identifica quais artefatos estão presentes, onde começam e terminam, e mapeia campos ao schema APDA — independente do município de origem. Raciocínio encadeado explícito (chain-of-thought).

5

Destilação supervisionada por dados

Modelos professores (família Sabiá/Maritaca AI) geram anotações iniciais. Cada exemplo passa por validação por schema + revisão de especialista em educação inclusiva antes de integrar o dataset ouro.

6

Fine-tuning do modelo-aluno

LoRA/QLoRA sobre dataset ouro validado. Família de modelos: ultraleve (CPU básica) → intermediário (consórcio regional) → maior (API estadual). Exportação em GGUF via llama.cpp.

7

Validação e auditoria

Valida JSON contra schema APDA, verifica consistência semântica, detecta possível vazamento residual, gera trilha de auditoria por documento. Todas as saídas marcadas como pendentes de validação humana.

8

Interface CLI + WebUI de onboarding

Diagnóstico do ambiente, seleção guiada de workflow, execução monitorada e histórico de auditoria — para equipes técnicas municipais sem especialização em IA.

Campo de pesquisa

O módulo de inferência de estrutura implícita corresponde ao campo Heterogeneous Document Understanding, com trabalhos recentes de Microsoft (SpreadsheetLLM, 2024) e Google — porém em domínio inédito: documentação pedagógica da educação especial em municípios brasileiros.

A participação no Sandbox Regulatório do MEC é estratégica em cinco dimensões que o desenvolvimento técnico isolado não pode substituir.

1

Validação do pipeline de anonimização como condição de uso público

Produz evidência reconhecida pelo regulador sobre adequação do framework à LGPD e ao ECA Digital no contexto da educação especial — valor que nenhum teste laboratorial isolado substitui.

2

Produção de evidência sobre heterogeneidade real de formatos municipais

Não existem estudos publicados sobre variabilidade de formatos pedagógicos entre municípios brasileiros. Esse dado é contribuição científica inédita e base para diretrizes de padronização mínima compatíveis com a realidade operacional.

3

Diálogo regulatório sobre o marco de interoperabilidade com a EducaDados

A Portaria 269/2026 delega ao MEC a definição dos conjuntos mínimos de dados. O APDA — como framework de entrada da infraestrutura — tem interesse legítimo nessa definição. O Sandbox cria canal formal de diálogo enquanto os padrões ainda estão sendo definidos.

4

Construção de evidência para escalabilidade estadual e nacional

Valida que o framework funciona de forma confiável, auditável e segura em condições reais — produzindo o tipo de evidência que viabiliza conversas com governos estaduais, consórcios e organismos de financiamento público.

Sem Sandbox: solução técnica promissora Com Sandbox: política pública em teste

5

Alinhamento com o Plano Brasileiro de IA e o ecossistema de inovação pública

Uso ético, soberania tecnológica, redução de desigualdades e código aberto. Visibilidade institucional junto a secretarias estaduais, IFs, universidades públicas e organismos de fomento.

O APDA é uma camada de tradução entre a inteligência informal dos profissionais de AEE e a infraestrutura formal do Estado brasileiro.

01

Municípios visíveis para políticas públicas

Converte registros de planilhas locais em dados estruturados e interoperáveis — condição mínima para existir nas estatísticas que orientam políticas federais.

02

Crianças visíveis no sistema de proteção

Estudantes com deficiência em municípios sem documentação estruturada são invisíveis no INEP, nas metas do PNE e nas avaliações de política pública.

03

Acesso a recursos FUNDEB negados

O fator de ponderação para estudantes com deficiência exige documentação adequada. Municípios que não documentam perdem recursos constitucionais.

04

Conformidade regulatória sem alto custo

Decretos 12.686 e 12.773/2025 exigem documentação pedagógica estruturada. O APDA opera em hardware básico, sem conectividade contínua, sem licença e sem lock-in.

05

Transição gradual para a EducaDados

Professores continuam usando seus instrumentos familiares. O framework converte essas saídas em dados compatíveis com a Portaria 269/2026 sem ruptura operacional.

06

Primeiro dataset de AEE municipal brasileiro

Anonimizado, validado por especialistas, com trilha de auditoria completa. Bem público inédito para pesquisa, formação de professores e desenvolvimento de novas ferramentas.

07

Soberania tecnológica

100% open source, execução local, modelos abertos, prioridade a modelos brasileiros (família Sabiá). Saídas em GGUF portável. O conhecimento dos professores de AEE permanece patrimônio público.

08

Infraestrutura replicável para outras áreas

A metodologia de compreensão de esquemas implícitos em documentos heterogêneos é generalizável para saúde, assistência social e habitação municipais.

Clique em cada risco para ver as medidas de mitigação.

Alto Vazamento de dados pessoais ou sensíveis ▾

Nomes, laudos, diagnósticos, endereços, documentos familiares e dados de saúde podem estar nos artefatos.

Anonimização antes da estruturação (precede qualquer LLM)
Regras determinísticas para CPF, telefone, e-mail, CEP
Modelos neurais de detecção de PII em contexto narrativo
Dicionários locais de escolas, bairros e profissionais
Revisão humana obrigatória + classificação de risco por artefato
Logs de anonimização e descarte seguro de dados brutos

Alto Reidentificação indireta ▾

Combinações como escola + turma + deficiência rara + município pequeno podem reidentificar mesmo sem nome.

Generalização de campos sensíveis
Remoção de granularidade excessiva
Avaliação de risco por artefato
Bloqueio de publicação de exemplos com risco alto

Médio Alucinação ou invenção de campos ▾

Modelos de linguagem podem gerar dados não presentes no documento original.

Instruções explícitas para não inventar (campos nulos quando ausentes)
Validação por schema + comparação com texto-fonte
Métricas de fidelidade ao documento
Revisão humana obrigatória

Médio Mistura semântica entre estudantes ou artefatos ▾

Em documentos com múltiplos estudantes, o modelo pode misturar informações entre registros.

Segmentação prévia por estudante ou artefato
Processamento de uma unidade semântica por vez
Detecção de múltiplos sujeitos antes da estruturação
Rejeição de saídas ambíguas

Médio Viés discriminatório ▾

O modelo pode reproduzir termos ou categorias inadequadas sobre deficiência, aprendizagem ou vulnerabilidade.

Curadoria pedagógica + revisão por especialistas em educação inclusiva
Diretrizes de linguagem não discriminatória
Restrição de inferências diagnósticas
Proibição de classificação automática de estudantes

Baixo Uso indevido da solução ▾

O framework pode ser utilizado para automatizar decisões educacionais sem supervisão humana.

Saídas sempre marcadas como pendentes de validação humana
Ausência de módulo decisório no framework
Termos de uso explícitos + documentação dos limites
Comunicação clara de que não substitui profissionais da educação

Métricas técnicas

taxa de JSON válido aderência ao schema campos obrigatórios preenchidos taxa de campos inventados taxa de campos ausentes tempo por artefato tokens/s uso de memória CPU / Vulkan / GPU falhas por tipo de arquivo

Métricas de privacidade

vazamento de nomes vazamento de CPF / telefone risco de reidentificação artefatos bloqueados por risco alto acurácia da anonimização

Métricas pedagógicas

fidelidade ao conteúdo original pertinência das categorias identificação de barreiras identificação de estratégias separação entre estudantes necessidade média de correção humana

Métricas comparativas

modelo base vs. fine-tuned diferentes famílias de modelos variação de tamanho de contexto níveis de quantização

Tratamento de dados — fluxo de 10 etapas

1 Ingestão → 2 Extração → 3 Anonimização → 4 Checagem de risco → 5 Estruturação JSON → 6 Validação automática → 7 Revisão humana → 8 Armazenamento controlado → 9 Descarte seguro → 10 Logs e metadados

Visão interativa do APDA Framework — Artefatos Pedagógicos Digitais Abertos, Anexo IV do Sandbox MEC

APDA Framework