Visão interativa do APDA Framework — Artefatos Pedagógicos Digitais Abertos, Anexo IV do Sandbox MEC

Sandbox Regulatório MEC · Anexo IV

APDA Framework

Artefatos Pedagógicos Digitais Abertos — framework para transformação, anonimização e estruturação interoperável de documentos pedagógicos em datasets municipais padronizados.

TRL estimado
4–5 Validação em laboratório
Pipeline arquitetado, benchmarks iniciais, schema JSON preliminar e protótipos em execução local.
Foco inicial
Educação Especial Inclusiva (AEE)
Estudos de caso, PAAEs, planos de atendimento, diários pedagógicos, relatórios e planilhas municipais.
Inclusão digital Gestão educacional Interoperabilidade EducaDados Redução de desigualdades Inovação pública
Já desenvolvido
Completo
Definição conceitual do framework
Completo
Arquitetura inicial do pipeline
Completo
Schema preliminar JSON de saída
Completo
Benchmark em hardware limitado
Completo
Testes locais com modelos GGUF
Completo
Plano de fine-tuning e destilação
A desenvolver no Sandbox
Pendente
Dataset ouro validado
Pendente
Avaliação pedagógica
Pendente
Avaliação de Impacto Algorítmico
Pendente
Validação em ambiente controlado
Pendente
Métricas, riscos e salvaguardas
Pendente
Ampliação do conjunto de testes
Pipeline de processamento — 8 módulos
1
Ingestão multiformato
Recebe .xlsx, .xls, .docx, PDF, imagens. Identifica o tipo de artefato e prepara para extração. Suporta combinações de formatos em um único documento.
2
Extração com preservação de contexto estrutural
Converte sinais visuais (cor de fundo, células mescladas, espaçamento) em representação textual estruturada. Diferencial central do APDA ante pipelines genéricos.
openpyxlpython-docxPyMuPDFTesseractPaddleOCR
3
Anonimização multicamadas precede tudo
Remove PII antes de qualquer LLM. Regras determinísticas + modelos neurais + memória local para propagação consistente + revisão humana obrigatória.
4
Inferência de estrutura implícita
Identifica quais artefatos estão presentes, onde começam e terminam, e mapeia campos ao schema APDA — independente do município de origem. Raciocínio encadeado explícito (chain-of-thought).
5
Destilação supervisionada por dados
Modelos professores (família Sabiá/Maritaca AI) geram anotações iniciais. Cada exemplo passa por validação por schema + revisão de especialista em educação inclusiva antes de integrar o dataset ouro.
6
Fine-tuning do modelo-aluno
LoRA/QLoRA sobre dataset ouro validado. Família de modelos: ultraleve (CPU básica) → intermediário (consórcio regional) → maior (API estadual). Exportação em GGUF via llama.cpp.
7
Validação e auditoria
Valida JSON contra schema APDA, verifica consistência semântica, detecta possível vazamento residual, gera trilha de auditoria por documento. Todas as saídas marcadas como pendentes de validação humana.
8
Interface CLI + WebUI de onboarding
Diagnóstico do ambiente, seleção guiada de workflow, execução monitorada e histórico de auditoria — para equipes técnicas municipais sem especialização em IA.
Campo de pesquisa
O módulo de inferência de estrutura implícita corresponde ao campo Heterogeneous Document Understanding, com trabalhos recentes de Microsoft (SpreadsheetLLM, 2024) e Google — porém em domínio inédito: documentação pedagógica da educação especial em municípios brasileiros.
A participação no Sandbox Regulatório do MEC é estratégica em cinco dimensões que o desenvolvimento técnico isolado não pode substituir.
1
Validação do pipeline de anonimização como condição de uso público
Produz evidência reconhecida pelo regulador sobre adequação do framework à LGPD e ao ECA Digital no contexto da educação especial — valor que nenhum teste laboratorial isolado substitui.
2
Produção de evidência sobre heterogeneidade real de formatos municipais
Não existem estudos publicados sobre variabilidade de formatos pedagógicos entre municípios brasileiros. Esse dado é contribuição científica inédita e base para diretrizes de padronização mínima compatíveis com a realidade operacional.
3
Diálogo regulatório sobre o marco de interoperabilidade com a EducaDados
A Portaria 269/2026 delega ao MEC a definição dos conjuntos mínimos de dados. O APDA — como framework de entrada da infraestrutura — tem interesse legítimo nessa definição. O Sandbox cria canal formal de diálogo enquanto os padrões ainda estão sendo definidos.
4
Construção de evidência para escalabilidade estadual e nacional
Valida que o framework funciona de forma confiável, auditável e segura em condições reais — produzindo o tipo de evidência que viabiliza conversas com governos estaduais, consórcios e organismos de financiamento público.
Sem Sandbox: solução técnica promissora Com Sandbox: política pública em teste
5
Alinhamento com o Plano Brasileiro de IA e o ecossistema de inovação pública
Uso ético, soberania tecnológica, redução de desigualdades e código aberto. Visibilidade institucional junto a secretarias estaduais, IFs, universidades públicas e organismos de fomento.
O APDA é uma camada de tradução entre a inteligência informal dos profissionais de AEE e a infraestrutura formal do Estado brasileiro.
01
Municípios visíveis para políticas públicas
Converte registros de planilhas locais em dados estruturados e interoperáveis — condição mínima para existir nas estatísticas que orientam políticas federais.
02
Crianças visíveis no sistema de proteção
Estudantes com deficiência em municípios sem documentação estruturada são invisíveis no INEP, nas metas do PNE e nas avaliações de política pública.
03
Acesso a recursos FUNDEB negados
O fator de ponderação para estudantes com deficiência exige documentação adequada. Municípios que não documentam perdem recursos constitucionais.
04
Conformidade regulatória sem alto custo
Decretos 12.686 e 12.773/2025 exigem documentação pedagógica estruturada. O APDA opera em hardware básico, sem conectividade contínua, sem licença e sem lock-in.
05
Transição gradual para a EducaDados
Professores continuam usando seus instrumentos familiares. O framework converte essas saídas em dados compatíveis com a Portaria 269/2026 sem ruptura operacional.
06
Primeiro dataset de AEE municipal brasileiro
Anonimizado, validado por especialistas, com trilha de auditoria completa. Bem público inédito para pesquisa, formação de professores e desenvolvimento de novas ferramentas.
07
Soberania tecnológica
100% open source, execução local, modelos abertos, prioridade a modelos brasileiros (família Sabiá). Saídas em GGUF portável. O conhecimento dos professores de AEE permanece patrimônio público.
08
Infraestrutura replicável para outras áreas
A metodologia de compreensão de esquemas implícitos em documentos heterogêneos é generalizável para saúde, assistência social e habitação municipais.
Clique em cada risco para ver as medidas de mitigação.
Alto Vazamento de dados pessoais ou sensíveis
Nomes, laudos, diagnósticos, endereços, documentos familiares e dados de saúde podem estar nos artefatos.
  • Anonimização antes da estruturação (precede qualquer LLM)
  • Regras determinísticas para CPF, telefone, e-mail, CEP
  • Modelos neurais de detecção de PII em contexto narrativo
  • Dicionários locais de escolas, bairros e profissionais
  • Revisão humana obrigatória + classificação de risco por artefato
  • Logs de anonimização e descarte seguro de dados brutos
Alto Reidentificação indireta
Combinações como escola + turma + deficiência rara + município pequeno podem reidentificar mesmo sem nome.
  • Generalização de campos sensíveis
  • Remoção de granularidade excessiva
  • Avaliação de risco por artefato
  • Bloqueio de publicação de exemplos com risco alto
Médio Alucinação ou invenção de campos
Modelos de linguagem podem gerar dados não presentes no documento original.
  • Instruções explícitas para não inventar (campos nulos quando ausentes)
  • Validação por schema + comparação com texto-fonte
  • Métricas de fidelidade ao documento
  • Revisão humana obrigatória
Médio Mistura semântica entre estudantes ou artefatos
Em documentos com múltiplos estudantes, o modelo pode misturar informações entre registros.
  • Segmentação prévia por estudante ou artefato
  • Processamento de uma unidade semântica por vez
  • Detecção de múltiplos sujeitos antes da estruturação
  • Rejeição de saídas ambíguas
Médio Viés discriminatório
O modelo pode reproduzir termos ou categorias inadequadas sobre deficiência, aprendizagem ou vulnerabilidade.
  • Curadoria pedagógica + revisão por especialistas em educação inclusiva
  • Diretrizes de linguagem não discriminatória
  • Restrição de inferências diagnósticas
  • Proibição de classificação automática de estudantes
Baixo Uso indevido da solução
O framework pode ser utilizado para automatizar decisões educacionais sem supervisão humana.
  • Saídas sempre marcadas como pendentes de validação humana
  • Ausência de módulo decisório no framework
  • Termos de uso explícitos + documentação dos limites
  • Comunicação clara de que não substitui profissionais da educação
Métricas técnicas
taxa de JSON válido aderência ao schema campos obrigatórios preenchidos taxa de campos inventados taxa de campos ausentes tempo por artefato tokens/s uso de memória CPU / Vulkan / GPU falhas por tipo de arquivo
Métricas de privacidade
vazamento de nomes vazamento de CPF / telefone risco de reidentificação artefatos bloqueados por risco alto acurácia da anonimização
Métricas pedagógicas
fidelidade ao conteúdo original pertinência das categorias identificação de barreiras identificação de estratégias separação entre estudantes necessidade média de correção humana
Métricas comparativas
modelo base vs. fine-tuned diferentes famílias de modelos variação de tamanho de contexto níveis de quantização
Tratamento de dados — fluxo de 10 etapas
1 Ingestão 2 Extração 3 Anonimização 4 Checagem de risco 5 Estruturação JSON 6 Validação automática 7 Revisão humana 8 Armazenamento controlado 9 Descarte seguro 10 Logs e metadados