Metodologia de coleta e publicação dos dados

O princípio de base

Publicamos apenas dados provenientes de fontes institucionais brasileiras ou internacionais. Não existe neste site um único registro proveniente de blog, site comercial privado, fórum ou denúncia anônima. Quando você vê um edital, uma decisão, um medicamento, uma licitação, existe sempre em algum lugar uma fonte oficial linkada que você pode verificar por conta própria.

Essa regra parece óbvia. Não é. Muitos agregadores brasileiros misturam fontes oficiais e secundárias sem distingui-las, reportam dados que não existem mais na fonte original, ou acrescentam comentário editorial que se sobrepõe ao dado factual tornando-os indistinguíveis. Nós mantemos a coisa separada: o dado é aquele, a fonte é aquela, os resumos ou comentários eventuais são nossos e estão claramente etiquetados como tais.

De onde vêm os dados

Para cada uma das dez categorias do site existe um conjunto de fontes institucionais mapeado e documentado. Em síntese, as principais por categoria:

Editais e fomento: CNPq, Finep, BNDES, Ministério da Educação (CAPES), agências de fomento estaduais (FAPESP, FAPERJ, FAPEMIG e congêneres), portais SEBRAE, EMBRAPA, Itaipu Binacional, ANCINE para audiovisual, fundos setoriais (CT-Petro, CT-Mineral). Para cada chamada agregada se memoriza a fonte específica (nome do órgão, URL do portal, timestamp da publicação).
Benefícios sociais: Ministério do Desenvolvimento Social, INSS (benefícios previdenciários), BPC (Benefício de Prestação Continuada), Bolsa Família e Auxílio Brasil, Auxílio Gás, Pé-de-Meia, INSS para aposentadoria, programas estaduais e municipais documentados nos respectivos portais oficiais.
Legislação: Diário Oficial da União, portais da Câmara dos Deputados e do Senado Federal, Planalto (Lex Brasil) para o corpus consolidado, sites dos tribunais superiores para acórdãos e súmulas vinculantes.
Calendário fiscal: Receita Federal do Brasil para impostos federais (IRPF, IRPJ, CSLL, PIS/COFINS, IPI), estados para ICMS e IPVA, municípios para ISS e IPTU. Calendário oficial publicado anualmente com atualizações por instruções normativas.
Combustíveis: dados abertos da ANP (Agência Nacional do Petróleo, Gás Natural e Biocombustíveis), publicados como Levantamento de Preços e Margens de Comercialização. Cobertura nacional com periodicidade semanal.
Indicadores econômicos: Banco Central do Brasil (séries SGS para Selic, IPCA, IGP-M, câmbio, PIB), IBGE para emprego e renda, IPEA para estatísticas econômicas estruturais.
Licitações: Portal Nacional de Contratações Públicas (PNCP), ComprasGov para compras federais, portais estaduais e municipais que seguem a Lei nº 14.133/2021 (Nova Lei de Licitações).
Transparência: Câmara dos Deputados (despesas parlamentares, CEAP), Senado Federal, Portal da Transparência do governo federal, prestações de contas de campanha do TSE.
Estatísticas IBGE: indicadores agregados (PIB, IPCA, PNAD, POF, censo demográfico), notícias institucionais do IBGE, microdados quando disponíveis.
Saúde: registros de medicamentos da ANVISA (Bulário Eletrônico, lista de OTC, registros vencidos), DATASUS para indicadores assistenciais quando relevantes.

Como acontece a coleta

A coleta é automatizada. Toda noite uma pipeline visita as fontes, baixa as atualizações, normaliza os campos, escreve no banco de dados. Para cada uma das dez categorias existe um scraper específico, escrito em Python, que gerencia as particularidades da fonte: às vezes são APIs JSON bem estruturadas (caso ótimo, exemplo Banco Central do Brasil), às vezes são CSVs disponibilizados como dados abertos (caso médio, exemplo ANP combustíveis), às vezes são HTMLs que precisam ser parseados página a página (caso pesado, exemplo alguns portais estaduais para editais).

A pipeline respeita os tempos das fontes. Se uma fonte atualiza mensalmente (por exemplo o Bulário ANVISA), o scraper roda mensalmente. Se atualiza a cada semana (por exemplo o levantamento ANP de combustíveis), o scraper roda semanalmente. Nunca chamamos uma fonte com mais frequência do que a própria fonte prevê em seus termos de uso.

Normalização e enriquecimento

O dado bruto quase sempre é reformatado antes da publicação. Cada fonte tem sua própria taxonomia: por exemplo as chamadas de fomento estaduais classificam a área temática de forma diferente entre fundações. Reduzimos a uma taxonomia comum para permitir buscas transversais que de outra forma seriam impossíveis.

Sobre uma parte selecionada dos registros (os benefícios mais consultados, as leis mais citadas, os medicamentos OTC mais buscados) acrescentamos um resumo escrito à mão ou assistido por modelo de linguagem mas sempre revisado em redação antes da publicação. Esses resumos estão etiquetados na base de dados como enriquecimento e são pensados para dar contexto a quem lê. Não substituem o texto original, que fica sempre linkado.

Atualização das páginas

Após a coleta noturna, o site é reconstruído e republicado antes das 7 da manhã seguinte. Cada registro de detalhe traz uma data de última atualização, referente à última vez que a pipeline confirmou a presença daquele registro na fonte. Quando uma fonte retira um dado (por exemplo um edital que sai do site do órgão), em nosso site aquele dado passa ao estado arquivado: a página continua existindo para quem já tem o link salvo, mas é marcada como encerrada e não aparece mais nas buscas ativas.

Para algumas categorias com muito volume e baixa relevância individual (por exemplo os editais minoristas, os postos de combustível em municípios pequenos), aplicamos uma política automática: as páginas com conteúdo substancialmente vazio, em que a fonte não nos dá informação suficiente para justificar uma ficha autônoma, ficam excluídas da indexação em buscadores embora permaneçam acessíveis para quem tem o link. A regra é: indexamos apenas o que tem valor informativo real para quem busca.

Privacidade e LGPD

A Lei Geral de Proteção de Dados Pessoais (LGPD, Lei nº 13.709/2018) regula o tratamento de dados pessoais no Brasil e impõe limites precisos à republicação de informações identificativas. Nós tratamos apenas dados publicados por órgãos públicos no exercício de obrigações legais de transparência e por isso a base legal predominante é o interesse legítimo do tratamento de dados públicos para fins de pesquisa, jornalismo e exercício de direitos.

Quando trabalhamos com decisões judiciais ou registros que podem conter dados pessoais sensíveis (CPF parcial, endereços, nomes de menores, condição de saúde, situação patrimonial), aplicamos anonimização automática que remove ou substitui os identificadores. Acima de cada página de detalhe com conteúdo médico ou jurídico há um aviso YMYL (Your Money or Your Life) que lembra ao leitor os limites da informação publicada e o direciona a um profissional para casos específicos.

Para solicitações de remoção LGPD entre em contato com [email protected] com assunto "LGPD remoção". Os prazos de resposta são dentro de sete dias úteis; as remoções motivadas são efetuadas no mesmo prazo.

Uso de assistentes IA

Desenvolvo o site com a ajuda de assistentes IA para a parte de código e para a geração de alguns resumos automáticos. Declaro isso aqui abertamente: parte da redação técnica do scraper, dos resumos breves de leis e benefícios, do cálculo de pertinência entre chamada pública e perfil de usuário, é assistida por modelos de linguagem de grande porte (Anthropic Claude para o código e para resumos editoriais refinados, DeepSeek para enriquecimento incremental).

O conteúdo editorial visível, ou seja esta página, as páginas institucionais (quem somos, fontes, processo editorial), os blocos introdutórios das categorias, os guias da seção dedicada, são escritos, relidos e modificados à mão antes da publicação. Nada do que você lê aqui em cima foi publicado "como saiu" do output de um modelo.

Gestão dos relatos

Se você encontrar um erro num dado publicado (um título de edital mal escrito, um prazo fiscal com data errada, uma decisão mal anonimizada, um preço de combustível claramente fora da escala), relate em [email protected] indicando a URL da página e o que está errado. Se você souber também qual é a fonte correta, melhor, mas não é obrigatório.

Os relatos de erro têm prioridade em relação ao restante da correspondência e são processados em sete dias úteis. Se o erro for nosso (uma raspagem mal feita, um parser defeituoso), corrigimos logo. Se o erro está na fonte original, relatamos ao órgão e enquanto isso adicionamos uma nota na nossa página.

O que não fazemos

Não vendemos os dados a terceiros.
Não perfilamos os usuários para finalidades comerciais nossas.
Não agregamos informações sobre pessoas concretas para construir dossiês. Os dados estão estruturados por órgão público, não por indivíduo.
Não publicamos conteúdos gerados na hora por IA sem revisão humana.
Não substituímos nem simulamos a opinião de profissionais (contadores, advogados, médicos, consultores). Os dados são de consulta, não de assessoria.
Não garantimos que uma chamada pública para a qual você cumpre os requisitos no nosso site será aceita pelo órgão convocante. Nossa fonte é a mesma que você usaria, mas a relação contratual com o órgão que concede o financiamento é entre você e o órgão, não passa por nós.

Metodologia