Metodologia

Como os dados são coletados, processados e transformados em inteligência política. Transparência sobre fontes, cálculos e limitações.

O HubPolítico opera sobre um princípio fundamental: dados quantitativos vêm exclusivamente de fontes oficiais públicas. A inteligência da plataforma não gera números, apenas organiza, cruza e contextualiza informações que já existem nos repositórios do TSE, da Câmara dos Deputados e do Senado Federal. Esta página detalha cada etapa do processo.

Coleta de dados

Os dados primários são obtidos por meio das APIs oficiais e datasets abertos publicados pelos próprios órgãos. A coleta é automatizada: dados eleitorais são importados após cada eleição, votações legislativas são sincronizadas duas vezes por dia durante sessões, e proposições são monitoradas continuamente.

Para dados eleitorais, o processo envolve download dos arquivos CSV do repositório do TSE, parsing estruturado, normalização de nomes e cargos, e carga no banco de dados com deduplicação por CPF/título de eleitor. Para dados legislativos, consumimos as APIs REST da Câmara e do Senado com paginação completa.

Perfis ideológicos

O posicionamento ideológico dos parlamentares é calculado a partir do padrão de votações em plenário. O modelo analisa como cada parlamentar votou em relação aos demais, identificando clusters de votação e posicionando em eixos como esquerda-direita e progressista-conservador.

Apenas votações nominais em que o parlamentar efetivamente registrou voto são consideradas. O cálculo é relativo ao conjunto de parlamentares analisados na legislatura, não a um referencial externo fixo. Os perfis são recalculados periodicamente à medida que novas votações ocorrem, com análise em 6 eixos e 15 pautas temáticas.

Radar político

O pipeline de monitoramento ingere artigos via RSS a cada 5 minutos de dezenas de veículos e portais institucionais. A IA classifica cada item por categoria (Congresso, Executivo, eleições, STF, economia, estados), atribui pontuação de relevância e agrupa por tema.

Tópicos que atingem um limiar de relevância recebem resumo editorial automático com atribuição de fontes. Relatórios consolidados são gerados automaticamente 4 vezes ao dia. Uma checagem editorial a cada 2 horas identifica temas importantes não cobertos. Cada tópico inclui links para as fontes originais.

Mapas eleitorais

Os mapas utilizam dados georreferenciados combinando duas fontes: os resultados por seção eleitoral do TSE e as coordenadas dos 102 mil locais de votação geocodificados. A agregação geográfica usa o sistema H3 (hexágonos hierárquicos) para representação em diferentes níveis de zoom.

As camadas socioeconômicas sobrepõem dados do Censo IBGE 2022 (renda, educação, demografia), índices de desenvolvimento (IDH, IDEB, IFDM) e indicadores do IPEA, INEP e DataSUS. As malhas geográficas de bairros, municípios e estados seguem as definições oficiais do IBGE.

Inteligência

A plataforma utiliza modelos de linguagem para tarefas analíticas: sumarização de proposições legislativas, classificação temática, geração de resumos contextuais no Radar, análise de documentos e respostas no chat com 32 ferramentas especializadas.

A IA tem acesso somente a dados públicos e nunca gera dados quantitativos: votos, patrimônio, tramitações e resultados eleitorais vêm diretamente das APIs oficiais e são entregues ao modelo como contexto estruturado. O modelo contextualiza, cruza e sintetiza, mas não inventa números.

Transparência e limitações

Perfis ideológicos refletem padrões de votação observados, não necessariamente as convicções pessoais dos parlamentares. A cobertura depende da disponibilidade nas fontes oficiais. Dados anteriores a 2002 podem ter lacunas devido à digitalização progressiva dos registros pelo TSE.

Resumos gerados por IA são indicativos e devem ser verificados contra as fontes originais para uso em publicações. A plataforma inclui links para as fontes em todos os contextos onde isso é aplicável. Priorizamos explicitar as limitações para que o leitor interprete os dados com o contexto adequado.