A técnica de data scraping, que significa raspagem de dados, utiliza métodos computacionais (conhecimento em programas especializados) para extrair os dados escondidos em documentos on-line.
Por meio do serviço de raspagem é possível organizar os dados e utilizá-los de forma útil para fazer cruzamentos de informações e descobertas.

Um exemplo do uso: no portal da transparência dos governos há informações dos gastos públicos, mas muitas vezes estão disponíveis versões em PDFs, de forma que não é possível aglutinar as informações para ter um somatório ou então relacionar períodos de tempo para acompanhar a evolução das despesas.
A técnica é muito utilizada por jornalistas em investigações, mas também é cada vez mais útil no gerenciamento de empresas.
Com esses conhecimentos é possível varrer sites e obter informações estratégicas para a tomada de decisões.
Orçamentos, monitoramento de concorrência e até elaboração de estudos podem ser feitos por meio desse método que combina diversas habilidades científicas.
Iniciativa pela transparência 3734f
E como facilitar o o de informações públicas? Em busca de soluções para essa questão, a organização não governamental OKBR (Open Knowledge Brasil) criou um site com o objetivo de estimular a transparência.
O portal se chama Querido Diário e foi lançado em julho. O projeto ainda está em fase de implantação, mas nasceu robusto e é iniciativa relevante do ponto de vista de participação social.
Nas primeiras semanas de uso já há resultados práticos. O coordenador do programa Ciência de Dados para Inovação Cívica na OKBR, Giulio Carvalho, conta que uma jornalista teve a ideia de filtrar o termo Covid para ver a relação de atos oficiais e a partir daí identificou o tempo que as medidas foram tomadas em relação aos momentos de colapso na saúde para identificar se as medidas de governo atuaram na prevenção ou ocorreram de forma tardia.
“É um estudo de caso bem interessante e a gente quer que as pessoas usem para situações desse tipo”, reflete Carvalho.
Plataforma criou “bots” para filtrar e organizar as publicações de diários oficiais
A plataforma Querido Diário usa robôs para ‘raspar’ publicações governamentais de cidades.
Através do mecanismo de pesquisa, é possível que qualquer pessoa faça buscas por conteúdos com o uso de palavras-chave, municípios ou datas. Até agora, a plataforma mapeou os diários oficiais de 597 municípios, o que equivale a 10,7% das cidades brasileiras.
Ao digitar “Florianópolis” na busca, aparecem mais de 400 páginas e 4.014 resultados encontrados em um mês de existência da plataforma. Em Santa Catarina, são 63 municípios mapeados, o que equivale a 21.36% das cidades do Estado. É possível ordenar os resultados por relevância ou por data.
Por que acompanhar o Diário Oficial? 1t733
A legalidade dos atos é um dos pilares da gestão pública. Então, todos os atos precisam ser registrados. A contratação de servidores, exonerações, férias e compras são exemplos de atos que precisam de registro. Isso impulsiona outro pilar, que é a transparência.
A população precisa ter o a essas informações. No entanto, nem sempre o o é facilitado. Muitos portais ficam escondidos, enquanto deveriam ter destaque.
Outro obstáculo é a dificuldade de pesquisa, de filtrar os assuntos por tema.
Por exemplo, se a população quer saber o quanto é gasto com café na esfera pública, deveria colocar num campo de busca e encontrar essa informação com facilidade, no entanto isso nem sempre acontece.
O Querido Diário criou a plataforma para facilitar esse o.
Barreiras digitais e escaneres impedem trabalho 3n174u
Para quebrar as barreiras da transparência será necessário um exército de robôs treinados para a missão. É que os portais onde são divulgadas as informações não são amigáveis para a busca e raspagem de dados.
Conforme Carvalho, os robôs da OKBR estão encontrando dificuldades.
“Tem muitos dados hoje que são escaneados e isso é um problema. Você tem o PDF, que são imagens escaneadas, e aí a gente tem que extrair o conteúdo que não está num formato livre”, diz.
Plataforma indica que desenvolvedores precisam usar formatos abertos 1d2n5j
O ideal seria que as publicações ocorressem em HTML ou outro formato amigável para a raspagem.
“Esse deveria ser um padrão a ser seguido e a gente poderia baixar a base completa de forma tranquila”. A meta do grupo é ampliar a plataforma e ajudar os municípios e desenvolvedores na construção de ferramentas de tecnologia.
“A gente pensa que o Querido Diário é um grande compilador de padrões. A gente está vendo que depois poderemos ajudar esses órgãos publicadores a criar essa plataforma de publicação ideal adaptando à realidade de cada um. Provavelmente mais no futuro a gente tem a intenção de criar esse diálogo e ajudar os fabricantes a divulgarem de um jeito mais aberto também”.
Saiba como funciona um robô digital 5j2u1y
Também conhecidos como bots, os robôs digitais são softwares desenvolvidos para simular a ação humana de forma padronizada e repetida na internet.
O ideal seria que todas as informações públicas estivessem abertas, mas nem sempre é assim.
Então para fazer um mapeamento de contracheques, por exemplo, em que há uma lista de links mês a mês, uma pessoa teria que clicar em cada link e copiar as informações de cada um.
No entanto, através de conhecimento de programação é possível criar um software que faz isso automaticamente.
Chamado de robô, esse software recebe o comando para clicar em todos os links e depois extrai as informações para uma planilha para que as informações sejam lidas e trabalhadas com facilidade.
Veja se o seu município está no site através deste link.