
Metodologia
O trabalho começa com a obtenção da base de CEPs dos correios. Esta base possui todos os CEPs do Brasil e é referência de localização para entrega de correspondência pelos correios.
A Base de CEPs original contém 1.021.138 registros com logradouros em 10.187 localidades (cidades e distritos) (4).
Como um logradouro pode possuir mais de um CEP, (lado par, lado ímpar, prédio X, ...) foi necessário eliminar as duplicidades(2). Esta redundância foi eliminada e então gerada uma base de logradouros únicos. Observo que os logradouros são agrupados por cidade. Então, se uma rodovia passa por mais de uma cidade, ficou um registro com o nome da rodovia para cada cidade.
A base de ceps tem logradouros, em municípios pequenos, onde o nome da cidade e também do logradouro estão preenchidos com o nome do distrito ou bairro onde se localizam, o que não caracteriza um logradouro de fato. Estes registros foram eliminados (6).
Também existe nesta base uma quantidade bastante grande de localidades com pouquíssimos logradouros. Isto porque o número do CEP abrange vários logradouros (3). Por exemplo: 6217 localidades possuem um único logradouro; 1097 localidades possuem somente 2 logradouros; 381 localidades possuem somente 3 logradouros; 163 localidades possuem somente 4 logradouros.
Ao final, a base de logradouros únicos obtida a partir do base de CEPs dos Correios ficou com 804.873 logradouros em 7633 localidades.
O projeto Open Street Maps, que é utilizado por programas de georreferenciamento, é uma plataforma aberta e colaborativa que contém também os logradouros de acordo com as necessidades destes aplicativos.
A base OSM original contém 3.455.002 registros de logradouros em 5571 municípios(5).
Havia 1.948.394 registros que que não possuíam nome de logradouro e foram eliminados. Também, um mesmo logradouro pode estar inserido várias vezes na base, pois é necessário um registro para cada trecho com velocidade diferente de uma mesma rua, para uso em GPS veicular por exemplo,. Assim, passamos também com a base da OSM pelo processo de eliminação de duplicidade (1) para geração de logradouros únicos.
Ao final, a base de de logradouros únicos obtida a partir do OSM ficou com 962.138 registros em 5183 municípios
Analisando o conteúdo das duas bases, é possível observar que para as cidades maiores a base de CEPs parece bastante completa e com a nomenclatura dos logradouros bastante correta. Mas para as cidades menores faltam muitos nomes de logradouros. A cidade de Rosário do Sul - RS, com 39.707 habitantes, por exemplo, ficou com um único registro de logradouro.
Já a base do OSM possui alguns problemas na grafia de alguns logradouros e, para as cidades grandes, normalmente possui menos registros que a base de CEP. Mas, para as cidades menores possui uma quantidade significativamente maior de logradouros cadastrados.
Para tentar gerar um cadastro otimizado que contemple o melhor de cada uma dessas bases, foi criada uma nova base consolidada no seguinte processo:
Inserir cidades da base de CEP com mais de 20 logradouros (7): 793.344 registros em 390 cidades; Identificar e corrigir manualmente as cidades com nome diferente entre as bases (8): 2 cidades; Inserir as cidades da base OSM que ainda não estão na nova base recém criada (9): 408.890 registros em 4793 cidades.
Ao final temos uma base consolidada com 1.202.234 em 5.183 cidades
(1)(2)(3)(4)(5)(6)(7)(8)(9) - Consultas feitas ao banco de dados
* A base, consolidada por mim, pode ser disponibilizada, sem custos, para quem se interessar. Entre em contato pelo site.