Géocodage pour le géomarketing : géolocaliser les magasins, agences et clients

Une des premières étapes pour l’analyse géomarketing consiste à geolocaliser et à visualiser ses activités sur le territoire. C’est ce qu’on appelle le geocodage. Concrètement l’opération consiste à enrichir une base de données comportant des adresses avec leur latitude et leur longitude.

En géocodant ses magasins, agences, clients ou prospects il est possible de se faire rapidement et simplement une idée de sa couverture et d’en apprendre beaucoup sur :

  • Le maillage du réseau de vente
  • La portée de son attractivité auprès des clients sur le territoire
  • La pénétration localisée de la vente par internet
  • Par ricochet on verra immédiatement les zones à développer ou les zones saturées

 

Au-delà de la représentation géographique de l’activité il y a bien sûr beaucoup d’indicateurs intéressants qui découlent de la géolocalisation (taux de pénétration, couverture par typologie de quartier, influence du temps d’accès sur la fréquentation, typologie d’implantation …).

Le présent article vise à vous donner quelques éléments importants à connaitre pour optimiser son géocodage.

 

Précision du géocodage

 

Tout géocodeur qui se respecte doit vous donner :

  • Des statistiques sur le niveau de géocodage obtenu
  • La liste des adresses trouvées en comparaison des adresses de votre fichier
  • Les coordonnées géographiques latitude/longitude ou « XY »

Les niveaux de géocodage sont (en règle générale) les suivants :

  1. L’adresse au numéro exact
  2. L’adresse au numéro connu le plus proche
  3. Le milieu de la rue
  4. La commune
  5. Le code postal
  6. Le pays

 

Attention au numéro exact…

Dans la très grande majorité des cas l’adresse n’est pas la « vraie » adresse géographique. Dans les référentiels on connait les numéros de début et de fin de rues ce qui permettra par exemple de placer le numéro 8 au milieu d’un tronçon de rue qui commence au 2 et fini au 14. C’est ce qu’on appelle « l’interpolation ». C’est ce qui fait que vous pouvez avoir une adresse géocodée au numéro exact mais qui apparait sur le bâtiment d’à côté car les bâtiments ne sont pas distribués régulièrement le long des rues. Dans ce système par exemple les numéros bis/ter seront géocodés au numéro entier (le 2bis géocodé au 2).

Exemple de répartition des numéros de bâtiments dans une rue.

geocodage-repartition

 

Concrètement, la qualité de votre géocodage va être déterminée par 3 éléments :

  • La qualité des adresses de votre fichier
  • La qualité du référentiel cartographique
  • La qualité des algorithmes de rapprochement

Nous détaillons ces points ci-dessous.

 

Qualité des adresses du fichier d’entrée

 

Il est bien évident que la qualité de base d’un fichier dépend avant tout de la disponibilité des informations, la qualité des informations et de la façon dont elles sont structurées.

 

Les données manquantes

Dans tout projet mobilisant des données marketing/géomarketing il y a des données manquantes ou incomplètes et c’est toujours le cas dans un fichier d’adresses de clients ou de points de vente. Il y a différentes raisons pour qu’une adresse soit incomplète :

  • L’adresse n’est pas disponible comme dans les enquêtes sorties caisse où la précision géographique est le code postal
  • Le numéro de rue n’est pas disponible pour préserver l’anonymat. C’est souvent le cas dans les enquêtes en face-à-face. En effet, les enquêtés sont plus enclins à donner leur rue si on leur précise que n’ayant pas leur numéro de voie on ne pourra pas les solliciter de nouveau.
  • L’adresse n’est pas renseignée car pour diverses raisons on pense que le nom et la ville suffisent pour retrouver une localisation. Nous sommes très souvent confrontés à ce cas dans les bases de points de vente magasins ou le simple nom « IKEA Nantes » peut être considéré comme suffisant pour identifier le magasin. C’est certes souvent suffisant pour le facteur mais moins souvent pour un géocodeur (bien que cela soit en train de changer cf. plus bas)

 

Les adresses d’usage

Au-delà de l’absence de données, il y a aussi énormément d’adresses d’usage. Encore une fois, ce sont des adresses que votre facteur va connaitre, car il saura les interpréter. Mais pour une machine, une adresse qui n’existe pas n’est soit pas géocodée soit géocodée par une approximation souvent mauvaise (voir plus bas sur les algorithmes).

Clairement « Centre commercial Auchan » n’est pas une adresse valide.

Exemple typique d’adresses d’usage

geocodage1

La mauvaise structuration de la donnée d’adresse

La structuration de la donnée d’adresse est très importante car elle joue directement sur l’efficacité des algorithmes de rapprochement entre adresse et coordonnées géographiques.

En fait plus vous structurez vos informations au départ plus votre géocodage sera efficace.

Adresse de faible qualité due à la structuration

tableau géocodage 2

Structuration simple et efficace

géocodage

La structuration postale

La structuration postale est une bonne façon de normaliser vos adresses. Ce n’est cependant pas une garantie de réussite pour la simple et bonne raison que les référentiels d’adresses géographiques … ne sont pas élaborés par La Poste mais par les producteurs de cartes au premier rang desquels sont l’IGN et son référentiel adresses.

 

Le Service national de l’adresse recommande la structuration suivante :

  • Ligne 1 : Raison ou dénomination sociale
  • Ligne 2 : Identité du destinataire ou du service
  • Ligne 3 : Complément de localisation de la construction – Zone industrielle, Bâtiment, Immeuble…
  • Ligne 4 : N° et libellé de la voie – Rue, Avenue, Boulevard, Hameau…
  • Ligne 5 : Service de distribution – Mention spéciale (BP, Lieu-dit, TSA…)
  • Ligne 6 : Code postal (ou Cedex) et Localité (ou Libellé Cedex)

 

Attention cependant, le géocodage ne normalise pas forcément l’adresse au sens postal du terme. Certaines sociétés le proposent cependant. En effet, cela permet de vérifier si l’adresse existe dans le référentiel postal et éventuellement de corriger les erreurs orthographiques avant d’entrer l’adresse dans le geocodeur. On gagnait réellement en qualité il y a quelques années en effectuant une « RNVP ». Ce n’est plus le cas aujourd’hui et on obtient d’ailleurs de bien meilleures performances quand on connait bien un geocodeur et qu’on sait à l’avance quelles fautes il est susceptible de commettre.

 

La qualité du référentiel cartographique

 

Le référentiel des routes

Vous le voyez vous-même dans vos GPS, il faut un certain temps entre la construction d’une nouvelle route ou son renommage et la mise à jour de la cartographie de référence. Par ailleurs, il y a des voies qui sont en voies privées ou difficile d’accès ou non prioritaires pour les producteurs de données cartographiques. Les petites routes sont toujours mises à jour en dernier car la règle générale est de privilégier la couverture de population plutôt que la couverture géographique. Aussi les mises à jour seront plus fréquentes dans les grandes villes. Enfin, un certain nombre d’erreurs sur les voies viennent du fait que les référentiels retiennent souvent un seul nom de voie alors que dans les faits une départementale ou une nationale peuvent garder leur « titre » mais avoir un nom dans le centre-ville : la D4 devient « avenue du Général de Gaulle » dans votre fichier d’adresses mais le référentiel ne la connait que sous son nom de « D4 » … autant dire qu’il ne trouvera pas la correspondance tout seul.

A noter que le fichier des noms de voies et de lieux dits est gratuit et disponible sur le site des collectivités locales

 

Les référentiels de communes

Savoir trouver une route c’est bien mais la localiser dans la bonne commune c’est mieux … En France il y a chaque année des communes qui se marient et d’autre qui divorces ! Aussi il faut un certain temps pour que le nom d’usage de la commune et son nom officiel arrive à converger. L’exemple célèbre en géocodage est la commune de Lomme. Elle a fusionné avec Lille depuis bien longtemps mais elle figure encore dans de nombreuses adresses que certains géocodeurs ne savent plus placer car pour eux elle n’existe plus ! Cette commune associée a disparu officiellement des référentiels mais reste dans l’adresse postale.

Pour en savoir plus sur les fusions/séparations de communes le fichier officiel des communes est le C.O.G. et il se trouve ici

 

Les référentiels des numéros de rues

Ainsi qu’expliqué plus haut, dans la plupart des cas la localisation des numéros dans les rues est estimée par interpolation. Ce n’est cependant pas toujours le cas, notamment dans les bases dérivées du cadastre comme les 26 millions d’adresses de l’IGN (point adresse et bd adresse) ou la récente initiative BANO et son géocodeur sur 15 millions d’adresses. A noter que la base BANO est téléchargeable gratuitement sous licence ODBL.

 

Les Points d’intérêt (POI)

Comme déjà mentionné les geocodeurs ont la fâcheuse tendance à chercher une adresse de type postal. Cela paraît logique mais concrètement en geomarketing le géocodage ne consiste pas à savoir ou est une adresse mais à connaitre la localisation d’une personne, d’un bâtiment, d’un magasin. C’est pour cette raison que des sociétés comme Google ou Here sont entrées dans une logique différente qui consiste à intégrer des points d’intérêts dans les bases d’adresses. C’est comme cela qu’un arrêt de bus ou un magasin peut devenir une adresse en tant que telle et donc être retrouvée. Le problème dans ce cas se situe au niveau du traitement algorithmique qui va avoir tendance à vous chercher le Auchan le plus proche si vous chercher un Auchan à Nantes qui n’est pas dans sa base …

 

Qualité des algorithmes de rapprochement

 

Connaitre le fonctionnement de son geocodeur est fondamental. En effet chaque géocodeur à ses petits défauts qu’il faut bien connaitre pour pouvoir en tirer les meilleurs résultats possibles. Pour ce faire demandez à tester et créez un jeu d’adresses en faisant varier les éléments suivants: avec/sans numéros, avec/sans code postal, avec uniquement le numéro de département, avec des fautes d’orthographe, en mettant la ville en premier … Vous serez surpris des résultats.

 

Trouver un résultat coûte que coûte… Attention danger

Le principe du géocodeur est de trouver une adresse mais paradoxalement l’objectif n’est pas toujours un gage de qualité. L’explication est assez simple : la performance des logiciels est souvent jugée par le taux de géocodage , soit le taux d’adresses localisées par rapport aux adresses du fichier. De fait pour avoir un bon taux il suffit de géolocaliser à tout prix … et partout dans le monde … c’est comme ça qu’on trouve un Auchan Nantes à Tours ou une rue Charles de Gaule dans la commune d’à côté. Forcer la substitution d’adresses ou de communes donne souvent du grand n’importe quoi. Mes géocodeurs me proposent souvent des adresses situées dans des départements situés à l’autre bout de la France … Certes il y a bien une rue du même nom à Lille et à Marseille … mais bon quand même … Donc attention dites-vous bien qu’il faudra vérifier, et effectuer un post-traitement pour avoir un vrai bon taux de géocodage réussi.

Pour contrer ce phénomène certains géocodeurs proposent en entrée ou en sortie (ou les deux !) une note de niveau de qualité. Car en théorie on peut géocoder à 100% … mais avec des adresses au mauvais endroit. Il existe aussi des options consistant à forcer le département ou le code postal : si on ne trouve pas l’adresse dans l’un ou l’autre on ne fait pas substitution et on rejette l’adresse.

Pour jouer avec les géocodeurs on-line essayez des adresses et des fautes d’orthographes sur geocheck

 

Traitement statistique des erreurs

Certains géocodeurs proposent de traiter les erreurs à l’aide de carte mais quand on géocode 3 millions de porteurs de cartes de fidélité on ne s’amuse pas çà ce genre de chose. Cela peut cependant être utile pour des petits volumes. En ce qui nous concerne chez Parabellum nous considérons que la meilleure façon d’avoir un bon géocodage est de maximiser la qualité à chaque étape en corrigeant les adresses, les fautes d’orthographe, en rejetant les adresses géocodées avec peu de qualité et en passant dans plusieurs géocodeurs utilisant différentes sources. Je préfère un bon géocodage à la commune qu’un mauvais à l’adresse.

 

Précision du geocodage

Les géocodeurs « professionnels » proposent des options intéressantes à ne pas négliger comme le fait de décaler les adresses trouvées de quelques mètres. Cela permet par exemple de faire des comptages au quartier en limitant les erreurs topologiques si les limites ne passent pas exactement au milieu d’une voie.

 

Services et outils de géocodage

 

Vous avez besoin de géocoder ? Il existe plusieurs solutions. Bien entendu Parabellum propose ses services pour les gros volumes et pour l’international (faites jouer la concurrence, nous sommes bien placés ;-). Il existe des solutions gratuites pour des quantités limitées d’adresses le géocodeur de la base nationale. Ces outils sont gratuits, simples, utiles et de bonne qualité. Pour faire de la production nous pouvons vous recommander différents outils, n’hésitez pas à nous contacter pour en parler.

Pour nos amis geek il existe quantité d’algorithmes et autres supports plus ou moins performant : Nous aimons bien nominatim pour OSM.