Création de tableau de bord, BI et entrepôt de données

mercredi 25 juillet 2012

Qu'est ce qu'un modèle étoile et les dimensions conformes

Votre directeur veut analyser les ventes de l'entreprise par produit et par mois. Le comptable veut analyser le budget et le comparer aux dépenses réelles par mois et selon les comptes de la charte comptables. En plus, ils veulent ajouter d'autres axes d'analyses comme la ville, le département sans devoir le demander aux informaticiens.

Afin de permettre aux utilisateurs d'exploiter leurs données de façon autonome, Kimball a cré une modélisation des données très simple d'utilisation: le modèle étoile. Le modèle étoile est destiné à l'utilisateur et a deux buts principaux : la simplicité et la performance. Un modèle étoile est une forme de modélisation des données orientée pour les utilisateurs non informaticiens contrairement aux autres formes de modélisations. Elle repose aussi directement sur les bases de données (ROLAP) apportant des avantages comme la récupération de la sécurité, la performance et le nombre illimité d'axes d'analyses et de volume de données.

Le modèle étoile contient deux types de tables : la table de faits centrale et les tables de dimensions qui l'entourent.

La table de faits contient des mesures, par exemple, des montants d'argent comme les ventes, les achats, des nombres de transactions, des quantités. Elle contient toutes les mesures qui peuvent être d'intérêt pour l'utilisateur et son organisation.



Les axes d'analyses qui entourent la table de faits s'appellent des dimensions. Les dimensions sont les " Par " de la table de faits. L'utilisateur veut analyser les mesures  comme les ventes de la table de faits " Par " : par dates, par localisations ( pays, provinces, villes), par segments de la charte comptable, par projets, par produits, par types d'assurances, par employés, par clients et ainsi de suite. Certaines tables de faits peuvent avoir des dizaines de dimensions " Par " lesquelles l'utilisateur désire analyser, croiser, forer et explorer les données.

Les dimensions ne se répètent pas dans l'organisation. Par exemple, la dimension client contient toutes les informations relatives aux clients dans une seule table qui est réutilisée pour tous les faits. Ces dimensions sont des dimensions conformes pour l'ensemble de l'organisation.

D'autres types d'organisation de données comme les cubes (MOLAP) peuvent convenir à votre organisation. Ce type convient bien pour les organisations qui ont peu de volume de données et peu d'axes d'analyses (les dimensions). Le volume d'un cube augmente de façon exponentielle en fonction des axes d'analyses. Ainsi un cube qui a 5 dimensions de 1000 enregistrements aura 1000 x 1000  x 1000 x 1000 x 1000 =  1 000 000 000 000 000 = 1 x 10 15 possibilités produites pour ces mesures et dimensions, créant un cube qui n'est pas performant ou pire l'impossibilité de créer le cube. S'il est impossible de créer le cube, il faudra diminuer le nombre de dimensions et ainsi diminuer les possibilités d'analyse de ce cube et perdre la possibilité de forer jusqu'au détail. Toutes sortes d'artifices sont utilisés avec plus ou moins de succès pour contrer cet inconvénient. Le pire étant de créer plusieurs cubes créant ainsi des silos qui ne permettent plus l'analyse croisée des données.

En résumé un schéma étoiles contient les axes d'analyse: les dimensions conformes, par lesquelles vous désirez consulter vos données: les faits. C'est une solution simple et performante adaptée au monde des entrepôts de données.

François Bouffard
Architecte BI
Panoramatechnologies.com