Création de tableau de bord, BI et entrepôt de données

lundi 3 décembre 2012

Analyste d’affaires spécialisé BI, est-ce nécessaire ?

On me pose souvent la question : « Est-ce que l’analyste d’affaires doit avoir des connaissances de l’intelligence d’affaire (BI) ? ». Voici un exemple concret qui différentie le résultat obtenu par l’analyste d’affaires et l’analyste d’affaires BI.

Partons d'un cas vécu dans un ministère au Québec qui gère plusieurs milliards de dollars annuellement.

L’analyste d’affaires recherche et analyse les processus. Pour l’analyste d’affaires les processus sont le centre de son analyse et les composantes informatiques résultantes en seront directement découlées. Par exemple, en comptabilité l’analyste d’affaires trouvera le processus du budget et de la comptabilité du réel au jour le jour. Donc deux processus sur lesquels les étapes subséquentes de l’architecture et de l’implantation seront basés.


Pour l'analyste d'affaires il y a 2 processus qui vont découler de deux comptoirs de données.

L’analyste d’affaires BI recherche et analyse aussi les processus mais en fonction des données. Pour l’analyste d’affaires BI les données primes sur les processus, le cas 2.
 Pour l'analyste d'affaires BI il y a 1 processus qui va découler en un comptoir de données.
Cette différence dans l’analyse d’affaires impose un biais qui a un impact important dans l’entrepôt de données. Ce problème est typique et souvent rencontré dans les organisations.

Dans notre exemple, l’analyse d’affaires du cas 1 résultera en deux silos. Il sera difficile d’avoir des réponses pour des ratios et calculs pour des questions simples comme quelle est l’argent disponible à un moment donné (le budget moins le réel). L’entrepôt de données ne répond pas à des besoins d’affaires simples et vitaux pour l’organisation.

Cas 1 - Silo



Le cas 2 résultera en un comptoir intégré avec le budget et le réel. Il sera facile de faire tous les calculs et ratios entre les deux processus.

Cas 2 - Modèle étoile intégré



On voit donc l’impact majeur des deux types d’analyse. Cette exemple est basé sur un cas vécu dans un important ministère au Québec. Il y avait plusieurs processus comptables : budget, réel et engagement. Et pour chacun l'analyste d'affaires et l'architecte de données avaient demandé la création de silos. Le spécialiste de Panorama Technologies a corrigé le problème au niveau de l’architecture de données afin de créer un seul comptoir intégré contenant tous les processus. Ce comptoir répondait si bien aux besoins qu'il est passé d’une utilisation nulle à un déploiement provincial tant au niveau ministériel, des directions générales que des directions territoriales et services du ministère.

François Bouffard
Analyste d'affaires BI
Panoramatechnologies.com

mercredi 25 juillet 2012

Qu'est ce qu'un modèle étoile et les dimensions conformes

Votre directeur veut analyser les ventes de l'entreprise par produit et par mois. Le comptable veut analyser le budget et le comparer aux dépenses réelles par mois et selon les comptes de la charte comptables. En plus, ils veulent ajouter d'autres axes d'analyses comme la ville, le département sans devoir le demander aux informaticiens.

Afin de permettre aux utilisateurs d'exploiter leurs données de façon autonome, Kimball a cré une modélisation des données très simple d'utilisation: le modèle étoile. Le modèle étoile est destiné à l'utilisateur et a deux buts principaux : la simplicité et la performance. Un modèle étoile est une forme de modélisation des données orientée pour les utilisateurs non informaticiens contrairement aux autres formes de modélisations. Elle repose aussi directement sur les bases de données (ROLAP) apportant des avantages comme la récupération de la sécurité, la performance et le nombre illimité d'axes d'analyses et de volume de données.

Le modèle étoile contient deux types de tables : la table de faits centrale et les tables de dimensions qui l'entourent.

La table de faits contient des mesures, par exemple, des montants d'argent comme les ventes, les achats, des nombres de transactions, des quantités. Elle contient toutes les mesures qui peuvent être d'intérêt pour l'utilisateur et son organisation.



Les axes d'analyses qui entourent la table de faits s'appellent des dimensions. Les dimensions sont les " Par " de la table de faits. L'utilisateur veut analyser les mesures  comme les ventes de la table de faits " Par " : par dates, par localisations ( pays, provinces, villes), par segments de la charte comptable, par projets, par produits, par types d'assurances, par employés, par clients et ainsi de suite. Certaines tables de faits peuvent avoir des dizaines de dimensions " Par " lesquelles l'utilisateur désire analyser, croiser, forer et explorer les données.

Les dimensions ne se répètent pas dans l'organisation. Par exemple, la dimension client contient toutes les informations relatives aux clients dans une seule table qui est réutilisée pour tous les faits. Ces dimensions sont des dimensions conformes pour l'ensemble de l'organisation.

D'autres types d'organisation de données comme les cubes (MOLAP) peuvent convenir à votre organisation. Ce type convient bien pour les organisations qui ont peu de volume de données et peu d'axes d'analyses (les dimensions). Le volume d'un cube augmente de façon exponentielle en fonction des axes d'analyses. Ainsi un cube qui a 5 dimensions de 1000 enregistrements aura 1000 x 1000  x 1000 x 1000 x 1000 =  1 000 000 000 000 000 = 1 x 10 15 possibilités produites pour ces mesures et dimensions, créant un cube qui n'est pas performant ou pire l'impossibilité de créer le cube. S'il est impossible de créer le cube, il faudra diminuer le nombre de dimensions et ainsi diminuer les possibilités d'analyse de ce cube et perdre la possibilité de forer jusqu'au détail. Toutes sortes d'artifices sont utilisés avec plus ou moins de succès pour contrer cet inconvénient. Le pire étant de créer plusieurs cubes créant ainsi des silos qui ne permettent plus l'analyse croisée des données.

En résumé un schéma étoiles contient les axes d'analyse: les dimensions conformes, par lesquelles vous désirez consulter vos données: les faits. C'est une solution simple et performante adaptée au monde des entrepôts de données.

François Bouffard
Architecte BI
Panoramatechnologies.com

mercredi 16 mai 2012

OBIEE - Tableau de bord dynamique avec et les données de la RAMQ

Un tableau de bord avec OBIEE démontrant le potentiel des outils BI pour les utilisateurs. Ce tableau de bord a été construit avec les données publique gouvernement du Québec de la RAMQ. Beaucoup de données sont disponibles dans les entrepôts de données au Québec, si elles sont biens organisées, il devient simple pour les utilisateurs de les exploiter et ce peut importe l'outils.

OBIEE (ou tout autre outil BI avec une couche sémantique en langage utilisateur) permet une représentation saisissante de tableau de bord et l'exploration des données par les utilisateurs. OBIEE est utilisé ici pour analyser le coût RAMQ des médicaments au cours des années au Québec, selon les types d'adhérants, les sexes et les tranches d'âge. On pourrait ajouter beaucoup d'autres axes d'analyses significatives au tableau de bord pour les utilisateurs.

Organiser les données dans l'entrepôt de données afin de toutes les exploiter

Voir la présentation sur youtube 


Exemple de graphique dynamique représentant l'évolution des coût des médicaments pour la RAMQ en fonction de tranches d'âges



Vous pouvez voir le même tableau de bord avec les données de la RAMQ du Québec mais construit avec l'outil Tableau Software.

http://panorama-technologies.blogspot.ca/2012/05/tableau-de-bord-avec-obiee-et-les.html


François Bouffard
Architecte BI
Président

mercredi 2 mai 2012

Comment choisir votre outil BI et maximiser l'utilisation de votre entrepôt de données - Un cas vécu

Désirez-vous démocratiser l'accès à vos données ? Maximiser le nombre de personnes qui peuvent exploiter et utiliser l'entrepôt de données ? Baisser les coûts de développement, mettre à profit la communauté d'utilisateur votre entreprise pour élaborer de nouveaux rapports sans l'intervention de programmeur pour vos rapports, tableaux de bord et indicateurs ? Je vous présente dans cet article un fait vécu à Québec, les problèmes rencontrés, les solutions apportées et des critères de sélection d'outil d'intelligence d'affaires (BI Business Intelligence) qui rejoigne les tendances du marché soulignées dans les rapports de Gartner .

Un de nos clients qui gère plusieurs milliards de dollars de budget et de projet par ans a transformé son entrepôt de données de simple indicateurs fixes construits par les programmeurs à un environnement d'exploitation libre exploité par les utilisateurs comme les comptables, les responsables des budgets, les agents etc. L'entrepôt de données du client contient une masse de données intéressantes mais sous-exploitées. Trois problèmes majeures causaient son sous-utilisation: l'architecture de données, l'absence de couche sémantique en langage d'affaires et l'outil d'exploitation qui était orienté programmeur.

L'architecture de données ouverte et simple

L'architecture de données est primordiale dans un entrepôt de données. Elle permet l'accès aux données de façon simple et performante. L'apport le plus important de l'architecture de données est le résultat de l'extraction des données des systèmes opérationnels pour les rendre disponibles à l'utilisateur en schéma étoile (Article: Qu'est-ce qu'un modèle étoilé) . Même si le modèle de données obtenu dans un entrepôt de données est simple, des schémas en étoile, la façon d'y arriver nécessite des connaissances qui sont très différentes de celles utilisées pour la construction de systèmes transactionnels. Il est donc important de vous adjoindre une équipe qui maîtrise les techniques et les meilleures pratiques propres aux entrepôts de données.

Bien que notre client ait une masse de données intéressantes les données n'étaient pas structurées pour en faciliter l'accès. Les données étaient regroupées en cubes isolés (silo). Plusieurs de ces cubes étaient très similaires et répliquaient les données sans apporter d'avantage aux utilisateurs. La sous exploitation des données était due aux limitations des cubes (et non de l'outil BI). Les cubes étaient d'abord limités par le volume de données et limités par le nombre d'axes d'analyse disponibles dans un même cube. En plus d'une architecture d'entrepôt de données déficiente, le moindre changement organisationnel (réorganisation ministériel) devenait un casse-tête et devait être répercuté dans cette multitude de cubes rendant les rapports caduques et augmentant considérablement les délais de livraisons et les coûts d'entretien.

La première tâche a été de redresser l'architecture de données et de la corriger afin d'utiliser les dimensions conformes et des tables de faits, d'un schéma étoile, performantes et facilement compréhensibles pour l'utilisateur. Par exemple, la structure ministérielle est définie dans une table commune qui est utilisée pour tous les produits informationnels. Les cubes (silo MOLAP) ont été éliminés et regroupés dans des schémas étoiles intégrés (ROLAP) décuplant ainsi la force d'analyse et les possibilités de construction de produits informationnels pour les utilisateurs. En quelques semaines l'équipe d'affaires a élaboré des dizaines de produits informationnels qui auraient été livrés en plusieurs mois par une équipe de programmeurs. Par exemple, la livraison d'un nouveau rapport était évaluée à 180 jours par l'équipe de développement a été réalisé en une journée par l'équipe d'affaires avec l'outil d'exploitation libre basé sur le modèle étoilé. Ceci étant dit, l'apport de l'équipe de développement demeure primordial entre autre pour la construction de l'ETL performant et l'obtention du schéma étoile qui demande des connaissances en programmation et en intelligence d'affaires ( BI : business Intelligence). L'utilisateur connaît ses besoins qui sont en perpétuels évolutions sans compter les demandes ad-hoc c'est donc dans la construction des rapports avec des outils conçus pour l'utilisateur que son apport est maximal.

La couche logique intégrée en langage d'affaires

Le second problème qui causait la sous exploitation de l'entrepôt de données de notre client était l'absence de couche sémantique intégré en langage d'affaires. Les définitions d'affaires étaient éparpillées et dupliquées dans les cubes et autres outils. Pour créer de nouveaux rapports ou répondre à des demandes ad-hoc les utilisateurs devaient utiliser des cubes partiels construits en silo, ou construire des requêtes de programmation SQL ou demander la programmation des rapports dans des outils comme MS-Excel. Ce que très peu d'utilisateur pouvaient réaliser. Il était donc obligatoire de présenter toutes les nouvelles demandes de produits informationnels ou demande ad-hoc à une équipe de développeur. Étant donné que le temps pour réaliser les produits informationnels par le programmeur était long, l'utilisateur avait déjà utilisé des solutions alternatives et avait répondu à ses questions... et en avait de nouvelles...

La couche logique intégrée en langage d'affaires est primordiale dans un environnement maximisant l'apport de l'utilisateur. Cette couche permet de traduire les éléments du langage informatique au langage utilisateur d'affaires. Sans cette couche l'utilisateur doit avoir des connaissances informatiques pour construire ses rapports et produits informationnels. Tous les produits BI orientés utilisateurs possèdent une couche logique intégrée en langage d'affaires par exemple OBIEE d'Oracle avec sa couche sémantique ou Oracle Discoverer avec son EUL, Business Object avec ses univers, Microstrategy et même IBM Cognos qui a ajouté ses paquetages dans ses plus récentes versions. Pour les grandes organisations qui ont des volumes de données important, il est important que cette couche ne soit pas seulement basée sur des cubes épars (MOLAP) mais sur les schémas étoiles de la base de données (ROLAP). Les plus petites organisation pourront baser leur solution sur des cubes MOLAP à condition qu'ils ne doivent pas scinder les cubes à cause du volume de données. Les produits qui n'ont pas de couche sémantique intégrée ou qui utilise seulement des cubes peuvent être un bon choix lorsque les produits informationnels sont peu nombreux et sont élaborés seulement par des programmeurs ou pour d'autres circonstances spécifiques.

La couche logique intégrée en langage d'affaires offre un environnement de données structurées et intégrée pour l'ensemble de l'organisation. Elle permet en plus d'ajouter une couche supplémentaire de sécurité à la base de données mais cette fois-ci géré par l'utilisateur.

Nous avons donc implanté une couche logique en langage d'affaires qui permet à l'utilisateur de créer ses produits informationnels.

Outil de construction de rapports orienté  pour les utilisateurs

Le troisième problème qui causait la sous exploitation de l'entrepôt de données de notre client était l'outil d'exploitation des rapports et produits informationnels. L'outil choisi par notre client était un bon outil dans le contexte où l'organisation qui l'acquiert dispose d'un grand nombre de programmeurs en permanence. Les démonstrations de l'outil des représentants et disponibles sur internet frisait le maquillage. Mais lorsqu'on gratte un peu les limitations apparaissent rapidement pour les utilisateurs. L'outil permettait de belle présentation mais n'était pas orienté utilisateur.

Un outil de développement de rapports orienté utilisateur permet à l'utilisateur de créer ses rapports, indicateurs et autres produits informationnels sans avoir de notion de programmation. Il permet aussi de les déployer lui-même sur son portail ou sur sa plateforme mobile.

L'utilisation d'outil d'exploitation libre est aussi avantageuse pour les TI. Elle permet de libérer les ressources des directions informatiques (TI). L'apport des utilisateurs est maximisé  leur assurant une grande autonomie dans l'exploitation de l'entrepôt de données et dans la construction des dizaines de rapports ministériels ou corporatifs, des centaines demandes ad-hoc, tableaux de bord et autres produits informationnels.



Nous avons donc installé un outil d'exploitation libre orienté utilisateur. Cet outil est basé sur la couche logique intégrée en langage affaires et non directement sur les bases de données ou des cubes construit en silo. Ceci a permis la contribution maximale des spécialistes de domaines et des utilisateurs. Ils ont rapidement créés des rapports ministériels standards. Ces rapports ont pu être distribués au niveau provincial, dans les directions territorial et les directions générales. Ces directions ont pu les personnaliser et les paramétrer eux même selon les besoins de leurs utilisateurs. Ces rapports standards permettent aux directions régionales d'échanger une information standardisée à l'ensemble de la province et pour les directions générale du ministère.

Selon l'expérience de PanoramaTechnologies avec ses clients  et une étude exhaustive de plusieurs produits BI nous avons constaté que les spécifications suivantes sont des atouts majeurs d'un outil BI afin de permettre l'exploitation maximale par les utilisateurs:

- La couche sémantique en langage d'affaires intégrés orienté utilisateur;
- Outil de développement de rapports, indicateur orienté utilisateur
- Outil de construction de portails orienté utilisateur

Gartner confirme la prise en charge des environnements BI par les utilisateurs dans ses rapports annuels sur les plateformes BI de 2011 et de 2012.

Grâce aux outils orientés utilisateurs disponibles sur le marché, les utilisateurs peuvent devenir les maîtres de l'exploitation libre de l'entrepôt de données. Il libère ainsi les TI de la tâche sans fin de développer des rapports ad hoc et urgents qui sont en constante évolution.

François Bouffard
Architecte BI et analyste d'affaires BI
Panoramatechnologies.com

dimanche 22 janvier 2012

Test Professionnel BI et entrepôt de données

Voici quelques questions qui vous permettrons de déterminer si vous travailler avec un professionnel qui est capable, d'appliquer et vous de conseiller dans le domaine des entrepôts de données et du BI. Ces questions s'adressent autant à l'architecte BI, au programmeur ou tout autres professionnels BI. Les questions visent à déterminer si les connaissances du professionnelle se limitent à la théorie ou sont incarnées dans la pratique.
1- La couche logique sémantique est une composante clé de l'entrepôt de données à quoi sert-elle ? Nommer au moins deux outils qui ont cette composante.

2- Qu'est ce que le MOLAP ? Quelle est sa principale force ? Quel est sa principale faiblesse ? Nommer au moins deux outils utilisant le MOLAP.

3- Qu'est-ce que le ROLAP ? Quelle est sa principale force ? Quel est sa principale faiblesse ? Nommer au moins deux outils utilisant le ROLAP.

4- Qu'est-ce qu'une dimension ? De quoi est-elle composée ?

5- Qu'est qu'une dimension conforme ? Pourquoi sont-elles obligatoires dans un entrepôt de donnée ?

6- Qu'est-ce qu'une table de fait ? De quoi est-elle composée ?

7- Nommer au moins deux outils d'exploitation libre BI avec lesquels l'utilisateur peut créer ses rapports sans l'intervention de programmeur.

8- Qu'est-ce que le staging ? À qui est-il destiné ?

9- Qu'est-ce qu'un schéma étoile ? À qui est-il destiné ? Nommer deux de ces caractéristiques utilisateurs.

10- Qu'est ce que l'ETL ? Nommer deux outils ETL.

Chacune des questions vaut 10 points Vous pouvez donc évaluer votre spécialiste sur 100. Étant données que ce sont des questions vraiment fondamentales la note de passage est de 75%.

Pour une correction vous pouvez m'écrire.

François Bouffard
Architecte BI et analyste d'affaires BI
PanoramaTechnologies.com

samedi 21 janvier 2012

Organisation des données pour l'exploitation libre par les utilisateurs: le schéma étoile

Dans tout entrepôt de données, le département des TI peut mettre à la disposition des utilisateurs un puissant moyen d'accès aux données: le schéma étoile. Cette approche permet au département TI de se concentrer sur la gestion informatique des données. La création des nombreux rapports peut-être déléguée aux utilisateurs qui y sont très productifs, car ils maîtrisent le domaine d'affaires et leur schéma étoile.

J'ai implanté cette approche dans un ministère qui gère un budget de plusieurs milliards de dollars par année. En quelques semaines, au lieu de plusieurs mois, elle a permis aux utilisateurs de créer par eux-mêmes des dizaines de rapports dans le domaine des ressources financières. En plus, les utilisateurs sont autonomes et n'ont pas à demander au département TI de développer des rapports. Les rapports sont élaborés sur des millions d'enregistrements en ressources financières basés sur le croisement des données des applicatifs Oracle SAGIR (ERP E-Business Suite) et des données du système de mission du client.
 
Vous pouvez aussi tester facilement cette approche dans votre entrepôt de données. Voici les principes de bases.
 
Le schéma étoile est une forme de modélisation ayant deux avantages majeurs: l'accès convivial aux données et la performance. Le schéma étoile est orienté pour les utilisateurs et conçu pour l'exploitation libre des données par l'utilisateur.
 
L'accès convivial aux données se fait via des outils d'exploitation libre pour les utilisateurs comme Cognos 10, OBIEE 11g, Microstrategy, Discoverer Tableau Software ou Business Object. Ces outils possèdent une couche sémantique corporative dans le langage d'affaires du client. Cette composante logicielle est un élément clé de tout entrepôt de données qui permet de traduire le langage informatique en langage d'affaires (et beaucoup d'autres fonctionnalités). En plus, ces outils possèdent des interfaces pour élaborer de rapports mais destinés aux utilisateurs (et non aux programmeurs).
 
Le schéma étoile est convivial pour l'utilisateur puisqu'il repose sur deux structures de tables très simples. La table de faits et les tables de dimensions.
 
La table de fait contient toutes les mesures par domaine d'affaires qui intéressent les utilisateurs pour la création de leurs rapports. Par exemple, le coût d'un produit ou d'un service, le nombre de fois qu'il a été utilisé, des calculs et des moyennes.
 
Les tables de dimensions sont les axes d'analyses utiles pour la création de rapport par l'utilisateur. Par exemple, les clients, les produits et services, les segments de la charte comptable, les dates.
Les dimensions sont simplement rattachées à la table de fait et permettent une analyse multidimensionnelle selon toutes ces dimensions. Il devient donc possible d'analyser les mesures de la table de faits selon diverses combinaisons de dimensions. Par exemple, obtenir les ventes (mesures) par dates (dimension temps), par produits (dimension produit) et par villes (dimension géographique).
 
Il est très important que les dimensions soient partagées et communes à l'ensemble de l'organisation. Les dimensions sont alors conformes et peuvent servir à réaliser des analyses croisées entre les tables de faits des divers domaines de données de l'entrepôt de données. Ainsi l'utilisateur pourra créer des rapports lui permettant de naviguer entre les diverses tables de faits (forage entre les domaines d'affaires).
 
Lorsqu'ils sont bien modélisés, les schémas étoiles sont extrêmement performants, car il minimise le nombre de liens et peuvent être indexés de façon particulière pour la plupart des bases de données comme Oracle.