comment enrichir un profil utilisateur ?

Enrichissement de données & statistiques pour une connaissance client « augmentée »

Qu’est-ce que l’enrichissement ?

L’enrichissement consiste à aller chercher, sans limitation et sans aucun préjugé, des données complémentaires, provenant de sources externes, qui vont être mises en corrélation avec l’ensemble des données communiquées par les entreprises utilisatrices.

L’enrichissement va permettre de reconstituer le profil et l’environnement d’un individu à partir de simples données, jugées pauvres d’un premier abord.

Qu’est-ce que l’enrichissement ?

L’enrichissement consiste à aller chercher, sans limitation et sans aucun préjugé, des données complémentaires, provenant de sources externes, qui vont être mises en corrélation avec l’ensemble des données communiquées par les entreprises utilisatrices.

L’enrichissement va permettre de reconstituer le profil et l’environnement d’un individu à partir de simples données, jugées pauvres d’un premier abord.

L’enrichissement par ETIC DATA

Sources de données

3 sources de données différentes : internes, externes et propriétaires ETIC DATA avec plus de 20 millions de profils stockés et analysés en continu.

Méthodes d’agrégation

3 méthodes d’agrégation : stricte/semi stricte, par loi de probabilité et par score (résultant de mini modèles en apprentissage continu sur la base de données ETIC).

D’un data-frame « figé » à un data-frame « évolutif »

En utilisant ces différentes méthodes d’agrégation ETIC DATA a introduit des statistiques dans un système d’enrichissement de base de données permettant ainsi d’obtenir des estimations plus justes et de se distinguer des enrichissements classiques et figés. Les humains évoluent et changent dans le temps et les données qui les caractérisent aussi, ainsi la base de données enrichie n’est plus constituée de données figées comme on a l’habitude de la rencontrer mais « variables », en constante évolution et réapprentissage. Face à cette nouvelle architecture de data-frame « évolutif », ETIC DATA a dû développer des algorithmes spécifiques capables de gérer de la manière la plus pertinente possible ces nouveaux flux de données « vivantes » générés par l’enrichissement.

+1200 variables additionnelles

Au total la phase d’enrichissement permet d’ajouter plus de 1200 variables à la base de données initiale. Ces variables reconstituent de manière très fine, le profil d’un individu, son environnement, son comportement, son évolution uniquement à partir de données externes. Elles sont évolutives et en constant réapprentissage.

L’apport de cet enrichissement couplé à un algorithme adapté peut être mesuré sur les taux de bonne classification (principal indicateur de performance d’un modèle prédictif) qu’il induit. On observe en moyenne une augmentation de 15% de ce dernier suite à la phase d’enrichissement proposée par ETIC DATA (écart mesuré entre le taux de bonne classification obtenu sur base brute et sur base enrichie, moyenne sur 10 études de cas client).

Les limites de l’enrichissement

Actuellement l’enrichissement proposé par ETIC DATA permet d’ajouter plus de 1200 variables, mais il existe une infinité de sources disponibles et ce nombre ne cesse d’augmenter. Cette augmentation est d’autant plus grande que les algorithmes et les méthodologies utilisées permettent de traiter tout type de données, quantitatives, qualitatives, ordinales, structurées, non structurées, …

Équilibre entre enrichissement et robustesse des modèles

Face à cet enrichissement massif et à tant de données on peut se poser la question de la perte de robustesse des modèles qu’il peut induire. En effet, il a été démontré qu’un ajout trop important de données pouvait augmenter la variabilité des modèles prédictifs c’est pourquoi ETIC DATA travaille actuellement sur la notion d’enrichissement intelligent (sujet à découvrir à l’occasion de notre participation au Salon AI). Cet enrichissement permet, suite à une phase de prétraitement des données, de sélectionner pour chaque modèle, parmi l’ensemble des variables disponibles, uniquement les plus pertinentes et de limiter ainsi la variabilité causée par l’utilisation d’un trop grand nombre de variables.

Une demo ? Une question ?

CONTACTEZ-NOUS