Flux de données - Data stream

Dans la communication orientée connexion , un flux de données est une séquence de signaux cohérents codés numériquement ( paquets de données ou paquets de données ) utilisés pour transmettre ou recevoir des informations en cours de transmission. Un flux de données est un ensemble d'informations extraites d'un fournisseur de données. Il contient des données brutes qui ont été recueillies à partir du comportement du navigateur des utilisateurs à partir de sites Web, où un pixel dédié est placé. Les flux de données sont utiles aux data scientists pour la fourniture de big data et d' algorithmes d' IA . Les principaux fournisseurs de flux de données sont des entreprises de technologie de données .

Définition formelle

De manière formelle, un flux de données est une paire ordonnée où :

  1. est une suite de tuples et
  2. est une séquence d' intervalles positifs en temps réel .

Contenu

Data Stream contient différents ensembles de données, qui dépendent du format de données choisi.

  • Attributs – chaque attribut du flux de données représente un certain type de données, par exemple l'ID de segment/point de données, l'horodatage, les géodonnées.
  • L' attribut d' horodatage permet d'identifier le moment où un événement s'est produit.
  • L'ID du sujet est un ID codé par algorithme, qui a été extrait d'un cookie.
  • Les données brutes incluent des informations provenant directement du fournisseur de données sans être traitées par un algorithme ni par un humain.
  • Les données traitées sont des données qui ont été préparées (d'une manière ou d'une autre modifiées, validées ou nettoyées), pour être utilisées pour des actions futures.

Usage

Il existe différents domaines dans lesquels les flux de données sont utilisés :

  • Détection de fraude & scoring – les données brutes sont utilisées comme données source pour un algorithme anti-fraude ( techniques d'analyse de données pour la détection de fraude ). Par exemple, l'horodatage ou le nombre d'occurrences de cookies ou l'analyse de points de données sont utilisés dans le système de notation pour détecter la fraude ou pour s'assurer qu'un destinataire de message n'est pas un bot (trafic non humain).
  • Intelligence artificielle - les données brutes sont traitées comme une rame et un ensemble de test lors de laconstruction d'algorithmes d'IA et d' apprentissage automatique .
  • Les données brutes sont utilisées pour le profilage et la personnalisation afin de personnaliser les profils d'utilisateurs et de les diviser pour la segmentation, par exemple, par sexe ou par emplacement (en fonction du point de données ).
  • Business intelligence - les données brutes sont une source d'informations pour les systèmes de BI, utilisées pour enrichir les profils des utilisateurs avec des informations détaillées les concernant, par exemple, le chemin d'achat ou les géodonnées. Ces informations sont utilisées pour l'analyse commerciale et la recherche prédictive.
  • Ciblage – les données traitées par les data scientists améliorent les campagnes en ligne et sont utilisées pour atteindre le public cible.
  • Enrichissement CRM – les données brutes sont intégrées au système de gestion de la relation client . L'intégration CRM permet de combler les lacunes dans les profils des utilisateurs avec des données démographiques, des intérêts ou des intentions d'achat.

L'intégration

Les intégrations principales avec les flux de données sont :

  • Les flux de données sont intégrés à des systèmes tels que la plateforme de données client (CDP), la gestion de la relation client (CRM) ou la plateforme de gestion de données (DMP) pour enrichir les profils des utilisateurs avec des données externes. Il est possible d'élargir les connaissances sur les utilisateurs existants en utilisant des sources externes.
  • Les flux de données sont utilisés pour enrichir les systèmes de business intelligence et rendre l'analyse plus précise et les conclusions plus précises.
  • Dans le cas de l' intégration d'un système de gestion de contenu (CMS), Data Stream permet d'identifier les utilisateurs et de personnaliser leur visite, même s'il s'agit de la première. Par l'analyse des données, le contenu réel du site Web est adapté à l'utilisateur.
  • Les flux de données sont intégrés à la plate-forme côté demande (DSP) au sein de l'écosystème publicitaire programmatique. Les parties (par exemple, les annonceurs) peuvent échanger les identifiants des utilisateurs et concaténer avec eux les profils existants.
  • Les flux de données sont utilisés pour choisir les segments d'utilisateurs respectifs (par exemple, les personnes intéressées par l'industrie automobile) et les utiliser dans une campagne en ligne. Les segments sont enrichis avec plus de caractéristiques d'utilisateur hors du flux de données, puis envoyés au DSP.

Sources de données visibles

Dans un flux de données, il est visible quel appareil a été utilisé par le côté utilisateur - il est visible sur l'agent utilisateur :

  • mobile - lorsqu'un utilisateur utilise un navigateur mobile pour explorer, il a respectivement une résolution d'écran étroite et une version d'application mobile ;
  • desktop - lorsqu'un utilisateur utilise un navigateur de bureau ou une version d'application.

Les informations suivantes sont partagées sur l'appareil utilisé :

Formats

Un point de données est une balise qui collecte des informations sur une certaine action, effectuée par un utilisateur sur un site Web. Les points de données existent en deux types, dont les valeurs sont utilisées pour créer des audiences appropriées. Ce sont:

  • « événement » avec des informations sur les occurrences de l'événement spécifique (par exemple, cliquez sur un lien ou affichez une annonce)
  • 'attribut' avec des valeurs numériques ou alphanumériques.

Le segment est une déclaration logique, construite sur des points de données spécifiques à l'aide d'opérateurs AND, OR ou NOT.
Données hybridesdonnées brutes à partir des formats de données de point de données et de segment.
URL – est un ensemble d'informations sur une URL particulière qui a été visitée.

RGPD

Les informations recueillies sur les sites Web sont basées sur le comportement des utilisateurs. Les fournisseurs de données fournissent à la fois des informations personnelles ou non personnelles. Il existe deux types de données utilisateur disponibles dans le flux de données :

  • Informations personnellement identifiables (PII) - informations qui permettent clairement ou en combinant avec des méthodes d'identification de données d'identifier une personne. Des exemples de PII sont : l'ID d'assurance, l'adresse e-mail, le numéro de téléphone, l'adresse IP , la géolocalisation, les données biométriques .
  • Les informations non personnellement identifiables (non-PII) sont des informations qui ne peuvent pas être utilisées pour identifier une personne ou pour suivre un emplacement. Un cookie ou un identifiant d'appareil est un exemple de non-PII.

Les références