estimateur de Kaplan-Meier - Kaplan–Meier estimator

Un exemple d'un graphique de Kaplan-Meier pour deux conditions associées à la survie des patients.

L' estimateur de Kaplan-Meier , également connu sous le nom d' estimateur de limite de produit , est une statistique non paramétrique utilisée pour estimer la fonction de survie à partir de données de durée de vie. Dans la recherche médicale, il est souvent utilisé pour mesurer la fraction de patients vivant pendant un certain temps après le traitement. Dans d'autres domaines, les estimateurs de Kaplan-Meier peuvent être utilisés pour mesurer la durée pendant laquelle les gens restent au chômage après une perte d'emploi, le temps de panne des pièces de la machine ou la durée pendant laquelle les fruits charnus restent sur les plantes avant d'être enlevés par les frugivores . L' estimateur porte le nom d' Edward L. Kaplan et de Paul Meier , qui ont chacun soumis des manuscrits similaires au Journal of the American Statistical Association . Le rédacteur en chef du journal, John Tukey , les a convaincus de combiner leurs travaux en un seul article, qui a été cité près de 61 000 fois depuis sa publication en 1958.

L' estimateur de la fonction de survie (la probabilité que la vie soit plus longue que ) est donné par :

avec un moment où au moins un événement s'est produit, d i le nombre d'événements (par exemple, des décès) qui se sont produits à un moment , et les individus connus pour avoir survécu (n'ont pas encore eu d'événement ou n'ont pas été censurés) jusqu'à un moment .

Concepts de base

Un graphique de l'estimateur de Kaplan-Meier est une série d'étapes horizontales décroissantes qui, avec une taille d'échantillon suffisamment grande, se rapproche de la véritable fonction de survie pour cette population. La valeur de la fonction de survie entre des observations échantillonnées distinctes successives ("clics") est supposée constante.

Un avantage important de la courbe de Kaplan-Meier est que la méthode peut prendre en compte certains types de données censurées , en particulier la censure à droite , qui se produit si un patient se retire d'une étude, est perdu de vue ou est en vie sans événement survenue au dernier recul. Sur le graphique, de petites graduations verticales indiquent les patients individuels dont les temps de survie ont été censurés à droite. En l'absence de troncature ou de censure, la courbe de Kaplan-Meier est le complément de la fonction de distribution empirique .

Dans les statistiques médicales , une application typique peut consister à regrouper les patients en catégories, par exemple, ceux avec le profil du gène A et ceux avec le profil du gène B. Dans le graphique, les patients avec le gène B meurent beaucoup plus rapidement que ceux avec le gène A. Après deux ans, environ 80% des patients avec le gène A survivent, mais moins de la moitié des patients avec le gène B.

Pour générer un estimateur de Kaplan-Meier, au moins deux données sont nécessaires pour chaque patient (ou chaque sujet) : l'état à la dernière observation (occurrence de l'événement ou censuré à droite) et le temps jusqu'à l'événement (ou temps jusqu'à la censure) . Si les fonctions de survie entre deux ou plusieurs groupes doivent être comparées, alors une troisième donnée est requise : l'affectation de groupe de chaque sujet.

Définition du problème

Soit une variable aléatoire, que nous considérons comme le temps jusqu'à ce qu'un événement d'intérêt se produise. Comme indiqué ci-dessus, l'objectif est d'estimer la fonction de survie sous-jacente . Rappelons que cette fonction est définie comme

, où est le temps.

Soit des variables aléatoires indépendantes, identiquement distribuées, dont la distribution commune est celle de : est le moment aléatoire où un événement s'est produit. Les données disponibles pour l'estimation ne sont pas , mais la liste des paires où pour , est un entier fixe et déterministe, le temps de censure de l'événement et . En particulier, les informations disponibles sur le moment de l'événement sont de savoir si l'événement s'est produit avant l'heure fixée et, dans l'affirmative, l'heure réelle de l'événement est également disponible. Le défi est d'estimer compte tenu de ces données.

Dérivation de l'estimateur de Kaplan-Meier

Ici, nous montrons deux dérivations de l'estimateur de Kaplan-Meier. Les deux sont basés sur la réécriture de la fonction de survie en termes de ce que l'on appelle parfois les taux de risque ou de mortalité . Cependant, avant de faire cela, il vaut la peine de considérer un estimateur naïf.

Un estimateur naïf

Pour comprendre la puissance de l'estimateur de Kaplan-Meier, il convient de décrire d'abord un estimateur naïf de la fonction de survie.

Réparez et laissez . Un argument de base montre que la proposition suivante est vraie :

Proposition 1 : Si le temps de censure de l'événement dépasse ( ), alors si et seulement si .

Soit tel que . Il résulte de la proposition ci-dessus que

Ne considérons que ceux , c'est - à - dire les événements dont le résultat n'a pas été censuré avant l' heure . Soit le nombre d'éléments dans . Notez que l'ensemble n'est pas aléatoire et donc ni l'un ni l'autre . De plus, est une séquence de variables aléatoires de Bernoulli indépendantes, distribuées de manière identique, avec un paramètre commun . En supposant que , cela suggère d'estimer en utilisant

où la deuxième égalité suit car implique , tandis que la dernière égalité est simplement un changement de notation.

La qualité de cette estimation est régie par la taille de . Cela peut être problématique quand est petit, ce qui arrive, par définition, quand beaucoup d'événements sont censurés. Une propriété particulièrement désagréable de cet estimateur, qui suggère qu'il n'est peut-être pas le « meilleur » estimateur, est qu'il ignore toutes les observations dont le temps de censure précède . Intuitivement, ces observations contiennent toujours des informations sur : Par exemple, lorsque pour de nombreux événements avec , est également vrai, nous pouvons en déduire que les événements se produisent souvent tôt, ce qui implique qu'il est grand, ce qui, par des moyens qui doit être petit. Cependant, cette information est ignorée par cet estimateur naïf. La question est alors de savoir s'il existe un estimateur qui fait un meilleur usage de toutes les données. C'est ce que l'estimateur de Kaplan-Meier accomplit. Notez que l'estimateur naïf ne peut pas être amélioré lorsque la censure n'a pas lieu ; donc si une amélioration est possible dépend de manière critique si la censure est en place.

L'approche plug-in

Par des calculs élémentaires,

où l'avant-dernière égalité utilisée est de valeur entière et pour la dernière ligne que nous avons introduite

Par un développement récursif de l'égalité , on obtient

Notez qu'ici .

L'estimateur de Kaplan-Meier peut être considéré comme un « estimateur plug-in » où chacun est estimé sur la base des données et l'estimateur de est obtenu comme un produit de ces estimations.

Il reste à préciser comment doit être estimé. D'après la proposition 1, pour tout tel que , et les deux sont vérifiés. Par conséquent, pour tout tel que ,

Par un raisonnement similaire qui a conduit à la construction de l'estimateur naïf ci-dessus, nous arrivons à l'estimateur

(pensez à estimer le numérateur et le dénominateur séparément dans la définition du "taux de risque" ). L'estimateur de Kaplan-Meier est alors donné par

La forme de l'estimateur indiquée au début de l'article peut être obtenue par une autre algèbre. Pour cela, écrivez où, en utilisant la terminologie de la science actuarielle, est le nombre de décès connus au moment , tandis que est le nombre de ces personnes qui sont en vie à ce moment .

Notez que si , . Cela implique que nous pouvons omettre du produit définissant tous ces termes où . Ensuite, en admettant les instants où , et , on arrive à la forme de l'estimateur de Kaplan-Meier donné au début de l'article :

Contrairement à l'estimateur naïf, on peut voir que cet estimateur utilise plus efficacement les informations disponibles : compte tenu du fait que la probabilité de survie ne peut pas être grande.

Dérivation comme estimateur du maximum de vraisemblance

L'estimateur de Kaplan-Meier peut être dérivé de l' estimation du maximum de vraisemblance de la fonction de risque . Plus précisément donné comme le nombre d'événements et le nombre total d'individus à risque à un moment donné  , le taux de risque discret peut être défini comme la probabilité qu'un individu subisse un événement à un moment donné  . Le taux de survie peut alors être défini comme :

et la fonction de vraisemblance pour la fonction de risque jusqu'au temps est :

donc le log de vraisemblance sera :

trouver le maximum de log vraisemblance par rapport aux rendements :

où hat est utilisé pour désigner l'estimation du maximum de vraisemblance. Étant donné ce résultat, on peut écrire :

Avantages et limites

L'estimateur de Kaplan-Meier est l'une des méthodes d'analyse de survie les plus fréquemment utilisées. L'estimation peut être utile pour examiner les taux de guérison, la probabilité de décès et l'efficacité du traitement. Il est limité dans sa capacité à estimer la survie ajustée pour les covariables ; les modèles paramétriques de survie et le modèle à risques proportionnels de Cox peuvent être utiles pour estimer la survie corrigée des covariables.

Considérations statistiques

L'estimateur de Kaplan-Meier est une statistique , et plusieurs estimateurs sont utilisés pour approximer sa variance . L'un des estimateurs les plus courants est la formule de Greenwood :

où est le nombre d'observations et est le nombre total d'observations, pour .

Pour un « esquisse » de la dérivation mathématique de l'équation ci-dessus, cliquez sur « afficher » pour révéler

La formule de Greenwood est dérivée en notant que la probabilité d'obtenir des défaillances des cas suit une distribution binomiale avec une probabilité de défaillance . En conséquence, pour le taux de risque maximum de vraisemblance, nous avons et . Pour éviter de traiter avec des probabilités multiplicatives, nous calculons la variance du logarithme de et utiliserons la méthode delta pour la reconvertir à la variance d'origine :

en utilisant le théorème central limite de la martingale , on peut montrer que la variance de la somme dans l'équation suivante est égale à la somme des variances :

en conséquence on peut écrire :

en utilisant à nouveau la méthode delta :

comme voulu.


Dans certains cas, on peut souhaiter comparer différentes courbes de Kaplan-Meier. Cela peut être fait par le test du log rank et le test des risques proportionnels de Cox .

D'autres statistiques qui peuvent être utiles avec cet estimateur sont la bande de Hall-Wellner et la bande d'égale précision.

Logiciel

  • Mathematica : la fonction intégrée SurvivalModelFitcrée des modèles de survie.
  • SAS : L'estimateur de Kaplan–Meier est implémenté dans la proc lifetestprocédure.
  • R : l'estimateur de Kaplan-Meier est disponible dans le survivalpackage.
  • Stata : la commande stsretourne l'estimateur de Kaplan-Meier.
  • Python : le lifelinespackage inclut l'estimateur de Kaplan-Meier.
  • MATLAB : la ecdffonction avec les 'function','survivor'arguments peut calculer ou tracer l'estimateur de Kaplan-Meier.
  • StatsDirect : L'estimateur de Kaplan-Meier est implémenté dans le Survival Analysismenu.
  • SPSS : L'estimateur de Kaplan-Meier est implémenté dans le Analyze > Survival > Kaplan-Meier...menu.
  • Julia : le Survival.jlpackage comprend l'estimateur de Kaplan-Meier.

Voir également

Les références

Lectures complémentaires

Liens externes