h -index - h-index

L' indice h est une métrique au niveau de l'auteur qui mesure à la fois la productivité et l' impact des citations des publications , initialement utilisé pour un scientifique ou un universitaire. L' indice h est en corrélation avec des indicateurs de succès évidents tels que l'obtention du prix Nobel , l'acceptation de bourses de recherche et l'occupation de postes dans les meilleures universités. L'index est basé sur l'ensemble des articles les plus cités des scientifiques et le nombre de citations qu'ils ont reçues dans d'autres publications. Plus récemment, l'indice a été appliqué à la productivité et à l'impact d'une revue savante ainsi que d'un groupe de scientifiques, comme un département, une université ou un pays. L'indice a été suggéré en 2005 par Jorge E. Hirsch , physicien à l' UC San Diego , comme outil pour déterminer la qualité relative des physiciens théoriciens et est parfois appelé indice de Hirsch ou nombre de Hirsch .

Définition et objectif

h -index à partir d'un graphique du nombre de citations pour les articles numérotés d'un auteur (classés par ordre décroissant)

L' indice h est défini comme la valeur maximale de h telle que l'auteur/le journal donné a publié au moins h articles qui ont chacun été cités au moins h fois. L'index est conçu pour améliorer des mesures plus simples telles que le nombre total de citations ou de publications. L'index fonctionne mieux lorsque l'on compare des universitaires travaillant dans le même domaine, car les conventions de citation diffèrent considérablement d'un domaine à l'autre.

Calcul

Le h-index est le plus grand nombre h tel que h articles ont au moins h citations chacun. Par exemple, si un auteur a cinq publications, avec 9, 7, 6, 2 et 1 citations (classées du plus grand au moins), alors l' indice h de l' auteur est 3, car l'auteur a trois publications avec 3 citations ou plus . Cependant, l'auteur n'a pas quatre publications avec 4 citations ou plus.

De toute évidence, l' indice h d' un auteur ne peut être qu'aussi grand que son nombre de publications. Par exemple, un auteur avec une seule publication peut avoir un h -index maximum de 1 (si sa publication a 1 ou plusieurs citations). D'un autre côté, un auteur avec de nombreuses publications, chacune avec une seule citation, aurait un h -index de 1.

Formellement, si f est la fonction qui correspond au nombre de citations pour chaque publication, nous calculons l' indice h comme suit : Premièrement, nous ordonnons les valeurs de f de la plus grande à la plus faible. Ensuite, on cherche la dernière position dans laquelle f est supérieur ou égal à la position (on appelle h cette position). Par exemple, si nous avons un chercheur avec 5 publications A, B, C, D et E avec 10, 8, 5, 4 et 3 citations, respectivement, l' indice h est égal à 4 car la 4ème publication a 4 citations et le 5e n'en a que 3. En revanche, si les mêmes publications ont 25, 8, 5, 3 et 3 citations, alors l'indice est de 3 (c'est-à-dire la 3e position) car le quatrième article n'a que 3 citations.

f (A)=10, f (B)=8, f (C)=5, f (D)=4, f (E)=3 → h -index=4
f (A)=25, f (B)=8, f (C)=5, f (D)=3, f (E)=3 → h -index=3

Si nous avons la fonction f ordonnée par ordre décroissant de la plus grande valeur à la plus faible, nous pouvons calculer le h -index comme suit :

h -index ( f ) =

L'indice de Hirsch est analogue au nombre d'Eddington , une mesure antérieure utilisée pour évaluer les cyclistes. L' indice h sert d'alternative aux métriques plus traditionnelles des facteurs d'impact des revues dans l'évaluation de l'impact du travail d'un chercheur particulier. Étant donné que seuls les articles les plus cités contribuent à l' indice h , sa détermination est un processus plus simple. Hirsch a démontré que h a une valeur prédictive élevée pour savoir si un scientifique a remporté des honneurs comme l' adhésion à l' Académie nationale ou le prix Nobel . L' indice h augmente au fur et à mesure que les citations s'accumulent et dépend donc de « l'âge universitaire » d'un chercheur.

Des données d'entrée

Le h -index peut être déterminé manuellement en utilisant des bases de données de citations ou en utilisant des outils automatiques. Les bases de données par abonnement telles que Scopus et Web of Science fournissent des calculatrices automatisées. Depuis juillet 2011, Google a fourni un indice h et un indice i 10 calculés automatiquement dans son propre profil Google Scholar . De plus, des bases de données spécifiques, telles que la base de données INSPIRE-HEP, permettent de calculer automatiquement l' h- index pour les chercheurs travaillant en physique des hautes énergies .

Chaque base de données est susceptible de produire un h différent pour le même chercheur, en raison d'une couverture différente. Une étude détaillée a montré que le Web of Science a une forte couverture des publications de revues, mais une faible couverture des conférences à fort impact. Scopus a une meilleure couverture des conférences, mais une faible couverture des publications avant 1996 ; Google Scholar a la meilleure couverture des conférences et de la plupart des revues (mais pas toutes), mais comme Scopus a une couverture limitée des publications antérieures à 1990. L'exclusion des articles d'actes de conférence est un problème particulier pour les chercheurs en informatique , où les actes de conférence sont considérés comme une partie importante de la littérature. Google Scholar a été critiqué pour avoir produit des « citations fantômes », y compris de la littérature grise dans son nombre de citations, et pour ne pas avoir respecté les règles de la logique booléenne lors de la combinaison de termes de recherche. Par exemple, l'étude Meho et Yang a révélé que Google Scholar avait identifié 53 % de citations de plus que Web of Science et Scopus combinés, mais a noté que, comme la plupart des citations supplémentaires signalées par Google Scholar provenaient de revues à faible impact ou d'actes de conférence, elles n'altère pas significativement le classement relatif des individus. Il a été suggéré que pour faire face à la variation parfois importante de h pour un seul universitaire mesurée dans les bases de données de citations possibles, il faudrait supposer que les faux négatifs dans les bases de données sont plus problématiques que les faux positifs et prendre le h maximum mesuré pour un universitaire. .

Exemples

Peu d'enquêtes systématiques ont été menées sur le comportement de l'indice h dans différentes institutions, nations, époques et domaines universitaires. Hirsch a suggéré que, pour les physiciens, une valeur pour h d'environ 12 pourrait être typique pour l'avancement à la titularisation (professeur associé) dans les grandes universités de recherche [américaines]. Une valeur d'environ 18 pourrait signifier un poste de professeur titulaire, 15-20 pourrait signifier une bourse de l' American Physical Society , et 45 ou plus pourrait signifier une adhésion à l' Académie nationale des sciences des États-Unis . Hirsch a estimé qu'après 20 ans, un "scientifique à succès" aurait un indice h de 20, un "scientifique exceptionnel" aurait un indice h de 40 et un individu "vraiment unique" aurait un indice h de 60.

Pour les scientifiques les plus cités sur la période 1983-2002, Hirsch a identifié le top 10 des sciences de la vie (par ordre décroissant h ) : Solomon H. Snyder , h = 191 ; David Baltimore , h = 160; Robert C. Gallo , h = 154; Pierre Chambon , h = 153 ; Bert Vogelstein , h = 151; Salvador Moncada , h = 143 ; Charles A. Dinarello , h = 138 ; Tadamitsu Kishimoto , h = 134; Ronald M. Evans , h = 127; et Ralph L. Brinster , h = 126. Parmi les 36 nouveaux membres de la National Academy of Sciences en sciences biologiques et biomédicales en 2005, l' indice h médian était de 57. Cependant, Hirsch a noté que les valeurs de h varieront selon les domaines disparates.

Parmi les 22 disciplines scientifiques répertoriées dans les seuils de citation des indicateurs scientifiques essentiels [excluant ainsi les universitaires non scientifiques ], la physique vient en deuxième place après les sciences spatiales. Entre le 1er janvier 2000 et le 28 février 2010, un physicien a dû recevoir 2073 citations pour figurer parmi les 1 % de physiciens les plus cités au monde. Le seuil pour les sciences spatiales est le plus élevé (2236 citations), et la physique est suivie par la médecine clinique (1390) et la biologie moléculaire et la génétique (1229). La plupart des disciplines, telles que l'environnement/l'écologie (390), ont moins de scientifiques, moins d'articles et moins de citations. Par conséquent, ces disciplines ont des seuils de citation plus bas dans les indicateurs scientifiques essentiels, les seuils de citation les plus bas étant observés dans les sciences sociales (154), l'informatique (149) et les sciences multidisciplinaires (147).

Les chiffres sont très différents dans les disciplines des sciences sociales : l'équipe Impact of Social Sciences de la London School of Economics a découvert que les spécialistes des sciences sociales au Royaume-Uni avaient des indices h moyens inférieurs . Les indices h pour les professeurs (« complets »), basés sur les données de Google Scholar , allaient de 2,8 (en droit) à 3,4 (en sciences politiques), 3,7 (en sociologie), 6,5 (en géographie) et 7,6 (en économie) . En moyenne dans toutes les disciplines, un professeur de sciences sociales avait un indice h environ le double de celui d'un maître de conférences ou d'un maître de conférences, bien que la différence soit la plus petite en géographie.

Avantages

Hirsch a voulu que l' indice h réponde aux principaux inconvénients des autres indicateurs bibliométriques. La métrique du nombre total d'articles ne tient pas compte de la qualité des publications scientifiques. La métrique du nombre total de citations, en revanche, peut être fortement affectée par la participation à une seule publication d'influence majeure (par exemple, des articles méthodologiques proposant de nouvelles techniques, méthodes ou approximations réussies, qui peuvent générer un grand nombre de citations). L' indice h est destiné à mesurer simultanément la qualité et la quantité de la production scientifique.

Critique

Il existe un certain nombre de situations dans lesquelles h peut fournir des informations trompeuses sur la production d'un scientifique. Certains de ces échecs ne sont pas exclusifs au h- index, mais plutôt partagés avec d'autres métriques au niveau de l'auteur .

Fausse représentation des données

Le h -index ne tient pas compte du nombre typique de citations dans différents domaines. Le comportement de citation en général est affecté par des facteurs dépendant du domaine, ce qui peut invalider les comparaisons non seulement entre les disciplines, mais même au sein de différents domaines de recherche d'une discipline. L' index h rejette les informations contenues dans le placement de l'auteur dans la liste des auteurs, ce qui dans certains domaines scientifiques est important mais pas dans d'autres. Le h -index est un nombre naturel qui réduit son pouvoir discriminant. Ruane et Tol proposent donc un h -index rationnel qui interpole entre h et h +1.

Sujet à la manipulation

Les faiblesses concernent le calcul purement quantitatif de la production scientifique ou académique. Comme d'autres mesures qui comptent les citations, le h- index peut être manipulé par une citation coercitive , une pratique dans laquelle un rédacteur en chef d'une revue oblige les auteurs à ajouter de fausses citations à leurs propres articles avant que la revue n'accepte de le publier. Le h- index peut être manipulé par le biais d'auto-citations, et s'il est basé sur la sortie de Google Scholar , alors même les documents générés par ordinateur peuvent être utilisés à cette fin, par exemple en utilisant SCIgen .

Autres lacunes

L' indice h s'est avéré dans une étude avoir une exactitude et une précision prédictives légèrement inférieures à la mesure plus simple des citations moyennes par article. Cependant, cette conclusion a été contredite par une autre étude de Hirsch. L' indice h ne fournit pas une mesure significativement plus précise de l'impact que le nombre total de citations pour un chercheur donné. En particulier, en modélisant la distribution des citations parmi les articles comme une partition entière aléatoire et l' indice h comme le carré de Durfee de la partition, Yong est arrivé à la formule , où N est le nombre total de citations, qui, pour les membres mathématiques de l'Académie nationale des sciences, s'avère fournir une approximation précise (avec des erreurs généralement comprises entre 10 et 20 %) de l' indice h dans la plupart des cas.

Alternatives et modifications

Diverses propositions pour modifier le h- index afin de souligner différentes caractéristiques ont été faites. Au fur et à mesure que les variantes se sont multipliées, des études comparatives sont devenues possibles montrant que la plupart des propositions sont fortement corrélées avec l' indice h d' origine et donc largement redondants, bien que des indices alternatifs puissent être importants pour décider entre des CV comparables, comme c'est souvent le cas dans les processus d'évaluation.

  • Un h -index individuel normalisé par le nombre d'auteurs a été proposé : , avec étant le nombre d'auteurs considérés dans les articles. Il a été constaté que la distribution de l' h -index, bien qu'elle dépende du champ, peut être normalisée par un simple facteur de rééchelonnement. Par exemple, en supposant comme standard le h s pour la biologie, la distribution de h pour les mathématiques s'effondre avec elle si ce h est multiplié par trois, c'est-à-dire qu'un mathématicien avec h  = 3 équivaut à un biologiste avec h  = 9. Cette méthode n'a pas été facilement adopté, peut-être en raison de sa complexité. Il pourrait être plus simple de diviser le nombre de citations par le nombre d'auteurs avant de commander les articles et d'obtenir le h -index, comme suggéré à l'origine par Hirsch.
  • L' indice m est défini comme h / n , où n est le nombre d'années depuis le premier article publié du scientifique ; aussi appelé m -quotient.
  • Il existe un certain nombre de modèles proposés pour incorporer la contribution relative de chaque auteur à un article, par exemple en prenant en compte le rang dans la séquence des auteurs.
  • Une généralisation de l' indice h et de quelques autres indices qui donnent des informations supplémentaires sur la forme de la fonction de citation de l'auteur (à queue lourde, plate/crête, etc.) a été proposée.
  • Trois métriques supplémentaires ont été proposées : h 2 inférieur, h 2 centre et h 2 supérieur, pour donner une représentation plus précise de la forme de la distribution. Les trois h 2 mesures mesurent la répartition zone relative dans la citation d'un scientifique dans la région à faible impact, h 2 inférieure, la zone capturée par le h -index, h 2 centre, et la zone des publications avec la plus grande visibilité, h 2 supérieure . Les scientifiques avec des pourcentages supérieurs en h 2 élevés sont des perfectionnistes, tandis que les scientifiques avec des pourcentages inférieurs en h 2 élevés sont des producteurs de masse. Comme ces métriques sont des pourcentages, elles sont destinées à donner une description qualitative pour compléter l' indice h quantitatif .
  • L' indice g peut être considéré comme l' indice h pour un nombre moyen de citations.
  • Il a été avancé que « pour un chercheur individuel, une mesure telle que le nombre d' Erds capture les propriétés structurelles du réseau alors que l' indice h capture l'impact des citations des publications. On peut être facilement convaincu que le classement dans les réseaux de coauteurs devrait prendre en compte les deux mesures pour générer un classement réaliste et acceptable." Plusieurs systèmes de classement des auteurs tels que eigenfactor (basé sur la centralité des vecteurs propres ) ont déjà été proposés, par exemple le Phys Author Rank Algorithm.
  • Le c -index rend compte non seulement des citations, mais aussi de la qualité des citations en termes de distance de collaboration entre les auteurs citant et cités. Un scientifique a un c- index n si n de [ses] N citations proviennent d'auteurs qui sont à une distance de collaboration d'au moins n , et les autres ( Nn ) citations sont d'auteurs qui sont à une distance de collaboration d'au plus n .
  • Un indice s , tenant compte de la distribution non entropique des citations, a été proposé et il s'est avéré être en très bonne corrélation avec h .
  • L' e- index, la racine carrée des citations excédentaires pour l'ensemble h au-delà de h 2 , complète l' h- index pour les citations ignorées, et est donc particulièrement utile pour les scientifiques les plus cités et pour comparer ceux qui ont le même h- index (iso - h -groupe index).
  • Étant donné que le h -index n'a jamais été conçu pour mesurer le succès futur des publications, un groupe de chercheurs a récemment étudié les caractéristiques les plus prédictives du futur h -index. Il est possible d'essayer les prédictions à l'aide d'un outil en ligne. Cependant, des travaux ultérieurs ont montré que, puisque l' indice h est une mesure cumulative, il contient une auto-corrélation intrinsèque qui a conduit à une surestimation significative de sa prévisibilité. Ainsi, la véritable prévisibilité du futur indice h est beaucoup plus faible par rapport à ce qui a été revendiqué auparavant.
  • L' indice i 10 indique le nombre de publications universitaires qu'un auteur a écrites et qui ont été citées par au moins dix sources. Il a été introduit en juillet 2011 par Google dans le cadre de leur travail sur Google Scholar .
  • Il a été démontré que l'indice h a un fort biais de discipline. Cependant, une simple normalisation par le h moyen des universitaires dans une discipline d est un moyen efficace d'atténuer ce biais, en obtenant une métrique d'impact universelle qui permet la comparaison des universitaires dans différentes disciplines. Bien entendu, cette méthode ne traite pas les biais liés à l'âge scolaire.
  • L' indice h peut être chronométré pour analyser son évolution au cours de sa carrière, en utilisant différentes fenêtres temporelles.
  • L' o- index correspond à la moyenne géométrique de l' h- index et de l'article le plus cité d'un chercheur.
  • L'indice RA permet d'améliorer la sensibilité de l' indice h sur le nombre d'articles hautement cités et comporte de nombreux articles cités et articles non cités sous le h -core. Cette amélioration peut améliorer la sensibilité de mesure de l' indice h .

Applications

Des indices similaires à l' indice h ont été appliqués en dehors des métriques au niveau de l'auteur.

L' indice h a été appliqué aux médias Internet, tels que les chaînes YouTube . Il est défini comme le nombre de vidéos avec ≥ h × 10 5 vues. Par rapport au nombre total de vues d'un créateur de vidéo, l' index h et l' index g capturent mieux à la fois la productivité et l'impact dans une seule métrique.

Un index successif de type Hirsch pour les institutions a également été conçu. Une institution scientifique a un indice de type Hirsch successif de i lorsqu'au moins i chercheurs de cette institution ont un indice h d'au moins i .

Voir également

Les références

Lectures complémentaires

Liens externes