This content is also available in: en

Au cours des 30 dernières années, l’informatique scientifique a progressivement évolué vers un environnement plus distribué. Cela est dû à la disponibilité de composants rentables « Commercial of the Shelf » (COTS) et à la diminution des coûts des réseaux locaux.
Dans la première moitié des années 90, l’émergence des clusters pour les applications HTC (High Throughput Computing) s’est affirmée et les « fermes » d’ordinateurs avec des processeurs à plusieurs noyaux, interconnectés par des réseaux à faible latence, sont devenus la norme. Cela s’est finalement tellement étendu au domaine du calcul haute performance (HPC) qu’environ 80% des machines Top500 construites au cours des 5 dernières années sont basées sur une architecture de cluster [1].

De plus, la forte diminution des coûts des réseaux à haut débit a favorisé au cours des dernières années la diffusion et l’adoption du paradigme Grid Computing et l’écosystème d’informatique distribuée est devenu encore plus complexe avec l’émergence récente du Cloud Computing.

Au début du XXIe siècle, tous ces développements ont conduit au nouveau concept de l’e-Infrastructure, défini comme: “un environnement où les ressources de recherche (matériel, logiciels et contenu) peuvent être facilement partagées et accessibles là où cela est nécessaire pour promouvoir une Recherche meilleure et plus efficace ; un tel environnement intègre des composants hard, soft et middleware, des réseaux, des référentiels de données, et toutes sortes de supports permettant à des collaborations de recherche virtuelles de s’épanouir à l’échelle mondiale ” [2].

En effet, des e-Infrastructures ont été construites sur plusieurs années en Europe et dans le reste du monde pour soutenir diverses communautés virtuelles de recherche multi-et interdisciplinaires (VRCs) [3]. Une vision partagée prévoit qu’en 2020 es e-Infrastructures permettront aux scientifiques du monde entier de faire des recherches meilleures (et plus rapides), quel que soit leur emplacement et le (s) paradigme (s) adopté (s) pour les construire.

Les composants de l’E-Infrastructure peuvent constituer des plates-formes clés pour soutenir la méthode scientifique [4], la « voie de la connaissance » est suivie à bien des égards par les scientifiques depuis Galileo Galilei (voir figure ci-dessous).

En référence à la figure ci-dessus, les infrastructures de calcul et de stockage distribuées (ressources HPC / HTC locales, Grids, Clouds, conservation de données à long terme) sont idéales tant pour la création de nouveaux ensembles de données que pour l’analyse des données existantes alors que les Infrastrutures Data (comprenant espace documentaire Open Access - OADRs - et Data Repositories - DR) sont essentielles pour évaluer les données existantes et les annoter avec les résultats des analyses des nouvelles données produites par des expériences et/ou des simulations. Enfin, l’enrichissement des données est la clé de la corrélation entre les documents et les données, permettant aux scientifiques de découvrir de nouvelles connaissances de manière simple et de s’engager sur un discours plus solide.

L’une des pierres angulaires de la méthode scientifique, qui est un moteur clé dans le chemin du savoir, est la reproductibilité scientifique. Au cours de ces dernières années, la question de la reproductibilité des résultats scientifiques a suscité de plus en plus d’attention dans le monde entier, tant à l’intérieur qu’à l’extérieur des communautés savantes, et à laquelle une récente édition spéciale de la revue Nature [5] se présente comme un testament. Comme exemples frappants, Begley et Ellis [6] n’ont pas pu reproduire les résultats de 47 sur 53 publications « de référence » dans la recherche sur le cancer et Casadevall et al. [7] ont identifié plus de 2000 articles répertoriés dans Pubmed [8] retirés depuis que le premier article identifié a été retiré en 1977.

Le problème va bien au-delà du problème du cancer. En mars 2012, un comité de l’Académie Nationale des Sciences des États-Unis a entendu un témoignage selon lequel le nombre d’articles scientifiques retirés a plus que décuplé au cours de la dernière décennie, alors que le nombre d’articles publiés n’a augmenté que de 44% au cours de la même période [9]. ]. Au rythme actuel, d’ici 2045, il y aura autant de documents publiés que retirés.

À la lumière de ces résultats, des chercheurs et autres savants ont récemment proposé et mené des initiatives pour aider la communauté scientifique à aborder la question de la reproductibilité. Les plus appropriés sont rassemblés sous l’égide de l’Initiative de Reproductibilité [10] conjointement lancée par les laboratoires de Science Exchange [11] et le journal open access PLoS ONE [12]. Les scientifiques peuvent soumettre à Science Exchange des études qu’ils aimeraient voir reproduites. Un comité consultatif scientifique indépendant sélectionne des études et les fournisseurs de services sont ensuite sélectionnés au hasard pour effectuer les expériences. Les résultats sont retournés aux chercheurs initiaux, qui peuvent ensuite les publier dans un numéro spécial de la revue PLoS ONE et seront gratifiés d’un «certificat de reproductibilité» pour les études qui seront reproduites avec succès.

Bien que l’initiative de Science Exchange soit louable, elle est cependant limitée au domaine de la santé, les auteurs doivent payer pour que leurs résultats soient reproduits et le choix des études à reproduire est entièrement décidé par le conseil consultatif.

En outre, certaines considérations très importantes sont à prendre en compte.

    1. Comme l’a souligné C. Drummond [13], la reproductibilité et la réplicabilité sont des concepts différents et « la réplicabilité n’est pas la reproductibilité ».
    2. Les «re-» de la méthode scientifique vont au-delà de la ré-plicabilité et de la ré-productibilité et comprennent en effet à la fois la ré-pétabilité et la ré-utilisation.
    3. Au cours des deux ou trois dernières décennies, la science est devenue de plus en plus intensive dans les calculs et les simulations informatiques réconcilient en fait les approches inductive et déductive de la méthode scientifique. En particulier:
  • “Un article sur la science computationnelle dans une publication scientifique n’est pas la science elle-même, c’est simplement la publicité sur la science. La science réelle est l’environnement complet de développement logiciel, [les données complètes] et l’ensemble complet d’instructions qui a généré les chiffres” [14].
  • “La communication scientifique repose sur des preuves qui ne peuvent pas être entièrement incluses dans les publications, mais l’essor de la science computationnelle a ajouté une nouvelle couche d’inaccessibilité. Bien qu’il soit maintenant admis que les données doivent être mises à disposition sur demande, la régulation actuelle concernant la disponibilité des logiciels est incohérentes. Nous soutenons que, à quelques exceptions près, rien de moins que la libération des programmes source est intolérable pour les résultats qui dépendent du calcul. Les caprices du matériel, des logiciels et du langage naturel rendront toujours la reproductibilité exacte incertaine, mais le fait de garder confidentiel les codes augmente les chances d’échec de la reproduction” [15].
  • “La publication et l’échange ouvert de connaissances et de matériels constituent l’épine dorsale du progrès scientifique et de la reproductibilité et sont obligatoires pour la recherche financée par le secteur public. Malgré le recours croissant à l’informatique dans tous les domaines de l’activité scientifique, le code des sources informatiques essentiel à la compréhension et à l’évaluation des programmes informatiques reste couramment confidentiel, rendant ces programmes «boîtes noires» dans le flux de recherche” [16].

Pour toutes ces raisons, la réelle reproductibilité scientifique devrait inclure l’accès complet aux documents, ensembles de données, collections de données, algorithmes, configurations, outils et applications, codes, workflows, scripts, bibliothèques, services, logiciels système, infrastructure, compilateurs, etc. Afin d’assurer tout cela par ailleurs et au-delà des e-Science, le nouveau concept de o-Science (Open Science - également appelé Open Knowledge) émerge.

Selon un livre récemment publié [17], Open Science « se réfère à une culture scientifique qui se caractérise par son ouverture. Les scientifiques partagent les résultats presque immédiatement et avec un public très large”.

Cinq écoles de pensée sur l’Open Science ont été identifiées jusqu’à présent [18], caractérisées par leurs hypothèses centrales, les groupes concernés, leurs buts et les outils et méthodes utilisés pour atteindre et promouvoir ces objectifs (voir figure ci-dessous). L’école de l’infrastructure s’intéresse à l’infrastructure technique qui permet des pratiques de recherche émergentes sur Internet, pour la plupart des outils logiciels et des applications, ainsi que des réseaux informatiques. L’école de l’infrastructure considère Open Science comme un défi technologique et se concentre sur les exigences technologiques qui facilitent des pratiques de recherche particulières, telles que Grid et, plus récemment, Cloud Computing.

.

Le consortium du projet Sci-GaIA soutient fortement l’Open Science et se concentre largement sur l’application des directives de l’école des infrastructures.

Le projet a déployé une plate-forme Open Science re-productible et réutilisable à travers l’Europe et l’Afrique dont les composants sont représentés dans les divers secteurs de la figure située sur la droite. Déplacez la souris sur la figure pour les identifier et obtenir plus d’informations


[1] Go to http://top500.org/statistics/overtime/, select Category = Architecture, choose Type = Systems Share, and then click on Submit to generate the graph.

[2] This definition of e-Infrastructure appears in an European Commission web page: http://cordis.europa.eu/ictresults/index.cfm?ID=90825§ion=news&tpl=article

[3] G. Andronico et al, “E-Infrastructures for International Cooperation”, in “Computational and Data Grids: Principles, Applications and Design” (N. Preve Editor), IGI Global 2011, DOI: 10.4018/978-1-61350-113-9; see also www.igi-global.com/book/computational-data-grids/51946.

[4] There are many equivalent definitions and depictions of the Scientific Method, both on the web and on textbooks. In this document we refer to http://home.badc.rl.ac.uk/lawrence/blog/2009/04/16/scientific_method, from which we have re-used the picture included in Figure 1.

[5] www.nature.com/nature/focus/reproducibility/.

[6] C. Glenn Begley and Lee M. Ellis, “Drug development: Raise standards for preclinical cancer research”, Nature 483, 531–533 (29 March 2012), doi:10.1038/483531a.

[7] Ferric C. Fanga, R. Grant Steenc and Arturo Casadevall, “Misconduct accounts for the majority of retracted scientific publications”, Proceedings of the National Academy of Sciences of the United States of America, vol. 109, no. 42, p. 17028–17033, doi: 10.1073/pnas.1212247109.

[8] www.pubmed.org.

[9] www.reuters.com/article/2012/03/28/us-science-cancer-idUSBRE82R12P20120328.

[10] http://validation.scienceexchange.com.

[11] https://www.scienceexchange.com.

[12] www.plosone.org.

[13] C. Drummond, “Replicability is not reproducibility: nor is it good science”, Proc. Eval. Methods Mach. Learn. Workshop 26th ICML (2009), Montreal, Quebec, Canada. http://goo.gl/7f8WX9.

[14] Jonhatan B, Buckheit and David L. Donoho, “WaveLab and Reproducible Research”, Lecture Notes in Statistics Volume 103, 1995, pp 55-81.

[15] Darrel C. Ince, Leslie Hatton and John Graham-Cumming, “The case for open computer programs”, Nature 482, p. 485–488 (23 February 2012), doi:10.1038/nature10836.

[16] A. Morin et al, “Shining Light into Black Boxes”, Science (13 April 2012) Vol. 336 no. 6078 pp. 159-160, DOI: 10.1126/science.1218263.

[17] “Opening Science – The Book”. DOI: 10.1007/978-3-319-00026-8.http://book.openingscience.org.

[18] Fecher, B., Friesike., S.: “Open Science: One Term, Five Schools of Thought”. A chapter of: “Opening Science – The Book”. DOI: 10.1007/978-3-319-00026-8.


Back