This content is also available in: en

La base de connaissances e-infrastructures est l’un des plus importants systèmes d’information numérique existants en matière d’e-infrastructures. Elle contient actuellement des informations recueillies à partir d’enquêtes spécifiques et d’autres sources Web et documentaires dans plus de la moitié des pays du monde entier.

Des cartes et des tableaux géographiques permettent de présenter les informations aux visiteurs

Sur la « Vue pays« , par exemple, les utilisateurs peuvent choisir un continent sur la carte et, pour chaque pays où un marqueur est affiché, obtenir les informations sur le réseau régional auquel le pays est connecté, le Réseau National de Recherche et d’Education (NREN), le National Grid Initiative, l’autorité de certification et la fédération d’identité disponibles dans le pays, le Centre d’Opérations Régionales auquel le pays est associé.

Outre les services liés aux réseaux et à l’e-infrastructure, la base de connaissance e-Infrastructure publie des informations sur plus de 4 000 dépôts de documents à accès libre (OADR), espaces Open Data (DR) et Open Educational Resources (OER) dans le monde.

 

Le moteur de Recherche Sémantique

Bien qu’il soit très utile d’avoir un point d’accès central à des milliers de référentiels et de millions de documents ou de jeux de données, avec à la fois des informations géographiques et des tableaux, l’OADR et le DR de la base de connaissance ne sont qu’un démonstrateur ayant un impact limité sur le quotidien des scientifiques. Pour trouver un document ou un ensemble de données, les utilisateurs doivent savoir à l’avance ce qu’ils recherchent, mais il n’existe aucun moyen de corréler les documents et les données, ce qui serait le meilleur moyen de faciliter la recherche. Afin de surmonter ces limitations et de transformer la base de connaissance en un puissant outil de recherche, les métadonnées relatives aux OADR et DR collectées dans la base de connaissance sont enrichies sémantiquement et un moteur de recherche sur les données a été mis à disposition.

L’architecture multicouches du moteur de Recherche Sémantique Sci-GaIA (SSE) est représentée dans la figure ci-dessous où les normes officielles et de facto du Semantic Web standards and technologies  adopté sont décrites par de petits logos.

En partant du bas de la figure, les deux premières composantes du service sont décrites ci-dessous.

L’outil de collecte des métadonnées est un processus capable de fonctionner à la fois sur les infrastructures Grid et Cloud, qui se compose des éléments suivants:

  • Obtenir l’adresse de chaque référentiel publiant un point d’extrémité standard OAI-PMH
  • Récupérer les métadonnées encodéesDublin Core associées au format XML à partir l’aide de l’adresse du référentiel OAI-PMH 
  • Obtenir les enregistrements à partir des fichiers XML et, à l’aide de l’API Apache Jena, transformer les métadonnées au format RDF
  • Sauvegarder les fichiers RDF dans un triple dépôt Virtuoso selon d’une ontologie OWL-compliant montée à l’aide de Protégé.

Chaque fichier RDF récupéré et enregistré dans un triple dépôt Vituoso est mappé sur un graphique Virtuoso qui contient l’ontologie développée pour le moteur de recherche, illustrée dans la figure ci-dessous de manière exhaustive

.

L’ontologie, construite à l’aide des normes Dublin Core et FOAF, consiste en:

  • Des classes qui décrivent les concepts généraux du domaine: Ressource, auteur, Organisme, espace documentaire et jeu de données (où la Ressource est un document en Open access)
  • Propriétés qui décrivent les relations entre les classes d’ontologie ; l’ontologie développée pour le service décrit dans ce document a plusieurs propriétés spécifiques telles que hasAuthor (c’est-à-dire la relation entre la Ressources et l’Auteur) et hasDataSet (c’est-à-dire la relation entre la Ressources et le jeu de données)
  • Propriétés des données (ou attributs) qui contiennent les caractéristiques ou les paramètres des classes.

Le troisième et le plus haut niveau du composant est le moteur de recherche lui-même qui traduit des recherches compréhensibles par l’homme des requêtes SPARQL, qui peuvent être faites par titre, sujet, auteur, type, format, éditeur et dans plus de 100 langues différentes.

Les résultats ds recherches sont classés en fonction du Classement Web des dépôts et, pour chaque résultat, des liens vers les mentions sur Google Scholar sont fournis, et le cas échéant, vers les mentions altmetrics (via via Altmetric.com APIs) ; enfin le le cas échéant, vers la représentation graphique des données correspondantes (au moyen de Lodlive).

Une utilisation programmable du moteur de recherche sémantique est également possible grâce à RESTful API créée à cet effet.

Back