Description de l'offre
Intitulé du stage : Chargé d'études : Etats des lieux et centralisation de données photos pour apprentissage d'algorithmes de Deep Learning
Lieu : La Défense
Durée et/ou période du stage : 5 à 6 mois dès que possible
Contexte du stage :
Parmi les solutions de post-traitement, RTE souhaite explorer les solutions algorithmiques de Deep Learning pour faire de l’analyse photo et détecter automatiquement les équipements ou anomalies présente sur les lignes aériennes et/ou sur les postes.
Le prérequis de ces solutions de Deep Learning, est l’apprentissage. Avant qu’un algorithme soit en mesure de détecter un équipement ou une anomalie sur une photo, il doit avoir été entrainé sur des jeux de données de plusieurs centaines à plusieurs dizaines de milliers de photo de l’équipement ou de l’anomalie en question.
RTE dispose, à date, d’un peu plus de cent-mille photos de lignes aériennes, d’équipements et d’anomalies, réparties sur des espaces de stockage différents. Ces données sont issues de dizaines d’expérimentations indépendantes et sont réparties et stockées dans des dossiers différents et dont la structure est différente.
Afin de pouvoir expérimenter des solutions de Deep Learning, RTE a besoin de centraliser ces données au sein d’un espace de stockage propre et structuré, ainsi que de disposer d’une vision claire et détaillée de la donnée qu’il héberge.
Le stage portera sur la centralisation et formalisation de ces données et sur le recensement des informations qu’elles contiennent.
Objectif du stage :
Le traitement manuel de ces données prendrait un temps considérable. L’objectif de ce stage est de concevoir des scripts de traitement automatique de cette donnée, pour la centraliser, la formaliser et recenser les informations quelles contiennent.
Ce travail permettra, une fois réalisé, de donner une vision exhaustive des informations dont nous disposons. Il permettra d’alimenter des réflexions et des travaux complémentaires sur :
- L’acquisition de données complémentaires manquantes, pour compléter les jeux de données requis par l’apprentissage des algorithmes
- L’annotation de jeux de données supplémentaire d’équipements ou d’anomalies, pour lesquels nous ne disposons pas de suffisamment de jeux de données pour entrainer les algorithmes
- Définir la hiérarchisation optimale de cette donnée dans le futur nouvel espace de stockage, en vue d’optimiser les temps de traitement des algorithmes
Aux côtés de correspondants R&D, et d’experts en Data Science, il est attendu du stagiaire les actions suivantes :
• Référencer, pour l’ensemble des données photos dont dispose RTE, les informations qui leurs sont rattachées (Moyens d’acquisition, Zone géographique, Date d’acquisition, Expérimentation concernée, etc.) au sein d’un fichier de Métadonnée
• Analyser et traduire les fichiers d’annotations (équipements/anomalies, nombre, etc.) au sein du fichier de métadonnée
• Centraliser l’ensemble des données photos (et annotations) au sein d’un même espace de stockage
• Supprimer les éléments en doublon
Il est attendu du stagiaire de réaliser les tâches décrites ci-dessus via la construction et la mise en place de scripts d’automatisation.
• Formaliser une synthèse du fichier de métadonnée, avec une analyse de la donnée dont nous disposons, et de celle qui nous manque
• Monter en compétence sur les sujets data pour participer aux travaux de définition de la hiérarchisation optimale des données photos de RTE dans leur futur nouvel espace de stockage.
• Développement d’une méthode d’annotation automatique d’image afin de gagner du temps et de l'efficacité dans le traitement de grandes quantités de données visuelles. dans l’objectif de réduire les risques d'erreurs humaines, tout en améliorant la précision des résultats.