La manipulation et la capitalisation des données restent un challenge important pour les organismes de recherche. Une des difficultés majeures rencontrées par les chercheurs est de «mixer» des données dans différents formats (fichiers xls, shp, txt, base de données, etc.) issues de fournisseurs différents (données météorologiques, données de terrains, etc.).
Toutes ces manipulations impliquent parfois des développements conséquents et coûteux, si elles ne sont pas réalisées avec des outils adaptés.
Les ETL (extract-transform-load) constituent une famille d’outils qui proposent des composants préprogrammés (+900 pour Talend) permettant de construire des chaînes de traitements depuis des sources de données jusqu’au stockage des résultats du traitement. Ces composants sont assemblés de façon ergonomique et interactive via une interface graphique, assemblage qui automatise la production du code. Documentés correctement, ces assemblages sont une forme de capitalisation des traitements.