Prelucrarea Flexibilă a Datelor Spațiale Masive în Arhitecturi de Calcul de Înaltă Performanță (BIGEARTH) este un proiect CDI-STAR, finanțat de către Agenția Spațială Română (ROSA), pe perioada 2013-2016, contract nr. 106/29.11.2013. Proiectul este implementat de către Computer Graphics and Interactive Systems Research Group (CGIS) din cadrul Universității Tehnice din Cluj-Napoca (UTCN).
Proiectul BIGEARTH este axat în principal pe datele masive din cadrul domeniului Earth Observation (EO), cu scopul de a extrage cunoștințe într-un mod flexibil și adaptiv. Utilizatorii pot descrie și experimenta ei înșiși diferiți algoritmi complecși cu scopul de a valorifica datele. Procesările de tip “analytics” utilizează modele descriptive și predictive pentru a extrage cunoștințe valoroase și informații pe baza analizei datelor. Proiectul BIGEARTH dezvoltă și experimentează tehnici și metodologii de dezvoltare și execuție într-un mod foarte flexibil și interactiv (Figura 1). Descrierea flexibilă a procesărilor are un impact asupra performanțelor de execuție, accesului utilizatorului la algoritmi simpli și complecși de procesare, precum și asupra accesului la date, cunoștințe și informații.
Arhivele de date EO cresc constant cu mai mulți terabytes în fiecare zi, acest lucru conducând la mari probleme pentru organizații. Costurile de gestionare a datelor depășesc rapid valoarea datelor. Administrarea capacităților de stocare a seturilor mari de date, politica de acces, protecția, căutarea, preluarea și procesarea complexă necesită costuri ridicate care forțează organizația să caute soluții pentru a echilibra costurile și valoarea datelor. Cel mai eficient mod de a sprijini inovarea este prin utilizarea datelor de dimensiuni mari prin aplicații care dezvăluie și maximizează valoarea datelor prelucrate. Uneori, păstrarea de adnotări și de cunoștințe extrase din datele inițiale este mai eficientă și mai productivă decât păstrarea datelor primare, chiar dacă posibilitatea de a extrage mai târziu noi cunoștințe va fi pierdută.
Soluțiile posibile pentru procesarea datelor EO mari sunt oferite de platformele de înaltă performanță, cum ar fi Grid, Cloud, Multicore și Cluster. Aceste soluții sunt destul de complexe, unele dintre ele implicând nu numai interoperabilitatea aplicațiilor științifice cu diferite infrastructuri paralele și distribuite, dar, de asemenea și interoperabilitatea și coexistența acestor platforme software și hardware heterogene. Din punctul de vedere al utilizatorului, un mediu optim oferă un timp optim de procesare, un nivel ridicat de utilizare prin ascunderea complexității infrastructurii de calcul. Este nevoie de o bună interoperabilitate între platforme, arhitecturi orientate pe servicii, scalabilitate, acces transparent la date, politici simple și eficiente de securitate, precum și gestionarea optimă a proceselor și a resurselor.
Proiectul BIGEARTH are următoarele obiective principale:
- Descrierea flexibilă a procesărilor pentru extragerea cunoștințelor din date masive EO
- Soluții orientate HPC pentru procesarea adaptivă și portabilă
- Interoperabilitate bazată pe servicii standard OGC
- Metodologii de dezvoltare orientate EO bazate pe procesarea flexibilă și adaptivă
- Dezvoltarea și validarea experimentală a unor cazuri de test reprezentative pentru EO