Parallelization of code [Fortran Matlab]

dop · 25 Οκτωβρίου 2010

Υπάρχουν εργαλεία που κάνουν αυτή την δουλειά σε μικρομετρικό επίπεδο. Π.χ. το analyzer της ίδιας της intel.
Αλλά εγώ δεν τα χρησιμοποίησα διότι δεν ήταν συμβατά με την έκδοση του compiler που είχα (τα είχα βρει κλεψιμέικα).

Δε χρειάζεται εργαλεία - ένας απλός timer κάνει. Τα εργαλεία θα παράξουν πολύ περισσότερες πληροφορίες από όσες χρειάζεται για να κάνει identify το bottleneck σε τόσο αρχικά στάδια.

Όχι απλώς πιο δύσκολο, ΠΟΛΥ πιο δύσκολο. Και συμβαίνει το αντίθετο απ' ότι λες :
το MPI γενικά κλιμακώνει καλύτερα κι' όχι το openMP. Σε αυτό δεν φταίει όμως τόσο το openMP όσο ο τρόπος γραφής του προγράμματος όπως ηδη είπα 3 φορές.

Τα βιβλία που σύστησα εξηγούν τους λόγους. Για μηχανήματα desktop όπως αυτά που χρησιμοποιούμε καθημερινά και για γραφή σύνηθων προγραμμάτων το MPI

είναι ακατάλληλο για πολλούς λόγους. Μακριά.....

Δεν είναι "ΠΟΛΥ πιο δύσκολο", απλά είναι διαφορετικό. Στο κάτω-κάτω είναι μια βιβλιοθήκη για ανταλλαγή μηνυμάτων. Εντάξει, δεν το έκανες και στο δημοτικό, αλλά δεν είναι και rocket science.

Άμα θέλεις επιδόσεις, θα δεις και το OpenMP και το MPI και όλα. Η κοινή λογική λέει ότι το να παραλληλίσεις κώδικα με threads (OpenMP) θα είναι πιο γρήγορο από το να το κάνεις με processes (MPI) λόγω λιγότερης καταναλισκούμενης μνήμης και memory sharing. Η σχετική βιβλιογραφία για hybrid OpenMP + MPI programming θα σε πείσει.

Η πράξη διαφέρει στο γεγονός ότι το MPI σε κάνει να σκεφτείς λίγο περισσότερο για το data locality και να αποφύγεις όσο το δυνατόν τις shared μεταβλητές (που για το MPI χρειάζεται να κουβαλάς δεξιά και αριστερά τις τιμές, υλοποιώντας ένα είδος software cache coherency). Περισσότερα accesses σε shared variables σημαίνει περισσότερα cache line invalidations, μεγαλύτερο bandwidth consumption στο bus και άρα χειρότερες επιδόσεις. Ο ίδιος ακριβώς κώδικας σε MPI και OpenMP (άμα δηλαδή γράφεις OpenMP κάνοντας αντιγραφή ότι μεταβλητής χρησιμοποιείς) έχει την ίδια απόδοση με μικρότερο memory footprint.

Όμως, αν σήμερα το MPI ξεπερνά το OpenMP σε επιδόσεις, αυτό δε σημαίνει ότι θα γίνει και αύριο: όσο οι compilers γίνονται πιο "έξυπνοι", τόσο γέρνει η πλάστιγγα προς τη μεριά του OpenMP, καθώς με το OpenMP ο compiler μπορεί να κάνει περισσότερα optimizations.

Ίσως έχεις δίκιο για τα TBB. Εγώ το ξέρω σαν όνομα αλλά δεν το έχω ασχοληθεί.

Δεν ξέρω όμως κατά πόσον είναι standard σαν τις άλλες επιλογές.

Για τα υπόλοιπα που αναφέρεις, ήδη σε πρόλαβα....

Οτιδήποτε εκφράζεται με data parallelism, μπορείς να το εκφράσεις με task parallelism - απλά ο γράφος των εξαρτήσεων των tasks είναι ένα one-level tree. Το task parallelism είναι αρκετά πιο abstract από το data.

Για την ιστορία, ούτε το MPI είναι standard ακριβώς - ό,τι θέλει υλοποιεί ο κάθε vendor.

ΥΓ ένα καλό tutorial που βρήκα για την έκδοση 9 είναι στο http://www.ncsa.illinois.edu/UserInfo/Resources/Software/Intel/Compilers/9.0/training/optimize/index.htm Κάπου θα υπάρχει και για την 10 (ίσως στην Intel ή σε κάποιο από τα CD).

ΥΓ2 όχι, δε με πρόλαβες, μας πρόλαβαν και τους δύο ο William Gropp, η Barbara Chapman και άλλοι πολλοί. Και εκτός των άλλων, σημείωσα ότι προαναφέρθηκαν.

V.I.Smirnov · 25 Οκτωβρίου 2010

Δε χρειάζεται εργαλεία - ένας απλός timer κάνει.
Τα εργαλεία θα παράξουν πολύ περισσότερες πληροφορίες από όσες χρειάζεται για να κάνει identify το bottleneck σε τόσο αρχικά στάδια.

Συμφωνώ. Aλλά τα εργαλεία που είχα δει ήταν πράγματι πολύ χρήσιμα ακόμα ακόμα και στο αρχικό στάδιο.

Δεν είναι "ΠΟΛΥ πιο δύσκολο", απλά είναι διαφορετικό.
Στο κάτω-κάτω είναι μια βιβλιοθήκη για ανταλλαγή μηνυμάτων.

Εντάξει, δεν το έκανες και στο δημοτικό, αλλά δεν είναι και rocket science.

Διαφωνώ τελείως.

Το MPI "είναι η assembly των παράλληλων συστημάτων". Το έχουν πει ειδικοί επί του θέματος.

Η μεγάλη δυσκολία του έγκειται στα :

1) Απαιτεί την πλήρη αποδόμηση του προγράμματος και των δεδομένων του για οτιδήποτε σχεδόν κάνεις.

Ακόμα και για μια απλή πρόσθεση πινάκων π.χ.

2) Απαιτεί σχεδόν αδιακρίτως καθολικό παραλληλισμό. Παραλληλίζεις ή τα πάντα ή τίποτε.

Και το πρόγραμμα δεν μπορεί γενικά να τρέξει - άρα και να ελεχθεί - αν δεν γραφεί ολόκληρο.

Εξάλλου υπάρχουν μέρη του προγράμματος που μπορεί να μην συμφέρει να παραλληλιστούν

για διάφορους λόγους (π.χ. εισαγωγή δεδομένων) ενώ είναι μεγάλος μπελάς να τα κάνεις παράλληλα.

3) Λόγω του 2) η αποσφαλμάτωση και η τροποποίηση της δομής του καθώς γράφεται είναι πολύ πιο δύσκολες.

Επιπλέον, debuggers για MPI πρόγραμμα δεν είναι ευρέως διαθέσιμοι.

4) Ένας σειριακός αλγόριθμος και η εκδοχή του σε MPI είναι συνήθως εντελώς άσχετοι.

Αυτό συνεπάγεται ότι αν κάποιος έχει ήδη την σειριακή έκδοση έκδοση ενός προγράμματος ή αλγόριθμου,

του είναι σχεδόν άχρηστη σε ότι αφορά την μετατροπή της σε MPI.

Ένα ήδη γραμμενο πρόγραμμα, για να μεταγραφεί σε MPI πρέπει να γραφεί από την αρχή και με τελείως διαφορετικό τρόπο.

Eπιπλέον, η συντήρηση και περαιτέρω ανάπτυξή του είναι πολύ πιο δύσκολες.

Η κοινή λογική λέει ότι το να παραλληλίσεις κώδικα με threads (OpenMP) θα είναι πιο γρήγορο από το να το κάνεις με processes (MPI)
λόγω λιγότερης καταναλισκούμενης μνήμης και memory sharing. Η σχετική βιβλιογραφία για hybrid OpenMP + MPI programming θα σε πείσει.

Όχι, τουλάχιστον στην πράξη (εκτός αν δεν κατάλαβα καλά τι εννοείς). Κατά παράδοση και πρακτικά το MPI είναι αυτό που κλιμακώνει καλύτερα.

Δεν θα παραθέσω links, υπάρχουν αμέτρητα. Και το πρώτο από τα βιβλία που παραθέτουμε κι οι δυό μας το υπαινίσσεται στην σελ. 206 όπου

προσπαθεί να δείξει ακριβώς αυτό : ότι παρά την καλύτερη κλιμακωσιμότητα του MPI, το openMP το συναγωνίζεται αν γραφεί κατάλληλα το

πρόγραμμα. Συνήθως όλοι ξεκινούν με το openMP και βλέπουν ότι δεν κλιμακώνει γραμμικά και απογοητεύονται.

Αλλά στις περισσότερες περιπτώσεις φταίει κύρια ο τρόπος γραφής του προγράμματος. Δεν αρκεί να μπουν μόνον οι directives, τα είπαμε.

Η πράξη διαφέρει στο γεγονός ότι το MPI σε κάνει να σκεφτείς λίγο περισσότερο για το data locality και να αποφύγεις όσο
το δυνατόν τις shared μεταβλητές (που για το MPI χρειάζεται να κουβαλάς δεξιά και αριστερά τις τιμές, υλοποιώντας ένα είδος software cache coherency).

Μακάρι να ήταν έτσι αλλά δεν είναι.

H πράξη διαφέρει σε ότι απαρίθμησα πριν. Και σε καθημερινή δουλειά στην οποία δεν πρόκειται για tutorials των 50 γραμμών που απλώς

πολλαπλασιάζουν πίνακες, τα 1) - 4) είναι πολύ σημαντικά.

Οτιδήποτε εκφράζεται με data parallelism, μπορείς να το εκφράσεις με task parallelism - απλά ο γράφος των
εξαρτήσεων των tasks είναι ένα one-level tree. Το task parallelism είναι αρκετά πιο abstract από το data.

Εγώ ξέρω καλά το παρακάτω :

Οι αλγόριθμοι παραλληλισμού δεδομένων είναι πιο κλιμακώσιμοι από τους αλγόριθμους παραλληλισμού ελέγχου.

Ο λόγος : το επίπεδο παραλληλισμού ελέγχου είναι μια σταθερά, ανεξάρτητη από το μέγεθος του προβλήματος

ενώ το επίπεδο παραλληλισμού δεδομένων είναι μια αύξουσα συνάρτηση του μεγέθους του προβλήματος.

Αυτό σημαίνει ότι όταν κάτι γράφεται σε στυλ παραλληλισμού ελέγχου η επιτάχυνση έχει άνω όριο ανεξάρτητα από

το πλήθος των χρησιμοποιούμενων cpus, ενώ o παραλληλισμός δεδομένων όχι.

(Μπορώ και να παραθέσω παράδειγμα αλλά είναι μεγάλο και ας μην γράφω τώρα.,..)

Αυτό που λες για τον γράφο των εξαρτήσεων ακούγεται λογικό - δηλ., αν κατάλαβα καλά, λες ότι ο παραλληλισμός δεδομένων

είναι υποκατηγορία του παραλληλισμού ελέγχου (και άρα η διαφορά τους είναι μόνον στο στυλ γραφής ; )

Το γεγονός είναι ότι το ΜPI είναι ακατάλληλο για καθημερινή χρήση, ειδικά αν δουλεύεις με ήδη γραμμένα ή μεγάλα ή πολύπλοκα προγράμματα.

-

V.I.Smirnov · 25 Οκτωβρίου 2010