Ακολουθώντας την τάση που έθεσαν καινοτόμες εταιρείες όπως η Runway και τεχνολογικά μεγαθήρια όπως η Google και η Meta, η OpenAI επιχειρεί τώρα να εισέλθει στην κατηγορία δημιουργίας βίντεο από μια προτροπή κειμένου, με εντυπωσιακά αποτελέσματα.

Συγκεκριμένα η OpenAI παρουσίασε το Sora, ένα generative AI μοντέλο που μπορεί να παράγει βίντεο με βάση περιγραφές κειμένου, ότι κάνει δηλαδή το Dall-E 3 αλλά για τη δημιουργία φωτογραφιών. Είτε το κείμενο που θα εισάγει ο χρήστης είναι συνοπτικό ή αρκετά αναλυτικό, είτε ακόμη και μια μεμονωμένη εικόνα, το Sora είναι ικανό να παράγει βίντεο υψηλής ευκρίνειας 1080p, που διαθέτει πολλούς χαρακτήρες, ποικιλία κινήσεων και περίπλοκα φόντα, σύμφωνα με την OpenAI. Τα πρώτα δοκιμαστικά βίντεο που δημοσιοποίησε η εταιρεία είναι εκπληκτικά με δεδομένο ότι τίποτα απ’ αυτά που βλέπουμε σ’ αυτά δεν είναι αληθινό, και χρειάζεται μεγαλύτερη παρατήρηση για να εντοπιστούν οι ατέλειες. 

Επιπλέον, το Sora διαθέτει την ικανότητα να βελτιώνει προϋπάρχον υλικό βίντεο προσπαθώντας να “διαισθανθεί» και να προσθέσει τα στοιχεία που λείπουν. Σύμφωνα με μια ανάρτηση στο blog της OpenAI, "το Sora παρουσιάζει μια βαθιά κατανόηση της γλώσσας, η οποία του επιτρέπει να ερμηνεύει με ακρίβεια τις οδηγίες και να δημιουργεί δυναμικούς χαρακτήρες γεμάτους ζωή και συναίσθημα. Το μοντέλο όχι μόνο αντιλαμβάνεται τις οδηγίες του χρήστη, αλλά κατανοεί παράλληλα τη φυσική ύπαρξη αυτών των στοιχείων στον πραγματικό κόσμο".

Tο Sora έχει τη δυνατότητα να δημιουργεί βίντεο σε διάφορα στυλ, είτε ρεαλιστικά λες και προέρχονται από ταινία, είτε κινούμενα σχέδια ή μονόχρωμα, ενώ μπορεί να παράγει κλιπ διάρκειας έως και ενός λεπτού. Το συγκεκριμένο χρονικό διάστημα είναι σημαντικά μεγαλύτερο από αυτό που προσφέρουν τα περισσότερα μοντέλα μετατροπής κειμένου σε βίντεο. Επιπλέον, αυτά τα βίντεο παρουσιάζουν γενικά μια λογική συνοχή, αποφεύγοντας το φαινόμενο της  "παράξενης τεχνητής νοημοσύνης", όπως αντικείμενα που κινούνται με τρόπους που αψηφούν τους νόμους της φυσικής.

Αξίζει να σημειωθεί ότι ορισμένα από τα βίντεο του Sora με ανθρωποειδείς φιγούρες, όπως ένα ρομπότ με φόντο μια πόλη ή ένα άτομο που κάνει πεζοπορία σε ένα χιονισμένο τοπίο, φαίνεται να έχουν μια αισθητική που μοιάζει να προέρχεται από βιντεοπαιχνίδι, ενδεχομένως λόγω της απλότητας των φόντων. Παρόλα αυτά, η "AI strangeness" εμφανίζεται περιστασιακά σε ορισμένα κλιπ, όπως οχήματα που αλλάζουν απότομα κατεύθυνση ή άκρα που συγχωνεύονται σε κρεβάτι.

Η OpenAI τοποθετεί το Sora ως ένα διερευνητικό ερευνητικό εργαλείο και δεν έχει αποκαλύψει πολλά σχετικά με τα δεδομένα εκπαίδευσης, εκτός από το ότι αφορούσαν περίπου 10.000 ώρες βίντεο υψηλής ποιότητας. Το μοντέλο δεν είναι ακόμη ευρέως διαθέσιμο, με τους “Red testers”, μια επιλεγμένη ομάδα της εταιρείας να έχουν αναλάβει τον έλεγχο για τυχόν κινδύνους που μπορούν να δημιουγηθούν με τη χρήση του εργαλείου. Επιπλέον η εταιρεία συνεργάζεται με εμπειρογνώμονες για τον εντοπισμό τρωτών σημείων εντός του μοντέλου, με την εμπορική διάθεσή να υπολογίζεται για τους επόμενους μήνες.

  • Like 10