Η Meta παρουσίασε τον Ιούλιο την υπηρεσία Make-a-Scene που με τη βοήθεια της τεχνητής νοημοσύνης, μετατρέπει μια πρόταση σε εικόνα, όπως ακριβώς το Dall-E και το Midjourney.

Όπως κάθε παρόμοια υπηρεσία, έτσι κι'αυτή χρησιμοποιεί αλγορίθμους μηχανικής μάθησης (και τεράστιες βάσεις δεδομένων με έργα τέχνης στο διαδίκτυο) για τη δημιουργία φανταστικών απεικονίσεων που ο χρήστης περιγράφει με μια απλή πρόταση. Την Πέμπτη, ο διευθύνων σύμβουλος της Meta, Mark Zuckerberg, αποκάλυψε την πιο σύγχρονη έκδοση του Make-a-Scene, το Make-a-Video το οποίο αντί για εικόνα δημιουργεί..βίντεο.

Όπως υποδηλώνει και το όνομά του, το Make-a-Video είναι «ένα νέο σύστημα τεχνητής νοημοσύνης που επιτρέπει στους ανθρώπους να μετατρέπουν μια πρόταση κειμένου σε σύντομα, υψηλής ποιότητας βίντεο κλιπ», έγραψε ο Zuckerberg στο blog της Meta. Τεχνικά, το Video λειτουργεί με τον ίδιο τρόπο που λειτουργεί και το Scene, βασιζόμενο σε ένα μείγμα επεξεργασίας φυσικής γλώσσας και παραγωγικών νευρωνικών δικτύων για τη μετατροπή μη οπτικών προτροπών σε εικόνες - απλώς αντλεί περιεχόμενο σε διαφορετική μορφή.

«Η διαίσθησή μας είναι απλή: να μάθουμε πώς μοιάζει ο κόσμος και πώς περιγράφεται από ζευγαρωμένα δεδομένα κειμένου-εικόνας, και να μάθουμε πώς κινείται ο κόσμος από βίντεο υλικό», έγραψε η ομάδα ερευνητών της Meta σε έγγραφο που δημοσιεύθηκε αυτή την εβδομάδα. Με αυτόν τον τρόπο η ομάδα κατάφερε να μειώσει τον χρόνο που απαιτείται για την εκπαίδευση του μοντέλου Video και να εξαλείψει την ανάγκη για ζευγαρωμένα δεδομένα κειμένου-βίντεο, διατηρώντας παράλληλα «την ποικιλομορφία στην αισθητική (φανταστικές απεικονίσεις κ.λπ.) των σημερινών μοντέλων δημιουργίας εικόνων».   

Ακολουθούν μερικά παραδείγματα:

  • Επάνω αριστερά: Ένας σκύλος με κάπα σούπερ ήρωα που πετάει στον ουρανό.
  • Πάνω δεξιά: Ένα διαστημόπλοιο προσγειώνεται στον Άρη.
  • Κάτω αριστερά: Πινέλο καλλιτέχνη από κοντά που ζωγραφίζει σε καμβά, με μεγάλη λεπτομέρεια.
  • Κάτω δεξιά: Ένα άλογο πίνει νερό. 

10000000_881443066596758_5269738903466867973_n.webp.a3ad4312143fe1772bf333574ea9e6dd.webp

Όπως συμβαίνει με το μεγαλύτερο μέρος της έρευνας της Meta στον τομέα της τεχνητής νοημοσύνης, το Make-a-Video κυκλοφορεί ως open-source project. «Θέλουμε να είμαστε προσεκτικοί σχετικά με το πώς δημιουργούμε νέα συστήματα δημιουργικής τεχνητής νοημοσύνης όπως αυτό», σημείωσε ο Zuckerberg. «Μοιραζόμαστε ανοιχτά με την κοινότητα τη συγκεκριμένη έρευνα τεχνητής νοημοσύνης αλλά και τα αποτελέσματά της και περιμένουμε τα σχόλιά της. Θ α συνεχίσουμε να χρησιμοποιούμε το responsible framework A.I για να βελτιώσουμε και να εξελίξουμε την προσέγγισή μας σε αυτή την αναδυόμενη τεχνολογία». 

Όπως συμβαίνει φαινομενικά με κάθε project τεχνητής νοημοσύνης που δημιουργεί περιεχόμενο, η πιθανότητα κακής χρήσης του Make-a-Video δεν είναι μικρή. Για να προλάβουν πιθανές κακόβουλες χρήσεις, η ερευνητική ομάδα αφαίρεσε προληπτικά από το σύνολο δεδομένων εκπαίδευσης του Make-a-Video τυχόν NSFW εικόνες καθώς και τοξικές φράσεις. Οι NSFW (Not Safe For Work) εικόνες αποτελούν περιεχόμενο που για διαφόρους λόγους δεν επιτρέπονται ή δεν είναι σωστό να φορτώνονται σε εταιρικά περιβάλλοντα.

  • Thanks 2