Η Τεχνητή Νοημοσύνη της Nvidia θα μετατρέπει την 2D εικόνα του προσώπου του χρήστη σε 3D.

Οι ερευνητές της Nvidia AI παρουσίασαν μία Τεχνητή Νοημοσύνη με την οποία μπορούν να δημιουργήσουν 3D πρόσωπα και κατ’ επέκταση 3D κεφάλια, από μία μόνο εικόνα 2D. Η ομάδα των ερευνητών λέει ότι είναι σε θέση να επιτύχουν ένα ευρύ φάσμα χειρισμών, όπως περιστροφή, μετακίνηση του κεφαλιού ενός ατόμου αλλά και την ομαλή μεταφορά του προσώπου μέσα σε ένα ανακατασκευασμένο βίντεο.

Στο πρώτο καρέ του βίντεο, η AI χρησιμοποιεί μία συνηθισμένη 2D φωτογραφία και στη συνέχεια μέσω μεθόδων εκμάθησης συλλέγει τρισδιάστατα σημεία εντός του βίντεο. Εκτός του ότι αποδίδει καλύτερα σε σύγκριση με άλλες προσεγγίσεις που έχουν γίνει στο παρελθόν, η Τεχνητή Νοημοσύνη της Nvidia μπορεί και επιτυγχάνει υψηλής ποιότητα βίντεο σε φορμά H.264 χρησιμοποιώντας το 1/10 του bandwidth που χρειάζονταν προηγουμένως.

Οι ερευνητές της Nvidia, Ting-Chun Wang, Arun Mallya και Ming-Yu Liu, δημοσίευσαν ένα έγγραφο στο οποίο αναφέρουν:

Με την τροποποίηση μόνο των σημείων που συλλέγει η AI, μπορούμε να δημιουργήσουμε βίντεο πολλών κατευθύνσεων. Με τη μετάδοση μόνο των μετασχηματισμένων σημείων, μπορούμε να επιτύχουμε πολύ καλύτερες αναλογίες συμπίεσης από τις υπάρχουσες μεθόδους. Μειώνοντας δραματικά το bandwidth και διασφαλίζοντας μία πιο συναρπαστική εμπειρία, πιστεύουμε ότι αυτό είναι ένα σημαντικό βήμα προς το μέλλον των τηλεδιασκέψεων.

Η ανακοίνωση του νέου AI έρχεται έπειτα την κυκλοφορία του Maxine, τον προηγούμενο Οκτώβριο. Το Maxine, εκτός από εικονικά περιβάλλοντα, όπως κάνει το Zoom, θα μπορεί να προσφέρει και λειτουργίες AI όπως ευθυγράμμιση του προσώπου και μείωση θορύβου, ενώ θα έχει ακόμη και δυνατότητες μετάφρασης σε πραγματικό χρόνο.

Οι βιντεοκλήσεις των Microsoft Teams και Zoom χρησιμοποιούν επίσης λειτουργίες AI για να κάνουν πράγματα όπως θαμπάδα στο φόντο και κινούμενα εφέ επαυξημένης πραγματικότητας. Το έγγραφο σχετικά με την κυκλοφορία του Nvidia AI δημοσιεύθηκε μία ημέρα πριν η Salesforce εξαγοράσει το Slack για $27 δισεκατομμύρια, κάτι που θα μπορούσε να συγκλονίσει το επιχειρηματικό τοπίο των επικοινωνιών και να πυροδοτήσει τη διαμάχη μεταξύ του Teams και Slack.

Η Nvidia είναι από τις πιο γνωστές εταιρίες που εργάζονται σε μοντέλα GAN (Generative Adversarial Networks) όπως το StyleGan, τα οποία έχουν τη δυνατότητα να θολώνουν τις γραμμές μεταξύ αληθινού και εικονικού. Τέτοια μοντέλα AI συνήθως εφαρμόζονται σε υπηρεσίες ψυχαγωγίας και παιχνίδια αλλά και για παραπληροφόρηση ή δημιουργία πλαστών λογαριασμών. Καθώς ήδη υπάρχουν ανησυχίες σχετικά με την πιθανότητα όλο και περισσότερων deepfakes με στόχο την παραπληροφόρηση και τη διαμόρφωση της κοινής γνώμης, τα μοντέλα GAN χρήζουν ιδιαίτερης μεταχείρισης αφού ήδη έχουν γίνει προσπάθειες στοχευμένης προπαγάνδας.

  • Sad 1