Νέες δυνατότητες δημιουργίας και επεξεργασίας εικόνων έρχονται στο ChatGPT μέσω του GPT-4o [Ενημέρωση]

Crash24 · 25 Μαρτίου

Ο CEO της OpenAI, Sam Altman, ανακοίνωσε την πρώτη μεγάλη αναβάθμιση στις δυνατότητες δημιουργίας εικόνων του ChatGPT μετά από περισσότερο από ένα χρόνο.

Κατά τη διάρκεια livestream, ο CEO της OpenAI, Sam Altman, ανακοίνωσε την πρώτη σημαντική αναβάθμιση στις δυνατότητες δημιουργίας εικόνων του ChatGPT μετά από περισσότερο από ένα χρόνο.

Το ChatGPT μπορεί πλέον να αξιοποιήσει το μοντέλο GPT-4o της εταιρείας για να δημιουργεί και να τροποποιεί εικόνες και φωτογραφίες με εγγενή τρόπο. Το GPT-4o βρίσκεται εδώ και καιρό πίσω από το chatbot τεχνητής νοημοσύνης της εταιρείας, αλλά μέχρι τώρα, το μοντέλο μπορούσε να δημιουργεί και να επεξεργάζεται μόνο κείμενο, όχι εικόνες.

Ο Altman δήλωσε ότι η εγγενής δημιουργία εικόνων του GPT-4o είναι ήδη διαθέσιμη σήμερα στο ChatGPT και το Sora, το προϊόν δημιουργίας βίντεο με τεχνητή νοημοσύνη της OpenAI, για συνδρομητές του προγράμματος Pro της εταιρείας, το οποίο κοστίζει 200 δολάρια το μήνα. Η OpenAI αναφέρει ότι η λειτουργία θα διατεθεί σύντομα στους χρήστες Plus και στους δωρεάν χρήστες του ChatGPT, καθώς και στους προγραμματιστές που χρησιμοποιούν το API της εταιρείας.

Το GPT-4o με λειτουργία εξόδου εικόνας "σκέφτεται" λίγο περισσότερο από το μοντέλο δημιουργίας εικόνων που ουσιαστικά αντικαθιστά, το DALL-E 3, για να δημιουργήσει αυτό που η OpenAI περιγράφει ως πιο ακριβείς και λεπτομερείς εικόνες. Το GPT-4o μπορεί να επεξεργαστεί υπάρχουσες εικόνες, συμπεριλαμβανομένων εικόνων με ανθρώπους - μετατρέποντάς τις ή "ζωγραφίζοντας" λεπτομέρειες όπως αντικείμενα στο προσκήνιο και το φόντο.

Για την υποστήριξη της νέας λειτουργίας εικόνας, η OpenAI δηλώνει ότι εκπαίδευσε το GPT-4o σε "δημόσια διαθέσιμα δεδομένα", καθώς και σε ιδιόκτητα δεδομένα από τις συνεργασίες της με εταιρείες όπως η Shutterstock.

Αρκετές εταιρείες που αναπτύσσουν συστήματα τεχνητής νοημοσύνης αντιμετωπίζουν τα δεδομένα εκπαίδευσης ως στρατηγικό πλεονέκτημα έναντι του ανταγωνισμού, με αποτέλεσμα να διατηρούν υψηλό επίπεδο μυστικότητας γύρω από αυτά και τις σχετικές μεθοδολογίες. Όμως οι λεπτομέρειες των δεδομένων εκπαίδευσης αποτελούν επίσης πιθανή πηγή αγωγών σχετικών με την πνευματική ιδιοκτησία, ένα άλλο αντικίνητρο για τις εταιρείες να αποκαλύψουν πολλά.

"Σεβόμαστε τα δικαιώματα των καλλιτεχνών όσον αφορά τον τρόπο με τον οποίο παράγουμε το τελικό αποτέλεσμα, και έχουμε πολιτικές που μας εμποδίζουν να δημιουργούμε εικόνες που μιμούνται άμεσα το έργο οποιουδήποτε ζώντος καλλιτέχνη", δήλωσε ο Brad Lightcap, επιχειρησιακός διευθυντής της OpenAI, σε δήλωσή του στο Journal.

Η OpenAI προσφέρει μια φόρμα εξαίρεσης που επιτρέπει στους δημιουργούς να ζητήσουν την αφαίρεση των έργων τους από τα σύνολα δεδομένων εκπαίδευσής της. Η εταιρεία λέει επίσης ότι σέβεται τα αιτήματα για απαγόρευση των bots συλλογής δεδομένων της από τη συλλογή δεδομένων εκπαίδευσης, συμπεριλαμβανομένων εικόνων, από ιστότοπους.

Η αναβαθμισμένη λειτουργία δημιουργίας εικόνων του ChatGPT ακολουθεί τα βήματα της πειραματικής εγγενούς εξόδου εικόνας της Google για το Gemini 2.0 Flash, ένα από τα κορυφαία μοντέλα της εταιρείας. Η ισχυρή λειτουργία έγινε viral στα μέσα κοινωνικής δικτύωσης - αλλά όχι απαραίτητα για τους καλύτερους λόγους. Το κομμάτι του Gemini 2.0 Flash που είναι υπεύθυνο για τις εικόνες αποδείχθηκε ότι είχε λίγους περιορισμούς, επιτρέποντας στους ανθρώπους να αφαιρούν υδατογραφήματα και να δημιουργούν εικόνες που απεικονίζουν χαρακτήρες με πνευματικά δικαιώματα.

Ενημέρωση 27/3 09:50 - Μόλις μία μέρα μετά το λανσάρισμα, η OpenAI ανακοίνωσε ότι η κυκλοφορία του ενσωματωμένου εργαλείου δημιουργίας εικόνων του ChatGPT, θα αργήσει να κάνει την εμφάνισή του στους δωρεάν χρήστες. Σε ανάρτηση την Τετάρτη, ο διευθύνων σύμβουλος της εταιρείας, Sam Altman, παραδέχτηκε ότι το εργαλείο δημιουργίας εικόνων είναι πιο δημοφιλές απ' ό,τι περίμενε, προσθέτοντας ότι «η διάθεση στο δωρεάν επίπεδο δυστυχώς θα καθυστερήσει για αρκετό καιρό» αφαιρώντας για την ώρα τη σχετική δυνατότητα.

Από την κυκλοφορία του, οι χρήστες έχουν κατακλύσει τα μέσα κοινωνικής δικτύωσης με φωτογραφίες που μετατράπηκαν σε εικόνες στο στυλ του ιαπωνικού Studio Ghibli, μια τάση στην οποία συμμετέχει ακόμη και ο Altman.

Ο δικηγόρος πνευματικής ιδιοκτησίας της Neal & McDevitt, Evan Brown, δήλωσε στο TechCrunch ότι οι χρήστες του ChatGPT που χρησιμοποιούν το GPT-4o για τη δημιουργία φωτογραφιών σε στυλ Studio Ghibli τεχνικά δεν παραβιάζουν το νόμο, επειδή «το στυλ δεν προστατεύεται ρητά από τα πνευματικά δικαιώματα». Ωστόσο, βρίσκεται σε μια νομικά γκρίζα περιοχή.

Το GPT-4o έρχεται με βελτιώσεις στην απόδοση κειμένου και χρησιμοποιεί «μια αυτοπαλινδρομική προσέγγιση» στη δημιουργία εικόνων, που σημαίνει ότι δημιουργεί μια εικόνα από αριστερά προς τα δεξιά και από πάνω προς τα κάτω αντί για όλη ταυτόχρονα. Είναι προς το παρόν διαθέσιμο για συνδρομητές ChatGPT Plus, Pro και Team, αλλά τώρα δεν είναι ξεκάθαρο πότε θα είναι διαθέσιμο για τους δωρεάν χρήστες.

Διαβάστε ολόκληρο το άρθρο

hermes1516 · 26 Μαρτίου

"Σεβόμαστε τα δικαιώματα των καλλιτεχνών όσον αφορά τον τρόπο με τον οποίο παράγουμε το τελικό αποτέλεσμα, και έχουμε πολιτικές που μας εμποδίζουν να δημιουργούμε εικόνες που μιμούνται άμεσα το έργο οποιουδήποτε ζώντος καλλιτέχνη"

Yeah sure... 🤡 Ακομα ειμαστε στην αρχη και ηδη η ασυδοσία ειναι ανεξέλεγκτη.
Τα δικαιωματα δεν ληγουν με τον θανατο του καλλιτεχνη αλλα με το περας 50ετων κανονικα απο αυτον.

loulakion · 26 Μαρτίου

ναι πλέον διαβάζει το καφέ !

mindreader · 26 Μαρτίου

Στο chatgtp εχω ζητησει να μου φτιαξει εικονα και αρνειται.

Το μονο που εχω καταφερει να ζητησω και να μου δημιουργησει οντως πρωτοτυπη εικονα, ειναι στο gemini.

Αααανννν .....το κανει και το chatgtp, πειτε μου....

doubleh · 26 Μαρτίου

"Πολλοί πάροχοι τεχνητής νοημοσύνης θεωρούν τα δεδομένα εκπαίδευσης ως ανταγωνιστικό πλεονέκτημα, οπότε τα κρατούν και οποιεσδήποτε σχετικές πληροφορίες κοντά στο στήθος τους."

Έπος.... Απλα έπος....

ΥΓ το κείμενο φαίνεται σχεδόν αλλοπρόσαλλο. Χωρίς σημασιολογικη συνοχή και χωρίς ροή. Μετά κάποιοι απορούν που πολλοί δεν διαβάζουν τα άρθρα κ απλά μπαίνουν για τα σχόλια.

Επεξ/σία 26 Μαρτίου από doubleh

kinhthra · 27 Μαρτίου

1 ώρα πριν, doubleh είπε

"Πολλοί πάροχοι τεχνητής νοημοσύνης θεωρούν τα δεδομένα εκπαίδευσης ως ανταγωνιστικό πλεονέκτημα, οπότε τα κρατούν και οποιεσδήποτε σχετικές πληροφορίες κοντά στο στήθος τους."

Έπος.... Απλα έπος....

ΥΓ το κείμενο φαίνεται σχεδόν αλλοπρόσαλλο. Χωρίς σημασιολογικη συνοχή και χωρίς ροή. Μετά κάποιοι απορούν που πολλοί δεν διαβάζουν τα άρθρα κ απλά μπαίνουν για τα σχόλια.

Νόμιζα ότι ήμουν ο μόνος που μπαίνει στα ψητά (σχόλια) 🤣😂

Evangelos Anagnostou · 27 Μαρτίου

Το μοντέλο παραγωγής εικόνας που λανσάρανε είναι μια κλάση πάνω από ότι έχω δοκιμάσει, ιδιαίτερα όσο αφορά την πιστότητα του prompt, την αμεσότητα να παίρνεις αυτό που θέλεις με την ελάχιστη προσπάθεια και κυρίως την ακρίβεια των γραμμάτων που εμφανίζονται στην εικόνα.

Εξαφανιζονται εργασίες σε πραγματικό χρόνο μπροστά στα μάτια μας.

Κουβαλάει και την εσωτερική λογική του chatgpt. Με ένα απλό prompt: “A gta XII: Athens cover art” ξέρει τι να δείξει πολιτικους, παπάδες, αναρχικούς και μπάτσους!

Σύνδεση

Νέες δυνατότητες δημιουργίας και επεξεργασίας εικόνων έρχονται στο ChatGPT μέσω του GPT-4o [Ενημέρωση]

Προτεινόμενες αναρτήσεις

Crash24

hermes1516

loulakion

mindreader

doubleh

kinhthra

Evangelos Anagnostou

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Σύνδεση