Νέα έρευνα από το METR αμφισβητεί τους ισχυρισμούς ότι τα εργαλεία κώδικα με τεχνητή νοημοσύνη αυξάνουν την παραγωγικότητα των προγραμματιστών.

Μια νέα μελέτη που δημοσιεύτηκε την Πέμπτη από τον μη κερδοσκοπικό ερευνητικό οργανισμό τεχνητής νοημοσύνης METR θέτει υπό αμφισβήτηση το κατά πόσο τα σημερινά εργαλεία κώδικα με τεχνητή νοημοσύνη πραγματικά βελτιώνουν την παραγωγικότητα των έμπειρων προγραμματιστών.

Τα τελευταία χρόνια, εργαλεία όπως το Cursor και το GitHub Copilot έχουν μεταμορφώσει τον τρόπο εργασίας των προγραμματιστών, υποσχόμενα αυξημένη παραγωγικότητα μέσω αυτόματης συγγραφής κώδικα, διόρθωσης σφαλμάτων και ελέγχου αλλαγών. Τα εργαλεία αυτά τροφοδοτούνται από μοντέλα τεχνητής νοημοσύνης από εταιρείες όπως η OpenAI, η Google DeepMind, η Anthropic και η xAI.

Η METR διεξήγαγε μια τυχαία ελεγχόμενη δοκιμή, στρατολογώντας 16 έμπειρους προγραμματιστές ανοιχτού κώδικα και αναθέτοντάς τους 246 πραγματικές εργασίες σε μεγάλα αποθετήρια κώδικα στα οποία συνεισφέρουν τακτικά. Οι ερευνητές χαρακτήρισαν τυχαία περίπου τις μισές από αυτές τις εργασίες ως "επιτρεπόμενες με τεχνητή νοημοσύνη", δίνοντας στους προγραμματιστές την άδεια να χρησιμοποιούν προηγμένα εργαλεία κώδικα τεχνητής νοημοσύνης όπως το Cursor Pro, ενώ το άλλο μισό των εργασιών απαγόρευε τη χρήση εργαλείων τεχνητής νοημοσύνης.

Πριν από την ολοκλήρωση των εργασιών τους, οι προγραμματιστές προέβλεψαν ότι η χρήση εργαλείων κώδικα τεχνητής νοημοσύνης θα μείωνε τον χρόνο ολοκλήρωσης κατά 24%. Ωστόσο, αυτό δεν συνέβη.

"Εκπληκτικά, διαπιστώνουμε ότι η επιτρεπόμενη χρήση τεχνητής νοημοσύνης στην πραγματικότητα αυξάνει τον χρόνο ολοκλήρωσης κατά 19% - οι προγραμματιστές είναι πιο αργοί όταν χρησιμοποιούν εργαλεία τεχνητής νοημοσύνης", ανέφεραν οι ερευνητές.

Αξιοσημείωτο είναι ότι μόνο το 56% των προγραμματιστών στη μελέτη είχαν εμπειρία με το Cursor, το κύριο εργαλείο τεχνητής νοημοσύνης που προσφέρθηκε στη μελέτη. Ενώ σχεδόν όλοι οι προγραμματιστές (94%) είχαν εμπειρία χρήσης κάποιων διαδικτυακών LLMs στο workflow τους, η μελέτη αυτή ήταν η αφορμή που ορισμένοι για πρώτη φορά χρησιμοποίησαν συγκεκριμένα το Cursor. Οι ερευνητές σημειώνουν ότι οι προγραμματιστές εκπαιδεύτηκαν στη χρήση του Cursor σε προετοιμασία για τη μελέτη.

Οι ερευνητές της METR επισημαίνουν μερικούς πιθανούς λόγους για τους οποίους η τεχνητή νοημοσύνη καθυστέρησε τους προγραμματιστές αντί να επιταχύνει τη δουλειά τους. Πρώτον, οι προγραμματιστές ξοδεύουν πολύ περισσότερο χρόνο στην καθοδήγηση της τεχνητής νοημοσύνης και στην αναμονή για απάντηση παρά στον πραγματικό προγραμματισμό. Επιπλέον, η τεχνητή νοημοσύνη τείνει να δυσκολεύεται σε μεγάλες, περίπλοκες βάσεις κώδικα, όπως αυτές που χρησιμοποιήθηκαν σε αυτή τη δοκιμή.

Οι συγγραφείς της μελέτης είναι προσεκτικοί στο να μην εξάγουν ισχυρά συμπεράσματα από αυτά τα ευρήματα, σημειώνοντας ρητά ότι δεν πιστεύουν πως τα σημερινά συστήματα τεχνητής νοημοσύνης αποτυγχάνουν να επιταχύνουν πολλούς ή τους περισσότερους προγραμματιστές λογισμικού. Άλλες μελέτες μεγάλης κλίμακας έχουν δείξει ότι τα εργαλεία κώδικα τεχνητής νοημοσύνης επιταχύνουν την παραγωγικότητα των προγραμματιστών.

Επίσης, οι συγγραφείς επισημαίνουν ότι η πρόοδος της τεχνητής νοημοσύνης τα τελευταία χρόνια είναι σημαντική και ότι δεν θα περίμεναν τα ίδια αποτελέσματα ακόμη και τρεις μήνες από τώρα. Η METR έχει επίσης διαπιστώσει ότι τα εργαλεία προγραμματισμού με τεχνητή νοημοσύνη έχουν βελτιώσει σημαντικά την ικανότητά τους να ολοκληρώνουν περίπλοκες εργασίες μακροπρόθεσμου ορίζοντα τα τελευταία χρόνια.

Ωστόσο, η έρευνα προσφέρει έναν ακόμη λόγο για να είμαστε σκεπτικοί απέναντι στα υποσχόμενα οφέλη των σχετικών εργαλείων προγραμματισμού. Άλλες μελέτες έχουν δείξει ότι τα σημερινά εργαλεία μπορούν να εισαγάγουν λάθη και, σε ορισμένες περιπτώσεις, σημαντικές ευπάθειες ασφαλείας.

  • Like 1
  • Thanks 1
  • Haha 2