Η εταιρεία Cloudflare κατηγορεί την μηχανή αναζήτησης τεχνητής νοημοσύνης Perplexity ότι χρησιμοποιεί κρυφά bots για να παρακάμπτει απαγορεύσεις πρόσβασης σε ιστοσελίδες, παραβιάζοντας έτσι μακροχρόνιες διαδικτυακές πρακτικές.

Οι ερευνητές της Cloudflare, σε πρόσφατη ανάρτησή τους, περιέγραψαν πώς η Perplexity φέρεται να αγνοεί τις ρυθμίσεις που έχουν ορίσει ιδιοκτήτες ιστοσελίδων μέσω αρχείων robots.txt και τειχών προστασίας, συνεχίζοντας την πρόσβαση σε περιεχόμενο. Οι καταγγελίες προήλθαν από πελάτες της εταιρείας, οι οποίοι είχαν μπλοκάρει τα δηλωμένα crawlers της Perplexity, αλλά παρατήρησαν ότι η δραστηριότητα συνεχιζόταν ανενόχλητη.

Για να επαληθεύσουν τις καταγγελίες, οι ειδικοί της Cloudflare διεξήγαγαν δικές τους δοκιμές. Διαπίστωσαν ότι, όταν τα γνωστά bots της Perplexity συναντούσαν εμπόδια, η εταιρεία επιστράτευε μη δηλωμένα εργαλεία που χρησιμοποιούσαν πολλαπλές διευθύνσεις IP εκτός του επίσημου εύρους της. Αυτά τα bots εναλλάσσονταν μεταξύ διαφορετικών IP και ακόμη και δικτύων (ASNs) για να αποφύγουν τον εντοπισμό. Η δραστηριότητα αυτή εντοπίστηκε σε πάνω από 10.000 domains, με εκατομμύρια αιτήματα καθημερινά, δημιουργώντας μια εικόνα εκτεταμένης παράκαμψης.

Η πρακτική αυτή θυμίζει προσπάθειες απόκρυψης σε έναν ψηφιακό κόσμο όπου οι κανόνες πρόσβασης μοιάζουν με πινακίδες "Απαγορεύεται η Είσοδος" σε ιδιωτικές ιδιοκτησίες. Το Πρωτόκολλο Αποκλεισμού Ρομπότ, που προτάθηκε το 1994 από τον μηχανικό Martijn Koster, επιτρέπει στους διαχειριστές ιστοσελίδων να δηλώνουν μέσω ενός απλού αρχείου ποιες περιοχές είναι απαγορευμένες για αυτοματοποιημένα προγράμματα. Η συγκεκριμένη μέθοδος έχει γίνει ευρέως αποδεκτή και τυποποιήθηκε επίσημα από την Internet Engineering Task Force το 2022, ενισχύοντας την εμπιστοσύνη στο διαδίκτυο.

Δεν είναι η πρώτη φορά που η Perplexity δέχεται κριτική για παρόμοιες συμπεριφορές. Ο διευθύνων σύμβουλος του Reddit, Steve Huffman, δήλωσε πέρυσι σε συνέντευξη στο The Verge ότι η αντιμετώπιση της Perplexity, μαζί με μηχανές από Microsoft και Anthropic, ήταν εξαιρετικά δύσκολη. Σύμφωνα με τον ίδιο, αυτές οι εταιρείες συμπεριφέρονται σαν να είναι όλο το περιεχόμενο του διαδικτύου ελεύθερο για χρήση χωρίς περιορισμούς.

Παρόμοιες κατηγορίες έχουν εκφραστεί και από εκδοτικούς οίκους. Το Forbes κατηγόρησε την Perplexity για "κυνική κλοπή" μετά από δημοσίευση άρθρου που έμοιαζε υπερβολικά με δικό τους πρωτότυπο υλικό, το οποίο είχε αναρτηθεί μόλις μια μέρα νωρίτερα. Επίσης, το Wired, ανέφερε ύποπτες κινήσεις από IP διευθύνσεις πιθανώς συνδεδεμένες με την Perplexity, οι οποίες αγνοούσαν εντολές από το robots.txt. Σε ορισμένες περιπτώσεις, η Perplexity φέρεται να τροποποιούσε τo crawling bots' ID string της για να ξεπερνά τους περιορισμούς.

Ανταποκρινόμενη στα ευρήματα, η Cloudflare προχώρησε σε μέτρα προστασίας για τους χρήστες της υπηρεσίας διανομής περιεχομένου. Οι ερευνητές τόνισαν ότι τα crawlers οφείλουν να είναι διαφανή, να εξυπηρετούν σαφείς σκοπούς και να σέβονται τις οδηγίες των ιστοσελίδων. Ως εκ τούτου, αφαίρεσαν την Perplexity από τη λίστα επαληθευμένων bots και ενσωμάτωσαν νέους κανόνες για τον αποκλεισμό τέτοιων κρυφών δραστηριοτήτων. Άλλωστε στις αρχές του περασμένου μήνα, η Cloudflare παρουσίασε μια νέα δωρεάν λειτουργία για τους χρήστες, με την ενεργοποίηση της οποίας κάθε εκδότης μπορεί να απαγορέψει με μια κίνηση την επίσκεψη παρόμοιων crawelers από AI εταιρείες ή να χρεώνει για την πρόσβαση στο περιεχόμενο της ιστοσελίδας του.

Οι εκπρόσωποι της Perplexity δεν απάντησαν σε email που ζητούσε διευκρινίσεις σχετικά με τις κατηγορίες.

  • Like 3
  • Haha 3