Προς το περιεχόμενο

Δημιουργία bot συλλογης πληροφοριών από sites


fakas

Προτεινόμενες αναρτήσεις

Καλημέρα,

Εδώ και καιρό σκέφτομαι να φτιάξω (βασικά, να προσπαθήσω να φτιάξω) ένα bot το οποίο θα συλλέγει πληροφορίες από συγκεκριμένα αθλητικά σαιτ. Υπάρχουν αρκετά βίντεο σε youtube, αλλά η αλήθεια είναι οτι μέσα σε 10-30λεπτά δεν σου παρέχεται η γνώση ή ο "μπούσουλας" για να ξεκινήσεις . Γνωρίζει κάποιος κάποιο online tutorial, κάποιο channel, ή κάποιο course πχ apo udemy, coursera κτλ που θα βοηθούσαν για να ξεκινήσω ή έστω να προσπαθήσω;

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Καταρχάς τι εννοείς συλλογή πληροφοριών; Στο πρώτο άκουσμα νομίζω πως είναι παράνομη τακτική. Δεν μπορείς να πας και να αντλήσεις τα δεδομένα από ένα site χωρίς να έχεις την συγκατάθεση του κατόχου του περιεχομένου του site. Ο μόνος τρόπος που μπορείς να αντλείς δεδομένα νόμιμα νομίζω είναι το rss feed του εκάστοτε site. 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

6 ώρες πριν, rafinos είπε

Καταρχάς τι εννοείς συλλογή πληροφοριών; Στο πρώτο άκουσμα νομίζω πως είναι παράνομη τακτική. Δεν μπορείς να πας και να αντλήσεις τα δεδομένα από ένα site χωρίς να έχεις την συγκατάθεση του κατόχου του περιεχομένου του site. Ο μόνος τρόπος που μπορείς να αντλείς δεδομένα νόμιμα νομίζω είναι το rss feed του εκάστοτε site. 

Συλλογή εννοώ πχ από ενα σαιτ στατιστικών αγώνων ποδοσφαίρου, να τραβήξω ο,τι πεδία έχει για μία συγκεκριμενη ομάδα. Λογικά θα γίνεται μέσω κάποιου ΑΡΙ αλλά δεν νομίζω πως είναι παράνομο. Μπορεί να κάνω κ λάθος ομώς.  Υπάρχουν πολλά σαιτ στατιστικών κυρίως στην Αμερική τα οποία χρησιμοποιούν τα δεδομένα άλλων σαιτ μεσω κάποιας μορφής εξόρυξης δεδομένων.

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημοσ. (επεξεργασμένο)

Φυσικά και είναι παράνομο αν δεν στο επιτρέπει το ίδιο το site. Αν σου παρέχει api (δωρεάν) το site τότε είναι κομπλέ. Σκέψου ότι όσο εσύ θα κάνεις συλλογή των δεδομένων που λες και θα καλείς ξανά και ξανά κάποια σελίδα του site θα ξοδεύεις πόρους από τον σέρβερ και θα παίρνεις «έτοιμη τροφή» από κάποιον που αφιέρωσε χρόνο (πιθανόν και χρήμα) για να καταγράψει αυτά τα στατιστικά που λες. Το ότι εσύ νομίζεις πως δεν είναι παράνομο δεν σημαίνει ότι δεν είναι κιόλας. 

Επεξ/σία από rafinos
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημοσ. (επεξεργασμένο)
On 13/09/2023 at 08:51, fakas said:

Καλημέρα,

Εδώ και καιρό σκέφτομαι να φτιάξω (βασικά, να προσπαθήσω να φτιάξω) ένα bot το οποίο θα συλλέγει πληροφορίες από συγκεκριμένα αθλητικά σαιτ. Υπάρχουν αρκετά βίντεο σε youtube, αλλά η αλήθεια είναι οτι μέσα σε 10-30λεπτά δεν σου παρέχεται η γνώση ή ο "μπούσουλας" για να ξεκινήσεις . Γνωρίζει κάποιος κάποιο online tutorial, κάποιο channel, ή κάποιο course πχ apo udemy, coursera κτλ που θα βοηθούσαν για να ξεκινήσω ή έστω να προσπαθήσω;

Αυτό που ζητάς λέγεται web crawling ή web scraping. Ένα από τα πιο γνωστά εργαλεία για web scraping είναι ένα Python package, το Beautiful Soup. Μια απλή αναζήτηση θα σου βγάλει αμέτρηρα tutorials και βίντεο. Ακόμα και στο chatGPT να το γράψεις, θα σου δώσει ένα απλό παράδειγμα για να ξεκινήσεις και μετά το προχωράς εσύ όπως θες.

4 hours ago, rafinos said:

Φυσικά και είναι παράνομο αν δεν στο επιτρέπει το ίδιο το site. Αν σου παρέχει api (δωρεάν) το site τότε είναι κομπλέ. Σκέψου ότι όσο εσύ θα κάνεις συλλογή των δεδομένων που λες και θα καλείς ξανά και ξανά κάποια σελίδα του site θα ξοδεύεις πόρους από τον σέρβερ και θα παίρνεις «έτοιμη τροφή» από κάποιον που αφιέρωσε χρόνο (πιθανόν και χρήμα) για να καταγράψει αυτά τα στατιστικά που λες. Το ότι εσύ νομίζεις πως δεν είναι παράνομο δεν σημαίνει ότι δεν είναι κιόλας. 

Εφόσον μιλάμε για ανοιχτό και δημόσιο site, τότε προφανώς και ΔΕΝ είναι παράνομο. Παράνομο ή με συγκεκριμένους περιορισμούς θα είναι αν συλλέγεις δεδομένα από κλειστές σελίδες που απαιτείται συνδρομή και authentication.

Επεξ/σία από galil
  • Like 1
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Πληρωσε εναν provider, σχετικα τζαμπα ειναι και θα εχεις 100000% καλυτερα δεδομενα, απο το να τα τραβας στο τζαμπε.

3 λεπτά πριν, galil είπε

Εφόσον μιλάμε για ανοιχτό και δημόσιο site, τότε προφανώς και ΔΕΝ είναι παράνομο

παρανομο ειναι, δεν υπαρχει ουτε ενα σαιτ στο τζογο που να σου επιτρεπει την συλλογη δεδομενων. Βεβαια ΔΕΝ ΘΑ ΑΣΧΟΛΗΘΕΙ ΚΑΝΕΙΣ ΜΕ ΣΕΝΑ, αλλα και παλι, πληρωσε να κανεις τα πειραματα σου.

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

44 λεπτά πριν, galil είπε

Αυτό που ζητάς λέγεται web crawling ή web scraping. Ένα από τα πιο γνωστά εργαλεία για web scraping είναι ένα Python package, το Beautiful Soup. Μια απλή αναζήτηση θα σου βγάλει αμέτρηρα tutorials και βίντεο. Ακόμα και στο chatGPT να το γράψεις, θα σου δώσει ένα απλό παράδειγμα για να ξεκινήσεις και μετά το προχωράς εσύ όπως θες.

Εφόσον μιλάμε για ανοιχτό και δημόσιο site, τότε προφανώς και ΔΕΝ είναι παράνομο. Παράνομο ή με συγκεκριμένους περιορισμούς θα είναι αν συλλέγεις δεδομένα από κλειστές σελίδες που απαιτείται συνδρομή και authentication.

Όλα τα site δημόσια είναι και ναι είναι παράνομο! Μην λέτε ότι σας κατέβει.

Θα σου δώσω ένα παράδειγμα:
Έστω ότι ένα site δεν παρέχει rss feed και αυτό το site λέγεται insomnia. Δηλαδή αν εγώ τραβήξω με έναν scrapper τα reviews του insomnia (ακόμα και με λινκ για το αρχικό άρθρο) επειδή αυτά είναι δημόσια δεν μπορεί να μου κάνει τίποτα το insomnia;

Παιδιά το «δωρεάν» περιεχόμενο στο internet δεν σημαίνει ότι είναι και «δικό» μας...

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

25 minutes ago, rafinos said:

Όλα τα site δημόσια είναι και ναι είναι παράνομο! Μην λέτε ότι σας κατέβει.

Θα σου δώσω ένα παράδειγμα:
Έστω ότι ένα site δεν παρέχει rss feed και αυτό το site λέγεται insomnia. Δηλαδή αν εγώ τραβήξω με έναν scrapper τα reviews του insomnia (ακόμα και με λινκ για το αρχικό άρθρο) επειδή αυτά είναι δημόσια δεν μπορεί να μου κάνει τίποτα το insomnia;

Παιδιά το «δωρεάν» περιεχόμενο στο internet δεν σημαίνει ότι είναι και «δικό» μας...

Μια απλή αναζήτηση στο google αρκεί για να δούμε οτι δεν λέμε οτι μας κατέβει: 
https://blog.apify.com/is-web-scraping-legal/ 

https://techcrunch.com/2022/04/18/web-scraping-legal-court/?guccounter=1

https://research.aimultiple.com/web-scraping-ethics/

Δεν είναι όλα τα site δημόσια. Το insomnia, για παράδειγμα, έχει εγγεγραμμένους χρήστες που μπορεί να αναφέρουν προσωπικά στοιχεία. Γι' αυτό και το παράδειγμα σου δεν έχει καμία σχέση με αυτό που ρωτάει ο φίλος. 

Ο φίλος θέλει στατιστικά αγώνων ποδοσφαίρου. Θες να μας πεις οτι είναι παράνομο να κάνει crawling στη σελίδα της uefa ή της premier league για να πάρει το αποτέλεσμα του Άστον Βίλα - Τότεναμ ή πόσα σουτ έκανε στον αγώνα ο Χάαλαντ;

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

3 ώρες πριν, galil είπε

Ο φίλος θέλει στατιστικά αγώνων ποδοσφαίρου. Θες να μας πεις οτι είναι παράνομο να κάνει crawling στη σελίδα της uefa ή της premier league για να πάρει το αποτέλεσμα του Άστον Βίλα - Τότεναμ ή πόσα σουτ έκανε στον αγώνα ο Χάαλαντ;

Ακριβώς αυτό θέλω να κάνω φίλε μου κ αυτό ρωτάω αν μπορεί να γίνει από ένα bot αυτοματοποιημένα. 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημοσ. (επεξεργασμένο)
4 hours ago, fakas said:

Ακριβώς αυτό θέλω να κάνω φίλε μου κ αυτό ρωτάω αν μπορεί να γίνει από ένα bot αυτοματοποιημένα. 

Αναλόγως τι χρειάζεσαι όλα γινονται....μπορεί να βρεις μέχρι και δωρεαν Site με API Που τα τραβας όμορφα και ωραία ...ή πιο δύσκολα μεσω Web scraping

Κάτι ανάλογο έχω κάνει και εγώ (αντε να δούμε πότε θα το ξαναπιάσω αυτό το σπορ)

Όσον αφορά το "παράνομο" , εφόσον δεν εμπορεύεται αυτή την πληροφορία τότε δεν υπάρχει διαφορά απο το browsing.

Επεξ/σία από masteripper
  • Like 2
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

24 λεπτά πριν, masteripper είπε

Αναλόγως τι χρειάζεσαι όλα γινονται....μπορεί να βρεις μέχρι και δωρεαν Site με API Που τα τραβας όμορφα και ωραία ...ή πιο δύσκολα μεσω Web scraping

Κάτι ανάλογο έχω κάνει και εγώ (αντε να δούμε πότε θα το ξαναπιάσω αυτό το σπορ)

Όσον αφορά το "παράνομο" , εφόσον δεν εμπορεύεται αυτή την πληροφορία τότε δεν υπάρχει διαφορά απο το browsing.

Επειδή ο χειμώνας θα είναι μακρύς, θα ήθελα να δοκιμάσω τον δύσκολο δρόμο με το web scraping και για τις γνώσεις, αλλά και για την ψυχολογική "ντόπα" αν τελικά βγει κάποιο αποτέλεσμα. Όπως όμως είπε κ ο φίλος πιό πάνω πως μια απλή αναζήτηση θα βγάλει αμέτρητα βίντεο και tutorials, θα εκτιμούσα αν μου προτείνατε μία πηγή αξιόλογη που θα βοηθούσε πραγματικά κάποιον αρχάριο όπως εμένα. Ευχαριστώ εκ των προτέρων.

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Το αν επιτρέπεται το scraping μια σελίδας κανονικά πρέπει να αναφέρεται στο robots.txt και όχι δεν είναι το ίδιο με το browsing. Πάντως δεν σε αποτρέπω από το να κάνεις αυτό που θέλεις. Δεν νομίζω ότι θα ασχοληθούν μαζί σου έτσι και αλλιώς, γιατί πιθανότατα δεν θα κάνεις εκατομμύρια calls... Οκ. Αλλά το θέμα είναι ότι υπάρχει μεγάλη άγνοια για το τι επιτρέπεται και τι όχι στο ίντερνετ. Επίσης καμιά φορά δεν είναι πολύ ευδιάκριτο τι εννοούμε με το «προσωπικά δεδομένα» τα οποία και απαγορεύεται να κάνουμε "scrapping". Όπως επίσης, υπάρχουν και κανόνες copyright-copyleft και πολλά άλλα. 

  • Like 1
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

9 ώρες πριν, fakas είπε

Επειδή ο χειμώνας θα είναι μακρύς, θα ήθελα να δοκιμάσω τον δύσκολο δρόμο με το web scraping και για τις γνώσεις, αλλά και για την ψυχολογική "ντόπα" αν τελικά βγει κάποιο αποτέλεσμα. Όπως όμως είπε κ ο φίλος πιό πάνω πως μια απλή αναζήτηση θα βγάλει αμέτρητα βίντεο και tutorials, θα εκτιμούσα αν μου προτείνατε μία πηγή αξιόλογη που θα βοηθούσε πραγματικά κάποιον αρχάριο όπως εμένα. Ευχαριστώ εκ των προτέρων.

H πιο σωστή απάντηση σου την έδωσε ο @galil στο πρώτο του μήνυμα αν θες να ξεκινήσεις από το μηδέν δοκιμάζοντας ταυτόχρονα. 
1. Beautiful Soup (δεν θα σε καλύψει παντού αλλά για αυτό που θες λογικά είναι αρκετό)
2. Chat GPT , θα ρωτάς σαν μικρό "παιδί" για να σε καθοδηγήσει βήμα βήμα , συνδυαστικά με ένα Basic tutorial (στο οποίο να σου εξηγεί και πως κάνεις Install python /βιβλιοθήκες κλπ), που να χρησιμοποιεί Beautiful Soup, για να καταλάβεις τι χρειάζεται να πάρεις ακριβώς από το inspect, και με δοκιμές αν έχεις έστω μικρή άποψη / επαφή με προγραμματισμό το πολύ σε 5-7 μέρες θα έχεις το πρώτο workable script. Αν δεν έχεις ιδέα , το καλύτερο είναι να πληρώσεις API ή να δοκιμάσεις με τα δωρεάν API που υπάρχουν και με έτοιμα tools να κάνεις αυτό που θες. 
( σχετικά με το ChatGPT, έχουν βάλει ελέγχους για scrappers / crawlers / log in bots, οπότε αν ξεκινήσεις με την λογική "φτιάξτο μου" θα φας πόρτα, αν ξεκινήσεις για "εκπαιδευτικούς" σκοπούς από ένα σημείο και μετά θα σου δίνει τους κώδικες κανονικά για να παίζεις, και μπορείς να κάνεις το debugging μέσω chatGPT ). 

@rafinos Γενικά το scrapping ΔΕΝ είναι παράνομο,  η ίδια η πράξη δεν είναι παράνομη ο τρόπος χρήσης των δεδομένων μπορεί να γίνει παράνομος, συνήθως είναι απλά ενάντια στους όρους χρήσης που έχει το εκάστοτε site για την αναπαραγωγή πληροφοριών που υπάρχουν σε αυτό (εφόσον το αναφέρει) και το εκάστοτε site μπορεί να κινηθεί νομικά. Είναι grey zone και εξαρτάται με τους σκοπούς που έχεις μέσα από αυτό. Φυσικά τα περισσότερα site που δεν θέλουν δια ροπάλου το scrapping, κάνουν και τις αντίστοιχες ενέργειες για να "σπάνε" κάθε τόσο τα script του καθενώς.

Επίσης φτάνει μία γραπτή αναφορά από email για να είσαι νομικά καλυμμένος (την οποία δεν υπάρχει περίπτωση να την πάρει από τα site που θέλει ο TS) αλλά υπάρχουν περιπτώσεις ΠΟΛΛΕΣ, όπου επειδή το site δεν μπορεί να παρέχει σε πελάτες / συνεργάτες τα δεδομένα όπως πρέπει (API, RSS, XML, JSON, CSV, XLS ή οτιδήποτε άλλο), αλλά δεν θέλει να σε χάσει και από πελάτη / συνεργάτη , η αναφορά "Τα πάντα υπάρχουν στο site μου, πάρτα από εκεί όπως θες" ή κάτι αντίστοιχο σε καλύπτει. 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

@Billator ευχαριστώ πολύ για τις συμβουλές. Έχω κάποιες βάσεις στον προγραμματισμό, θα ξεκινήσω κι ό,τι γίνει.. Κι όπως είπες, αν τα βρω σκούρα, θα πληρώσω για ΑΡΙ ή θα δοκιμάσω τα δωρεάν. Ευχαριστώ

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα
  • Δημιουργία νέου...