Προς το περιεχόμενο

Extract data from a site?????


sculper

Προτεινόμενες αναρτήσεις

Καλησπέρα σε όλους,

Χρόνια πολλά για την ημέρα.

Θα ήθελα την βοήθειά σας σε κάτι ....δεν ξέρω αν είναι το σωστό section για το συγκεκριμένο post.

Θα ήθελα από 2 site να κάνω extract τα δεδομένα. Πιο συγκεκριμένα:

  1. https://www.healthatlas.gov.gr/HealthCare/#!/ και

  2. http://www.dsa.gr/%CE%B1%CE%BD%CE%B1%CE%B6%CE%AE%CF%84%CE%B7%CF%83%CE%B7-%CE%BC%CE%B5%CE%BB%CF%8E%CE%BD

 

όπως βλέπετε και τα δύο είναι open και public αλλά δεν ξέρω πως να τα κάνω extract....για να έχω τα δεδομένα offline

Προσπάθησα με το https://import.io/login αλλά μάλλον δεν το σετάρω καλά.

 

Αν μπορεί κάποιος ας μου δώσει λύση ή το excel.

Σας ευχαριστώ όπως και αν έχει.

 

 

Καλό υπόλοιπο καλοκαιριού!

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

  • Απαντ. 46
  • Δημ.
  • Τελ. απάντηση

Συχνή συμμετοχή στο θέμα

Συχνή συμμετοχή στο θέμα

Δημοσ. (επεξεργασμένο)

Δεν νομίζω να υπάρχει εύκολος τρόπος να κάνεις αυτό που θέλεις εαν δεν είσαι προγραμματιστής

 

Γιατί δεν έχεις πρόσβαση στο περιεχόμενο της βάσης δεδομένων..  (όπως έχεις για παράδειγμα σε ένα e-shop που σου δείχνει όλα τα αποτελέσματα ανά κατηγορία) 

 

Πρέπει να συμπληρώσεις στοιχεία τα διαβάζει μετά ο server και εσωτερικά (serverside/backend)  αναζητεί αν υπάρχουν αυτά και αντιστοιχούν σε κάποιο κλειδί και μετά σου παρουσιάζει το μοναδικό στοιχείο που ανταποκρίνεται σε αυτό το κλειδί. 

 

Με άλλα λόγια πρέπει να κάνεις ένα API ή πρόγραμμα που θα συμπληρώνει τα στοιχεία που θες παράγοντας μεθοδικά τιμές υπό την λογική brute force (πχ Α, ΑΒ ΑΒΓ......................Γιαννηρ... Γιαννησ... κτλ κτλ κτλ ) 

ή απο μια λίστα που ίσως ήδη έχεις (πχ με όλα τα ονόματα των ενεργών δικηγόρων ή τουλάχιστον μια λίστα με όλα ή πάρα πολλά ελληνικά ονοματα -γενικά- και επώνυμα ) 

 

και όταν βγαίνει αποτέλεσμα θα σου το αποθηκεύει σε μια βάση δεδομένων δική σου. 

 

Βέβαια αυτή η αύξηση στην κίνηση και η αύξηση χρήσης επεξεργαστικής ισχύς του server δεν θα περάσει απαρατήρητη και μπορεί να σε μπλοκάρουν ή και να κρεμάσει το site. 

Επίσης θα είναι ΠΟΛΥ χρονοβόρα διαδικασία μιλάμε δηλαδή για κάτι που θα κρατήσει άνετα για βδομάδες έως ότου τελειώσει. 

Αυτό για τον τηλεφωνικό κατάλογο το άλλο με τις κατηγορίες είναι πιο εύκολο γιατί απλά χρειάζεται να επιλέξεις μια μια τις κατηγορίες και να αποθηκεύσεις τα αποτελέσματα στην βάση δεδομένων σου..

 

όλα αυτά εύκολα αν ξέρεις να γράφεις κώδικα φυσικά. 

 

Κάτι που ίσως μπορείς να κάνεις ειναι να πας σε ένα site τύπου Fiverr (https://www.fiverr.com - αν και νομίζω θα χρειαστεί να δώσεις τουλάχιστον κάνα 20άρι 40άρι αν εισαι κωλόφαρδος και βρεις κάνα φοιτητή σε ανάγκη αλλά ποτέ δεν ξέρεις)  και να ζητήσεις κάποιον με προγραμματιστικές γνώσεις να κάνει την δουλειά για εσένα με το προσυμφωνημένο αντάλλαγμα. 

 

Ένα άλλο που μπορείς να προσπαθήσεις ειναι να πάρεις τηλέφωνο τους υπεύθυνους και να ζητήσεις να σου στείλουν τα δεδομένα οι ίδιοι. 

Επεξ/σία από TopicStrarter
  • Like 1
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημοσ. (επεξεργασμένο)
15 ώρες πριν, TopicStrarter είπε

Με άλλα λόγια πρέπει να κάνεις ένα API ή πρόγραμμα που θα συμπληρώνει τα στοιχεία που θες παράγοντας μεθοδικά τιμές υπό την λογική brute force (πχ Α, ΑΒ ΑΒΓ......................Γιαννηρ... Γιαννησ... κτλ κτλ κτλ ) 

Αφου δεν εχεις ιδεα πως γινεται, γιατι μπερδευεις κι αλλο τον ανθρωπο;

@sculper αυτο που χρειαζεσαι ειναι ενας scraper τον οποιο τον οποιο τον καθοδηγεις εσυ τι δεδομενα θελεις να τραβηξει. Υπαρχουν πολλες εφαρμογες π.χ. αυτη εκει εξω που με λιγο διαβασμα αν δεν ειναι πολυπλοκο το site που θελεις να σκραπαρεις δεν θα σου παρει πολυ χρονο. Οσο για τα ο ονοματα που χρειαζεται να συμπληρωσεις στο dsa σε αφηνει μεχρι 3 χαρακτηρες μινιμουμ οποτε φτιαχνεις ενα dictionary  του αλφαβητου με 3 γραμματα, πχ αβγ, αγγ, αδγ κου ουτω καθεξης και φτιαχνεις τον scraper να τραβηξει δεδομενα μονο αν φερει αποτελεσματα. Αν δεν φερει αποτελεσματα πας στο επομενο σετ των 3 χαρακτηρων. Μπορεις να ρυθμισεις τον scraper να κανει παυση αναμεσα στις αναζητησεις ωστε να μην θεωρηθεις υποπτος.

Απο εκει και υστερα, τα δεδομενα που θα κανεις extract θα πρεπει να τα αξιοποιησεις καταλληλως, δηλαδη για να πετυχεις 100% offline αν το αρχικο site τραβαει απο καποια βαση δεδομενων τις πληροφοριες  τοτε θα πρεπει να στησεις κατι δικο σου με αυτα τα δεδομενα που μολις απεσπασες.

προσεχε τι κανεις ομως γιατι αναφερεται ρητα στο δευτερο site που αναφερεις οτι:

Αναφορά σε κείμενο

Εκτός των ρητά αναφερόμενων εξαιρέσεων (πνευματικά δικαιώματα τρίτων, συνεργατών και φορέων), όλο το περιεχόμενο του Δικτυακού τόπου www.dsa.gr, συμπεριλαμβανομένων εικόνων, γραφικών, φωτογραφιών, σχεδίων, κειμένων, των παρεχομένων υπηρεσιών και γενικά όλων των αρχείων αυτού του δικτυακού τόπου, αποτελούν πνευματική ιδιοκτησία, κατατεθειμένα σήματα και σήματα υπηρεσιών του δικτυακού τόπου www.dsa.gr και προστατεύονται κατά τις σχετικές διατάξεις του ελληνικού δικαίου, του ευρωπαϊκού δικαίου και των διεθνών συμβάσεων. Συνεπώς, κανένα εξ αυτών δε δύναται να αποτελέσει εν όλω ή εν μέρει αντικείμενο πώλησης, αντιγραφής, τροποποίησης, αναπαραγωγής, αναδημοσίευσης ή να "φορτωθεί", να μεταδοθεί ή να διανεμηθεί με οποιονδήποτε τρόπο.

 

Επεξ/σία από Predatorkill
  • Like 2
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

  • Super Moderators
17 hours ago, sculper said:

Καλησπέρα σε όλους,

Χρόνια πολλά για την ημέρα.

Θα ήθελα την βοήθειά σας σε κάτι ....δεν ξέρω αν είναι το σωστό section για το συγκεκριμένο post.

Θα ήθελα από 2 site να κάνω extract τα δεδομένα. Πιο συγκεκριμένα:

  1. https://www.healthatlas.gov.gr/HealthCare/#!/ και
  2. http://www.dsa.gr/%CE%B1%CE%BD%CE%B1%CE%B6%CE%AE%CF%84%CE%B7%CF%83%CE%B7-%CE%BC%CE%B5%CE%BB%CF%8E%CE%BD

 

όπως βλέπετε και τα δύο είναι open και public αλλά δεν ξέρω πως να τα κάνω extract....για να έχω τα δεδομένα offline

Προσπάθησα με το https://import.io/login αλλά μάλλον δεν το σετάρω καλά.

 

Αν μπορεί κάποιος ας μου δώσει λύση ή το excel.Σας ευχαριστώ όπως και αν έχει.

Καλό υπόλοιπο καλοκαιριού!

 

Θέλεις να πάρεις προσωπικά δεδομένα τρίτων, χωρίς την ρητή άδεια και συναίνεσή τους; Έχεις διασφαλίσει τη νομιμότητα της ενέργειάς σου - είσαι δηλαδή σίγουρος ότι επιτρέπεται να κάνεις αυτό που θέλεις να κάνεις; Γιατί αν ήμουν είτε το Υπουργείο Υγείας είτε ο ΔΣΑ και έβλεπα τέτοια κίνηση, θα έτρεχες και δεν θα έφτανες.

  • Like 3
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δεν τα ξέρω καλά αυτά, αλλά από τη στιγμή που είναι δημόσια δεν μπορεί κάποιος να τα πάρει, έστω να τα εκτυπώσει ή να τραβήξει φωτογραφίες; Ή το πρόβλημα είναι ότι με τον τρόπο που γράφτηκε θα δουν ασυνήθιστη δραστηριότητα στο site και θα τον κυνηγήσουν;

Κάτι σαν κατάλογοι δεν είναι αυτά; Μήπως κυκλοφορούν και σε έντυπο;

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

  • Super Moderators
33 minutes ago, zio10 said:

Δεν τα ξέρω καλά αυτά, αλλά από τη στιγμή που είναι δημόσια δεν μπορεί κάποιος να τα πάρει, έστω να τα εκτυπώσει ή να τραβήξει φωτογραφίες; Ή το πρόβλημα είναι ότι με τον τρόπο που γράφτηκε θα δουν ασυνήθιστη δραστηριότητα στο site και θα τον κυνηγήσουν;

Κάτι σαν κατάλογοι δεν είναι αυτά; Μήπως κυκλοφορούν και σε έντυπο;

Όχι 

  • Thanks 1
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

41 λεπτά πριν, zio10 είπε

Κάτι σαν κατάλογοι δεν είναι αυτά; Μήπως κυκλοφορούν και σε έντυπο;

Αν ψάχνεις απλά λίστες με ονόματα δικηγόρων για την περιοχή της Αθήνας υπάρχουν κ σε άλλα sites, π.χ. www.xo.gr
Καλύτερα να μην κάνεις τίποτα με το site του δικηγορικού συλλόγου γιατί όπως είπε κ ο @paredwse θα μπλέξεις άσχημα.

 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

3 λεπτά πριν, dpolal είπε

Αν ψάχνεις απλά λίστες με ονόματα δικηγόρων για την περιοχή της Αθήνας υπάρχουν κ σε άλλα sites, π.χ. www.xo.gr
Καλύτερα να μην κάνεις τίποτα με το site του δικηγορικού συλλόγου γιατί όπως είπε κ ο @paredwse θα μπλέξεις άσχημα.

Εγώ δεν έχω σκοπό να κάνω τίποτα, άλλος ρώτησε.  :) Απλά λέω ότι για προσωπική χρήση κάποιος μπορεί να τα αντιγράψει και στην πράξη να μη γίνει τίποτα. Τώρα τι σκοπό έχει ο ts δεν ξέρω.

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημοσ. (επεξεργασμένο)
2 ώρες πριν, paredwse είπε

Θέλεις να πάρεις προσωπικά δεδομένα τρίτων, χωρίς την ρητή άδεια και συναίνεσή τους; Έχεις διασφαλίσει τη νομιμότητα της ενέργειάς σου - είσαι δηλαδή σίγουρος ότι επιτρέπεται να κάνεις αυτό που θέλεις να κάνεις; Γιατί αν ήμουν είτε το Υπουργείο Υγείας είτε ο ΔΣΑ και έβλεπα τέτοια κίνηση, θα έτρεχες και δεν θα έφτανες.

Χωρίς να λέω ότι είναι όντως έτσι, 

δε θα ήταν το λογικό Επαγγλεματικά Στοιχεία (πχ ονομα επιχείρησης, δνση, τηέφωνο) να μην καλύπτονται από τους ίδιους όρους που ισχύουν για προσωπικά στοιχεία?

Άλλωστε και "φιλοσοφικά" να το πάρει κανείς, είναι ο επαγγλεματίας/επιτηδευυματίας/ιδιοκτήτης κλπ που προσφέρει τον εαυτό του στην αγορά για εμπορική συναλλαγή πράγμα.

Ξαναλέω, εντελώς "θεωρητικά", αν βγαλει κανείς το στοιχείο του πιθανού κέρδους μπου μπορεί να έχει κάποιος άλλος από αυτό, όπως το βλέπω εγώ τουλάχιστον δε θα έπρεπε να υπάρχει τέτοιος περιορισμός.

PS

πως και ο ΔΣ έχει ακόμα ανοικτά τέτοια λίστα?

Το ΤΕΕ που μέχρι πρόσφατα είναι ανοικτά αναζήτηση στοιχείων μελών του (έβγαζε στοιχεία όπως, αρ. μητρώου, δνση, ΑΕΙ και λίγα ακόμα) νομίζω το περιορισε μόνο στο όνομα (γιατί αυτό να επιτρέπεται αλήθεια?)

Επεξ/σία από DrLo
  • Like 1
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

16 λεπτά πριν, zio10 είπε

Εγώ δεν έχω σκοπό να κάνω τίποτα, άλλος ρώτησε.  :) Απλά λέω ότι για προσωπική χρήση κάποιος μπορεί να τα αντιγράψει και στην πράξη να μη γίνει τίποτα. Τώρα τι σκοπό έχει ο ts δεν ξέρω.

Σόρρυ, μπερδεύτηκα. :)

14 λεπτά πριν, DrLo είπε

Χωρίς να λέω ότι είναι όντως έτσι, 

δε θα ήταν το λογικό Επαγγλεματικά Στοιχεία (πχ ονομα επιχείρησης, δνση, τηέφωνο) να μην καλύπτονται από τους ίδιους όρους που ισχύουν για προσωπικά στοιχεία?

Άλλωστε και "φιλοσοφικά" να το πάρει κανείς, είναι ο επαγγλεματίας/επιτηδευυματίας/ιδιοκτήτης κλπ που προσφέρει τον εαυτό του στην αγορά για εμπορική συναλλαγή πράγμα.

Ξαναλέω, εντελώς "θεωρητικά", αν βγαλει κανείς το στοιχείο του πιθανού κέρδους μπου μπορεί να έχει κάποιος άλλος από αυτό, όπως το βλέπω εγώ τουλάχιστον δε θα έπρεπε να υπάρχει τέτοιος περιορισμός.

PS

πως και ο ΔΣ έχει ακόμα ανοικτά τέτοια λίστα?

Το ΤΕΕ που μέχρι πρόσφατα είναι ανοικτά αναζήτηση στοιχείων μελών του (έβγαζε στοιχεία όπως, αρ. μητρώου, δνση, ΑΕΙ και λίγα ακόμα) νομίζω το περιορισε μόνο στο όνομα (γιατί αυτό να επιτρέπεται αλήθεια?)

Σύμφωνα με τον νέο κανονισμό DPO επιτρέπονται τα γενικά στοιχεία που δεν μπορούν να σε ταυτοποιήσουν 100% σαν άτομο.

Π.Χ. επιτρέπεται το: Δικηγορικό γραφείο Παπαδόπουλου Δ.  οδό Τρεχαγύρευε 20, τηλ. 212102010101
Αλλά όχι το: Δικηγορικό γραφείο Παπαδόπουλου Δ,  οδός Τρεχαγύρευε 20,  τηλ. 212102010101, ΑΦΜ: xxxxxxxxx, ΑΜ:xxxxxxxx κλπ. κλπ.

 

  • Like 1
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημοσ. (επεξεργασμένο)
15 λεπτά πριν, dpolal είπε

Σόρρυ, μπερδεύτηκα. :)

Σύμφωνα με τον νέο κανονισμό DPO επιτρέπονται τα γενικά στοιχεία που δεν μπορούν να σε ταυτοποιήσουν 100% σαν άτομο.

Π.Χ. επιτρέπεται το: Δικηγορικό γραφείο Παπαδόπουλου Δ.  οδό Τρεχαγύρευε 20, τηλ. 212102010101
Αλλά όχι το: Δικηγορικό γραφείο Παπαδόπουλου Δ,  οδός Τρεχαγύρευε 20,  τηλ. 212102010101, ΑΦΜ: xxxxxxxxx, ΑΜ:xxxxxxxx κλπ. κλπ.

Δηλαδή τις πληροφορίες που φαίνονται στο site του ΔΣΑ επιτρέπεται να τις έχει κάποιος?

Επεξ/σία από DrLo
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημοσ. (επεξεργασμένο)
1 ώρα πριν, DrLo είπε

Δηλαδή τις πληροφορίες που φαίνονται στο site του ΔΣΑ επιτρέπεται να τις έχει κάποιος?

Αν αναφέρεσαι στην λίστα μελών του site μόνο όνομα/διεύθυνση/τηλέφωνο αναφέρει.
Αυτό το βρίσκεις και στον xo.gr, δεν απαγορεύεται, εκτός και αν ζητηθεί από τον ίδιο τον δικηγόρο να αφαιρεθούν τα στοιχεία του.
 

Επεξ/σία από dpolal
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

5 λεπτά πριν, dpolal είπε

Αν αναφέρεσαι στην λίστα μελών του site μόνο όνομα/διεύθυνση/τηλέφωνο αναφέρει.
Αυτό το βρίσκεις και στον xo.gr, δεν απαγορεύεται, εκτός και αν ζητηθεί από τον ίδιο τον δικηγόρο να αφαιρεθούν τα στοιχεία του.
 

Ναι αλλά στο xo πας εσύ και ζητάς να βάλεις τα στοιχεία σου (και μάλλον πληρώνεις γι αυτό). Δε τα "μαζευει" μόνος του ο ΧΟ.

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημοσ. (επεξεργασμένο)

Σε «έχασα» τώρα. :)
Στο ΧΟ τα καταχωρεί προφανώς ο κάθε επαγγελματίας σαν διαφήμιση, αντίθετα στο ΔΣΑ εγγράφωνται αναγκαστικά όλοι οι δικηγόροι.
Όπως γίνεται π.χ. και με το Επεγγελματικό Επιμελητήριο.

Ποιό είναι το point σου ;;;

Επεξ/σία από dpolal
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημοσ. (επεξεργασμένο)

Αν έχεις GNU/Linux μπορείς από κοσνόλα, σχετικά εύκολα (μέσω brute force), να τραβήξεις δεδομένα. Π.χ. για τον ΔΣΑ το παρακάτω τραβά όλα τα μέλη στην Αθήνα (8227 αποτελέσματα).

 

for PAGE in `seq 0 822`; do w3m -dump "http://www.dsa.gr/%CE%B1%CE%BD%CE%B1%CE%B6%CE%AE%CF%84%CE%B7%CF%83%CE%B7-%CE%BC%CE%AD%CE%BB%CE%BF%CF%85%CF%82?page=$PAGE&field_profile_surname_value=&field_profile_address_value=%CE%91%CE%B8%CE%AE%CE%BD%CE%B1&field_profile_phone_value=" |awk '/profile/{flag=1; next} /•/{flag=0} flag'; done

 

Επεξ/σία από firewalker
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα

  • Δημιουργία νέου...