Προς το περιεχόμενο

Python


epiphone6

Προτεινόμενες αναρτήσεις

Παιδιά καλησπέρα! Μια βοήθεια παρακαλώ. Είμαι νέος στο Python και θέλω να διαβάσω τα περιεχόμενα από ένα αρχείο HTML.

Έχω γράψει τον επόμενο... τεράστιο κώδικα.

import codecs                                                                                                                                                                                                                                                                                     
f = codecs.open("C:\test.hrml", 'r', 'utf-8')
data=f.read()
print(data)

 

Ωστόσο λειτουργεί αλλά μου επιστρέφει και όλα τα tags, scripts κτλ. Στη ουσία ότι έχει η σελίδα. Έχω παιδευτεί χωρίς αποτέλεσμα.

Πως μπορώ να εκτυπώσω μόνο το περιεχόμενο του boby της σελίδας; Μόνο το text.

Ευχαριστώ πολυ 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημοσ. (επεξεργασμένο)
3 ώρες πριν, epiphone6 είπε

Παιδιά καλησπέρα! Μια βοήθεια παρακαλώ. Είμαι νέος στο Python και θέλω να διαβάσω τα περιεχόμενα από ένα αρχείο HTML.

Έχω γράψει τον επόμενο... τεράστιο κώδικα.

import codecs                                                                                                                                                                                                                                                                                     
f = codecs.open("C:\test.hrml", 'r', 'utf-8')
data=f.read()
print(data)

 

Ωστόσο λειτουργεί αλλά μου επιστρέφει και όλα τα tags, scripts κτλ. Στη ουσία ότι έχει η σελίδα. Έχω παιδευτεί χωρίς αποτέλεσμα.

Πως μπορώ να εκτυπώσω μόνο το περιεχόμενο του boby της σελίδας; Μόνο το text.

Ευχαριστώ πολυ 

Έχω λίγη επαφή με python, αλλά πιστεύω ότι θέλει χρήση κάποιας βιβλιοθήκης.

Δες τη Beautiful Soup.

 

Tutorial: Web Scraping with Python Using Beautiful Soup – Dataquest

Επεξ/σία από Lanike71
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημοσ. (επεξεργασμένο)

Τρεξε το παρακατω και θα παρεις μονο ο,τι κειμενο υπαρχει στο html

def tag_visible(element):
    if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:
        return False
    if isinstance(element, Comment):
        return False
    return True

soup = BeautifulSoup(data, 'html.parser')
texts = soup.findAll(text=True)
visible_texts = filter(tag_visible, texts) 

 Αν δυσκολευτεις, στειλε μου το html αρχειο να στο τρεξω εγω

Επεξ/σία από archer100
  • Thanks 1
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Αν και δεν μας εξηγείς τι ακριβώς θες να "διαβάσεις" μια καλή βιβλιοθήκη στην Python γι'αυτήν την δουλειά είναι η,

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Ουσαστικά φορτώνεις το html και μετά με πολύ ευκολο τροόπο κάνεις extract τι ακριβώς θες.

 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα
  • Δημιουργία νέου...