-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathprova.py
37 lines (27 loc) · 1.29 KB
/
prova.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
from bs4 import BeautifulSoup
import json
def estrai_contenuto_da_html_file(percorso_file):
# Apri il file HTML e leggi il suo contenuto
with open(percorso_file, 'r', encoding='utf-8') as file:
html = file.read()
# Parsing dell'HTML con BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
# Trova tutti gli elementi con la classe "person"
elementi_person = soup.find_all('span', class_='person')
# Estrai il contenuto di ciascun elemento e salvalo in una lista
contenuti = [elemento.get_text() for elemento in elementi_person]
return contenuti
def salva_su_json(contenuti, percorso_json):
# Creazione di un dizionario con i contenuti
dati_json = {'nomi_propri': contenuti}
# Salvataggio in un file JSON locale
with open(percorso_json, 'w', encoding='utf-8') as file_json:
json.dump(dati_json, file_json, ensure_ascii=False, indent=2)
if __name__ == "__main__":
# Sostituisci questo con il percorso del tuo file HTML
percorso_file_html = 'gaiaarticolo1.html'
# Sostituisci questo con il percorso desiderato per il file JSON
percorso_json = 'nomi_propri1.json'
# Estrai il contenuto e salvalo in un file JSON
contenuti = estrai_contenuto_da_html_file(percorso_file_html)
salva_su_json(contenuti, percorso_json)