mercoledì 3 luglio 2013

Regex per numeri telefonici in python

Qualche giorno fa mi sono imbattuto in un problema abbastanza comune quando si lavora con python e i "regex". Prima di tutto: cos'e' un regex? Regex sta per regular expression e serve ad individuare uno specifico pattern nel testo (cifre, indirizzo email, codice postale). Per una lettura approfondita vi rimando a wikipedia.
Il mio problema era molto semplice: data la descrizione di un annuncio per proprieta' mobiliari, dovevo creare un regex in python per eliminare i numeri telefonici dalla descrizione.
Ecco qui la soluzione:

re.sub(r'(\d\.?\s*){8,}', '------', content )

Breve spiegazione: il metodo sub della libreria re sostituisce tutte le occorrenze di una stringa con un altra stringa all'interno di un testo.La stringa "\d" identifica una qualsiasi cifra decimale; il ? ci dice che l'espressione precedente puo' apparire 0 o 1 volte (in questo caso l'espressione precedente e' un punto); la stringa"\s" identifica un qualsiasi whitespace, cioe' un semplice spazio, e l'asterisco indica che l'espressione precedente puo' essere ripetuta n volte; infine {8,} ci dice che il nostro regex dovra' trovare la struttura precedentemente specificata almeno 8 volte (cioe' il codice definito tra parentesi tonde).
Riassumendo il nostro regex "matchera'" tutte quelle stringhe che contengono una cifra da 0 a 9 seguita o non seguita da un punto e seguita da 0 o piu' spazi bianchi. Il tutto ripetuto per 8 volte. Quindi il nostro regex trovera' un numero telefonico del tipo "07592345678" oppure "02.45.67.78" ma non sostituira' una stringa del tipo "10.000" che potrebbe essere un importo.

Per ulteriori informazioni vi rimando alla documentazione ufficiale di python per le espressioni regolari.

Nessun commento:

Posta un commento