| $ aspell -l it dump master | | dump di tutto il dizionario di base | 
| aspell -l it expand | | espansione dei flag degli affissi | 
| sed "s/[^ ]*'[^ ]* *//gi" | | eliminazione delle forme elise (es. d'amore, bell'uomo, etc) | 
| tr ' ' '\n' | | per avere una parola per linea | 
| sed '/^$/d' | | eliminazione delle righe vuote | 
| sort -fu >italian.wordlist | ordinamento case insensitive, eliminazione duplicati e salvataggio in un file | 
Fate attenzione che gli autori hanno inserito una parola di 50 caratteri, la più lunga: CopyrightGianlucaTurconiDavidePrinaLicenzeLGPLoGPL. Se volete eliminarla, usate nella pipe un grep -v, ma ricordate che la licenza è la GPL!
Notate che vi sono anche molti numeri in lettere. Tolta quella di prima la parola più lunga è di 39 lettere e corrisponde ad un numero: quattromilaquattrocentocinquantaquattro.
 
No comments:
Post a Comment