Rendere ricercabile il XXI secolo.
da: http://blog.ondata.it/rendere-ricercabile-il-xxi-secolo/
Uno degli ultimi post del blog di Internet Archive ha come titolo “Can You Help us Make the 19th Century Searchable?“.
In questo si sottolineano le difficoltà nel rendere ricercabili testi ad esempio del 1850, per i quali l’unico modo per farlo è utilizzare il riconoscimento ottico dei caratteri (OCR). Su testi del XIX secolo purtroppo non funziona sempre bene.
Un testo del XXI secolo nasce invece già pronto alle ricerche testuali, ma purtroppo alle volte viene trasformato in non accessibile, con diverse barriere alla sua fruizione. E avviene anche con file prodotti dalla Pubblica Amministrazione, con decreti legge, pubblicazioni in albo pretorio, verbali, ecc..
Il 4 settembre 2020 sono stati pubblicati i verbali delle riunioni del “Comitato Tecnico Scientifico (CTS) con competenza di consulenza e supporto alle attività di coordinamento per il superamento dell’emergenza epidemiologica dovuta alla diffusione del Coronavirus“: sono ad oggi 95 file in formato PDF, molti di questi sono stati pubblicati come raccolte immagini, non è possibile pertanto effettuare ricerche testuali e presentano delle barriere di accessibilità e fruizione.
Fabio Pietrosanti ha notato la cosa e li ha resi accessibili, grazie (qui i riferimenti).
Le normative vigenti (da tempo) indicano che la PA non deve pubblicare documenti in queste modalità. Ma sopratutto a nostro avviso è essenziale e propedeutico che qualsiasi documento che abbia a che fare con scelte che hanno un impatto sulla vita delle persone, non debba contenere barriere.
************************************
metodo ($ pip install pdfminer.six)
**********************************
from pdfminer.high_level import extract_text
text = extract_text('report.pdf')
text_file = open("sample.txt", "w")
n = text_file.write(text)
text_file.close()
risultato:

