Machine Learning - attribuire la paternità di un testo - NLP
Come potrebbe un algoritmo di machine learning imparare e riconoscere se un testo può appartenere ad un autore? Il meccanismo è lo stesso adottato per riconoscere se un messaggio contenuto in una e-mail è di Spam, che è ormai ampiamente documentato ed utilizzato, pertanto partendo da quella base, si può anche immaginare di creare un database contenente dei testi appartenenti a vari autori e poi dare in pasto un testo nuovo, al fine di far classificare all'algoritmo la paternità del testo. Ma vediamo come agire. Dato un testo, bisogna elaborarlo in modo da renderlo più facile da classificare, vediamo come procedere. Occorre fornire al computer una rappresentazione numerica del testo e per far questo vi sono tecniche del NLP (Natural Language Processing). L'approccio più semplice da utilizzare è il Bag Of Words , ossia il sacco di parole , è una tecnica che conta il numero di parole e quante volte compaiono in un testo, non considerandone l'ordine o la semantica, per esempio: