banner

Notizia

Jul 09, 2023

Spiegazione del modello Borsa di parole in PNL

Il modello del sacchetto di parole è un modo particolarmente semplice per rappresentare un documento in forma numerica prima di poterlo inserire in un algoritmo di apprendimento automatico. Per qualsiasi attività di elaborazione del linguaggio naturale, abbiamo bisogno di un modo per raggiungere questo obiettivo prima di qualsiasi ulteriore elaborazione. Gli algoritmi di apprendimento automatico non possono operare su testo grezzo; dobbiamo convertire il testo in una sorta di rappresentazione numerica. Questo processo è noto anche come incorporamento del testo.

Esistono due approcci fondamentali per incorporare un testo: vettori di parole e vettori di documento. Con i vettori di parole, rappresentiamo ogni singola parola nel testo come un vettore (cioè una sequenza di numeri). Quindi convertiamo l'intero documento in una sequenza di questi vettori di parole. I vettori del documento, invece, incorporano l'intero documento come un unico vettore. Questo in realtà è molto più semplice che incorporare ogni parola individualmente. Consente inoltre di incorporare tutti i nostri documenti con la stessa dimensione, il che è conveniente poiché molti algoritmi di apprendimento automatico richiedono un input di dimensione fissa.

Il modello del sacchetto di parole è un modo semplice per convertire le parole in rappresentazioni numeriche nell'elaborazione del linguaggio naturale. Questo modello è una semplice tecnica di incorporamento dei documenti basata sulla frequenza delle parole. Concettualmente, pensiamo all’intero documento come a un “sacchetto” di parole, piuttosto che a una sequenza. Rappresentiamo il documento semplicemente tramite la frequenza di ogni parola. Usando questa tecnica, possiamo incorporare un intero set di documenti e inserirli in una varietà di diversi algoritmi di apprendimento automatico.

Il modello del sacchetto di parole è una semplice tecnica di incorporamento dei documenti basata sulla frequenza delle parole. Concettualmente, pensiamo all’intero documento come a un “sacchetto” di parole, piuttosto che a una sequenza. Rappresentiamo il documento semplicemente tramite la frequenza di ogni parola. Ad esempio, se abbiamo un vocabolario di 1000 parole, l'intero documento sarà rappresentato da un vettore a 1000 dimensioni, dove l'i-esima voce del vettore rappresenta la frequenza dell'i-esima parola del vocabolario nel documento.

Usando questa tecnica, possiamo incorporare un intero set di documenti e inserirli in una varietà di diversi algoritmi di apprendimento automatico. Poiché questo incorporamento è così elementare, non funziona molto bene per attività complesse. Ma funziona per semplici problemi di classificazione e la sua semplicità e facilità d'uso lo rendono una scelta interessante. Diamo un'occhiata alle specifiche.

Altro da Noah TopperFunzione di attivazione sigmoidea: un'introduzione

Come esempio giocattolo, supponiamo che i nostri documenti abbiano un piccolo vocabolario. Ad esempio, il libro del Dr. Seuss Green Eggs and Ham contiene solo cinquanta parole uniche. In ordine alfabetico, sono: a, am e, ovunque, sono, essere, barca, scatola, macchina, potrebbe, buio, fare, mangiare, uova, volpe, capra, buono, verde, prosciutto, qui, casa, io , se, dentro, lascia che io, il topo, non, su, o, piova, Sam, dica, vedi, quindi, grazie, che, loro, lì, si alleneranno, proveranno, lo faranno , con, sarebbe e tu.

Se trattiamo ogni pagina del libro come un singolo documento, possiamo incorporare ciascuna di esse come un vettore a 50 dimensioni. Consideriamo la pagina che dice:

Non li vorrei qui o là.

Non li vorrei da nessuna parte.

Non mi piacciono le uova verdi e il prosciutto.

Non mi piacciono, Sam-I-am.

Il primo passo è contare la frequenza di ciascuna parola del vocabolario. "am" appare una volta, "and" una volta, "ovunque" una volta, "do" due volte, "uova" una volta, "verde" una volta, "prosciutto" una volta, "qui" una volta, " Io” cinque volte, “come” quattro volte, “non” quattro volte, “o” una volta, “Sam” una volta, “loro” tre volte, “là” una volta e “vorrei” due volte. Ogni altra parola del vocabolario appare zero volte.

Per trasformarlo in un vettore a 50 dimensioni, impostiamo la i-esima voce uguale alla frequenza dell'i-esima parola del vocabolario. Ad esempio, "am" è la seconda parola del vocabolario e appare una volta nel documento, quindi la seconda voce sarà una. D'altra parte, "a" è la prima parola del vocabolario e non appare affatto qui, quindi la prima voce sarà zero. L'intera pagina in formato vettoriale diventa: [0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 2, 0, 1, 0, 0, 0, 1, 1, 1, 0 , 5, 0, 0, 0, 4, 0, 0, 0, 4, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 3, 1, 0, 0, 0, 0 , 0, 0, 2, 0].

CONDIVIDERE