Stemming Words¶

Stemming reduz a palavra ao seu stem. O resultado é menos legível para humanos, porém torna o texto mais comparável através das observações.

Exemplo:¶

"Tradição" e "Tradicional" possuem o mesmo stem: "tradi"

In [1]:

from nltk.stem.porter import PorterStemmer

Criando Dados Textuais¶

In [9]:

tokenized_words = ['i', 'am', 'humbled', 'by', 'this', 'traditional', 'meeting']
palavras = ['my', 'name', 'is', 'gabriel', 'identifying', 'running', 'music', 'reading', 'observation']

Stemming¶

Stemming irá reduzir a palavra ao seu stem através da identificação e remoção de afixos (por exemplo gerúndio) enquanto mantém o significado raiz da palavra. O Construtor PorterStemmer da biblioteca NLTK implementa o muito utilizado Porter stemming algorithm.

In [10]:

# Cria o stemmer
porter = PorterStemmer()

# Aplica o stemmer
[porter.stem(word) for word in tokenized_words]

Out[10]:

['i', 'am', 'humbl', 'by', 'thi', 'tradit', 'meet']

In [11]:

[porter.stem(word) for word in palavras]

Out[11]:

['my', 'name', 'is', 'gabriel', 'identifi', 'run', 'music', 'read', 'observ']