আমাদের কর্পাস¶

বাংলা নাচারাল ল্যাঙ্গুয়েজ প্রসেসিং

টোকেনাইজেশন
ভেক্টরাইজেশন

In [0]:

sentences = ['আমি মাঝে মধ্যেই ফিরে যাই পুরানো কিছু ক্লাসিক বইয়ে', 'বিশেষ করে বেসিক ঝালাই করার জন্য']

In [55]:

import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!

Out[55]:

True

In [56]:

from sklearn.feature_extraction.text import CountVectorizer

# ট্রান্সফরমেশন তৈরি করি
vectorizer = CountVectorizer()

# টোকেনাইজ এবং ভোকাবুলারি তৈরি করি
vectorizer.fit(sentences)

# সামারি দেখি
vectorizer.vocabulary_

Out[56]:

{'আম': 0, 'কর': 1, 'জন': 2, 'বইয়': 3, 'মধ': 4}

In [0]:

import warnings
warnings.filterwarnings("ignore")

In [58]:

# ইউনিকোডে দেখুন নিচের লিঙ্কে
# https://jrgraphix.net/r/Unicode/0980-09FF

from nltk import word_tokenize

vectorizer = CountVectorizer(encoding='utf-8', tokenizer=word_tokenize)

vectorizer.fit(sentences)
vectorizer.vocabulary_

Out[58]:

{'আমি': 0,
 'করার': 1,
 'করে': 2,
 'কিছু': 3,
 'ক্লাসিক': 4,
 'জন্য': 5,
 'ঝালাই': 6,
 'পুরানো': 7,
 'ফিরে': 8,
 'বইয়ে': 9,
 'বিশেষ': 10,
 'বেসিক': 11,
 'মধ্যেই': 12,
 'মাঝে': 13,
 'যাই': 14}

In [59]:

print(vectorizer.vocabulary_)

{'আমি': 0, 'মাঝে': 13, 'মধ্যেই': 12, 'ফিরে': 8, 'যাই': 14, 'পুরানো': 7, 'কিছু': 3, 'ক্লাসিক': 4, 'বইয়ে': 9, 'বিশেষ': 10, 'করে': 2, 'বেসিক': 11, 'ঝালাই': 6, 'করার': 1, 'জন্য': 5}

In [60]:

vectorizer.transform(sentences).toarray()

Out[60]:

array([[1, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1],
       [0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0]])

In [61]:

vec = CountVectorizer()
x = vec.fit_transform(sentences).toarray()
print(x.shape)
print(vec.get_feature_names())

(2, 5)
['আম', 'কর', 'জন', 'বইয়', 'মধ']

In [62]:

# ইউনিকোডে দেখুন নিচের লিঙ্কে
# https://jrgraphix.net/r/Unicode/0980-09FF

vectorizer = CountVectorizer(encoding='utf-8', token_pattern=r'[\u0980-\u09ff]+')
vectorizer.fit(sentences)
vectorizer.vocabulary_

Out[62]:

{'আমি': 0,
 'করার': 1,
 'করে': 2,
 'কিছু': 3,
 'ক্লাসিক': 4,
 'জন্য': 5,
 'ঝালাই': 6,
 'পুরানো': 7,
 'ফিরে': 8,
 'বইয়ে': 9,
 'বিশেষ': 10,
 'বেসিক': 11,
 'মধ্যেই': 12,
 'মাঝে': 13,
 'যাই': 14}

In [63]:

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer =TfidfVectorizer(encoding='utf-8', tokenizer=word_tokenize)

vectorizer.fit(sentences)
vectorizer.vocabulary_

Out[63]:

{'আমি': 0,
 'করার': 1,
 'করে': 2,
 'কিছু': 3,
 'ক্লাসিক': 4,
 'জন্য': 5,
 'ঝালাই': 6,
 'পুরানো': 7,
 'ফিরে': 8,
 'বইয়ে': 9,
 'বিশেষ': 10,
 'বেসিক': 11,
 'মধ্যেই': 12,
 'মাঝে': 13,
 'যাই': 14}

In [64]:

vectorizer.transform(sentences).toarray()

Out[64]:

array([[0.33333333, 0.        , 0.        , 0.33333333, 0.33333333,
        0.        , 0.        , 0.33333333, 0.33333333, 0.33333333,
        0.        , 0.        , 0.33333333, 0.33333333, 0.33333333],
       [0.        , 0.40824829, 0.40824829, 0.        , 0.        ,
        0.40824829, 0.40824829, 0.        , 0.        , 0.        ,
        0.40824829, 0.40824829, 0.        , 0.        , 0.        ]])

In [65]:

print(vectorizer.idf_)

[1.40546511 1.40546511 1.40546511 1.40546511 1.40546511 1.40546511
 1.40546511 1.40546511 1.40546511 1.40546511 1.40546511 1.40546511
 1.40546511 1.40546511 1.40546511]

In [66]:

vector = vectorizer.transform([sentences[0]])
# এনকোডেড ভেক্টরকে সামারাইজ করি
print(vector.shape)
print(vector.toarray())

(1, 15)
[[0.33333333 0.         0.         0.33333333 0.33333333 0.
  0.         0.33333333 0.33333333 0.33333333 0.         0.
  0.33333333 0.33333333 0.33333333]]

In [67]:

cities = ['ঢাকা', 'বার্লিন', 'কুমিল্লা', 'শিকাগো', 'সিঙ্গাপুর']
cities

Out[67]:

['ঢাকা', 'বার্লিন', 'কুমিল্লা', 'শিকাগো', 'সিঙ্গাপুর']

In [0]:

from sklearn.preprocessing import LabelEncoder

In [69]:

encoder = LabelEncoder()
city_labels = encoder.fit_transform(cities)
city_labels

Out[69]:

array([1, 2, 0, 3, 4])

In [70]:

from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder(sparse=False)
city_labels = city_labels.reshape((5, 1))
encoder.fit_transform(city_labels)

Out[70]:

array([[0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])