Notebook

Requests ve BeautifulSoup Modülü¶

Bu videoda internetten veri çekmemizi ve bu verileri parçalamamızı sağlayan *requests* ve *BeautifulSoup* modüllerini öğreneceğiz. Ancak bu modüller Python ile hazır gelmediğinden ilk olarak bunları internetten indirmemiz gerekiyor.

Windows üzerinde kurulum¶

Windows üzerinde bu iki modulü indirmemiz için cmd'yi açıyoruz ve şu iki komutu sırayla çalıştırıyoruz.

*pip3 install requests*

*pip3 install beautifulsoup4*

Bunları çalıştırdığımız zaman requests ve beautifulsoup kurulmuş olacak.

Kurulumda herhangi bir sıkıntı yaşarsanız çekinmeden sorabilirsiniz.

Ubuntu üzerinde kurulum¶

Terminali açın ve ilk önce şu komutu çalıştırın.

*sudo apt-get install python-setuptools*

Daha sonra şu komutları çalıştırın.

*sudo pip3 install requests*

*sudo pip3 install beautifulsoup4*

Kurulumda herhangi bir sıkıntı yaşarsanız çekinmeden sorabilirsiniz.

Artık internet sayfalarındaki verileri parçalamaya başlayabiliriz. Ancak videoya başlamadan önce sıkıntı yaşamamak için *html etiketlerinden div,table, td, tr , a gibi etiketlere* biraz göz gezdirebilirsiniz.

Şu siteler faydalı olabilir;

http://www.htmldersleri.org/index.php?getir=html_intro&ID=1

http://www.htmldersleri.org/index.php?getir=html_links&ID=7

http://www.htmldersleri.org/index.php?getir=html_attributes&ID=4

http://www.htmldersleri.org/index.php?getir=html_tables&ID=9

Güzel ! Her şey tamamlandığına göre dersimize başlayabiliriz.

Kodlarımızı bilgisayarımızda çalıştıracağız.

Web Sayfası Kaynağını Alma¶

In [ ]:

import requests 
from bs4 import BeautifulSoup

url =  "https://yellowpages.com.tr/ara?q=Ankara" # Site linkimiz 

response =  requests.get(url) # Web sayfamızı çekiyoruz.

html_icerigi = response.content  # Web sayfamızın içeriğini alıyoruz.

soup =  BeautifulSoup(html_icerigi,"html.parser") # Web sayfamızı parçalamak için BeautifulSoup objesine atıyoruz.

print(soup.prettify()) # Daha güzel bir görüntü için prettify() fonksiyonunu kullanıyoruz.

Web Sayfasındaki < a > etiketlerini alma¶

In [ ]:

import requests 
from bs4 import BeautifulSoup

url =  "https://yellowpages.com.tr/ara?q=Ankara" # Site linkimiz 

response =  requests.get(url) # Web sayfamızı çekiyoruz.

html_icerigi = response.content  # Web sayfamızın içeriğini alıyoruz.

soup =  BeautifulSoup(html_icerigi,"html.parser") # Web sayfamızı parçalamak için BeautifulSoup objesine atıyoruz.

print(soup.find_all("a")) # Bize tüm <a> etiketlerini liste şeklinde dönüyor.

< a > etiketlerinin içindeki "href" değerlerini alma¶

In [ ]:

import requests 
from bs4 import BeautifulSoup

url =  "https://yellowpages.com.tr/ara?q=Ankara" # Site linkimiz 

response =  requests.get(url) # Web sayfamızı çekiyoruz.

html_icerigi = response.content  # Web sayfamızın içeriğini alıyoruz.

soup =  BeautifulSoup(html_icerigi,"html.parser") # Web sayfamızı parçalamak için BeautifulSoup objesine atıyoruz.

for i in soup.find_all("a"):
    print(i.get("href"))

< a > etiketlerinin içindeki yazı değerlerini alma¶

In [ ]:

import requests 
from bs4 import BeautifulSoup

url =  "https://yellowpages.com.tr/ara?q=Ankara" # Site linkimiz 

response =  requests.get(url) # Web sayfamızı çekiyoruz.

html_icerigi = response.content  # Web sayfamızın içeriğini alıyoruz.

soup =  BeautifulSoup(html_icerigi,"html.parser") # Web sayfamızı parçalamak için BeautifulSoup objesine atıyoruz.

for i in soup.find_all("a"):
    print(i.text)

class değerleri "yp-poi-box-2" olan < div > etiketlerini alma¶

In [ ]:

import requests 
from bs4 import BeautifulSoup

url =  "https://yellowpages.com.tr/ara?q=Ankara" # Site linkimiz 

response =  requests.get(url) # Web sayfamızı çekiyoruz.

html_icerigi = response.content  # Web sayfamızın içeriğini alıyoruz.

soup =  BeautifulSoup(html_icerigi,"html.parser") # Web sayfamızı parçalamak için BeautifulSoup objesine atıyoruz.

 # Bu kullanımın anlamı div etiketlerinden class'ı yp-poi-box-2 yi al anlamına geliyor.
for i in soup.find_all("div",{"class":"yp-poi-box-2"}):
    print(i)

İşte bu kadar ! Bir sonraki derste *IMDB Top 250* projemizi yazmaya başlayacağız.

In [ ]: