Python ile sitedeki resimleri indirme

LinuxGamingGamer · 11 Eylül 2021

Python'da requests ve beautifulsoup kitaplıklarını kullanarak tek bir web sayfasından resimlerin nasıl ayıklanıp indirileceğini öğrenin.

Hiç belirli bir web sitesinde tüm resimleri indirmek istediniz mi? Bu eğiticide, URL'si verilen bir web sayfasından tüm resimleri getiren bir Python Scraper'ı nasıl inşa edebileceğinizi ve onları requests ve beautifulsoup kitaplıklarını kullanarak nasıl indirebileceğinizi öğreneceksiniz.

Başlamak için birkaç bağımlılığa ihtiyacımız var, hadi onları kuralım:

pip3 install requests bs4 tqdm

Yeni bir Python dosyası açın ve gerekli modülleri içe aktarın:

import requests.
import os.
from tqdm import tqdm.
from bs4 import BeautifulSoup as bs.
from urllib.parse import urljoin, urlparse

İlk olarak bir URL'nin içine kodlanmış veriyi koyan bazı web siteleri olduğu için, hadi girilen URL'nin geçerli bir URL olduğundan emin olmamızı sağlayan bir URL validatör yapalım, yani bunları atlamamız gerekiyor:


def is_valid(url):
 """
 URL' nin geçerli bir 'URL' olup olmadığı kontrol ediliyor...
 """
 parsed = urlparse(url)
 return bool(parsed.netloc) and bool(parsed.scheme)

urlparse() fonksiyonu bir URL'yi 6 bileşene ayrıştırır, bizim sadece eğer varsa netloc (domain name) ve scheme (protocol) fonksiyonlarını görmemiz gerekiyor.

İkinci olarak, bir web sitesinin tüm resim URL'lerini yakalayan ana fonksiyonu yazacağım:

def get_all_images(url):
 """
 Tek bir url`daki tüm görüntü URL'lerini döndürür.
 """
 soup = bs(requests.get(url).content, "html.parser")

Web sayfasının HTML içeriği, soup nesnesindedir. HTML'de tüm img Tag'larını ayrıştırmak için soup. Find_all("img") metodunu kullanmamız gerekiyor, hadi onu fiili olarak görelim:

 urls = []
 for img in tqdm(soup.find_all("img"), "Görüntü çıkarma"):
 img_url = img.attrs.get("src")
 if not img_url:
 # eğer img kaynak niteliğinden yoksunsa sadece atlıyoruz.
 continue

Bu, tüm img ögelerini bir Python listesi olarak hazırlayacaktır.

Onu, yine de bir ilerleme çubuğu yazdırmak için bir tqdm nesnesi içerisine dahil ettim. İmg Tag'li bir URL yakalamak için, bir src niteliği var. Ancak src niteliğini içermeyen bazı Tag'ler vardır, işte onları yukarıda da görebileceğiniz gibi continue ifadesini kullanarak atlarız.

Şimdi URL'nin net olduğundan emin olmamız gerekiyor:

# Sadece ayıklanan URL ile Domain'e katılarak tam URL'yi almak için.
img_url = urljoin(url, img_url)

Pek hoşlanmadığımız ve " /image. PNG? C=3.2.5 " gibi bazı şeylerle sonlanan HTTP get anahtar değeri çiftlerini içeren bazı URL'ler vardır. Hadi şimdi onları silelim:


 try:
 pos = img_url.index("?")
 img_url = img_url[:pos]
 except ValueError:
 pass

"?" Karakterinin şeklini alıyoruz, ardından ondan sonraki her şeyi siliyoruz. Eğer hiçbir şey yoksa, valueerror ortaya çıkacaktır. Bu yüzden onu try-except bloğu içerisine gömdüm. Tabbi ki de onu daha iyi bir yoldan geliştirebilirsiniz, eğer geliştirebilirseniz lütfen aşağıdaki yorumlar kısmında bunu bizimle paylaşın.

Hadi şimdi her URL'nin geçerli ve tüm resim veya görüntü URL'lerini dönderdiğinden emin olalım:


 # son olarak eğer URL geçerliyse.
 if is_valid(img_url):
 urls.append(img_url)
 return urls

Şimdi tüm resim URL'lerini yakalayan bir fonksiyona sahibiz fakat şimdi de Python ile Web'den dosyaları indirmek için bir fonksiyona ihtiyacımız var. Bu eğitici için aşağıdaki fonksiyonu hazırladım:

def download(url, pathname):
 """
 Bir URL verilen dosyayı indirir ve "PathName" klasörüne koyar.
 """
 # eğer path mevcut değilse path dir komutunu gerçekleştirir.
 if not os.path.isdir(pathname):
 os.makedirs(pathname)
 # response kalıbını CHUNK ile indirir ama hemen değil.
 response = requests.get(url, stream=True)
 # toplam dosya boyutunu alır.
 file_size = int(response.headers.get("Content-Length", 0))
 # dosya ismini alır.
 filename = os.path.join(pathname, url.split("/")[-1])
 # İlerleme çubuğu, birimi yineleme yerine baytlara değiştirir (varsayılan TQDM dir)
 progress = tqdm(response.iter_content(1024), f"İndiriliyor {filename}", total=file_size, unit="B", unit_scale=True, unit_divisor=1024)
 with open(filename, "wb") as f:
 for data in progress.iterable:
 # Dosyaya okunan veriyi yazmak.
 f.write(data)
 # ilerleme çubuğunu manuel olarak güncellemek.
 progress.update(len(data))

Yukarıdaki fonksiyon temel olarak indirmek için dosya URL'sini ve bu dosyayı kaydetmek için klasörün Pathname'ini (dosya yolunu) alır.

Son olarak buradaki ise ana yani main fonksiyonumuzdur:

def main(url, path):
 # tüm resimleri al.
 imgs = get_all_images(url)
 for img in imgs:
 # herbir resim için onları indir.
 download(img, path)

Dr. Pc · 11 Eylül 2021

Emeğinize sağlık.

LinuxGamingGamer · 11 Eylül 2021

Dr. Pc dedi:
Emeğinize sağlık.

Teşekkür ederim.

Onur_10lim10 · 11 Eylül 2021

Güzel rehber olmuş. Teşekkürler.

yiange28 · 11 Eylül 2021

Kodu çalıştırmadım ama elinize sağlık. Keşke commentleri ile beraber GitHub'a yükleseydiniz.

egoistpizza · 11 Eylül 2021

Ellerinize sağlık.

Fakat keşke kaynak belirtseydiniz:

How to Download All Images from a Web Page in Python - The Python Code

Learn how to extract and download images from a single web page in Python using requests and BeautifulSoup libraries.

www.thepythoncode.com

Bunun haricinde kodları "satıriçi kod" olarak değil de direkt "kod" bloğu içerisinde açıklama vererek paylaşabilirsiniz. Çeviride de bazı hatalar var, düzeltirseniz çok güzel olur.

Yanlış anlamanızı istemem, kaynak belirtmediğiniz sürece karşıdaki kişinin emeğine haksızlık etmiş oluyorsunuz. Lütfen buna özen gösterelim.

LinuxGamingGamer · 11 Eylül 2021

egoistpizza dedi:
Ellerinize sağlık.

Fakat keşke kaynak belirtseydiniz:

How to Download All Images from a Web Page in Python - The Python Code

Learn how to extract and download images from a single web page in Python using requests and BeautifulSoup libraries.

www.thepythoncode.com

Bunun haricinde kodları "satıriçi kod" olarak değil de direkt "kod" bloğu içerisinde açıklama vererek paylaşabilirsiniz. Çeviride de bazı hatalar var, düzeltirseniz çok güzel olur.

Yanlış anlamanızı istemem, kaynak belirtmediğiniz sürece karşıdaki kişinin emeğine haksızlık etmiş oluyorsunuz. Lütfen buna özen gösterelim.

Çevirim nasıl ama? Ayıptır söylemesi C2 seviyesine geçtim de

yani advanced level...

egoistpizza · 11 Eylül 2021

LinuxGamingGamer dedi:
Çevirim nasıl ama? Ayıptır söylemesi C2 seviyesine geçtim de yani advanced level...

Gayet yeterli biraz geliştirseniz fena olmaz.

Kaynağı eklediniz mi?

LinuxGamingGamer · 11 Eylül 2021

Arkadaşlar kaynak: How to Download All Images from a Web Page in Python - Python Code

egoistpizza dedi:
Gayet yeterli biraz geliştirseniz fena olmaz.
Kaynağı eklediniz mi?

O değil de syn flood u da çok güzel çevirmiştim ama sağolsun moderatör konuyu kapatmış.

Python ile sitedeki resimleri indirme

Ayrıntılı düzenleme

LinuxGamingGamer

Picopat

Dr. Pc

Picopat

LinuxGamingGamer

Picopat

Onur_10lim10

Femtopat

yiange28

Megapat

egoistpizza

Hectopat

How to Download All Images from a Web Page in Python - The Python Code

LinuxGamingGamer

Picopat

How to Download All Images from a Web Page in Python - The Python Code

egoistpizza

Hectopat

LinuxGamingGamer

Picopat

Benzer konular

Technopat Haberler

Yeni konular

Yeni mesajlar

Gizliliğinize önem veriyoruz