Çözüldü Node.JS ile web sayfasından çekilen verideki kodları temizleme

Mucosoft · 10 Şubat 2022

Bir test uyguluyorum. Kendi web sitemde GET metodu ile veri çekmeye çalışıyorum. Veri sayfada yazı olarak gözüküyor. Ben bu veriyi çekerken arka plandaki kodlar da çekiliyor. Birkaç deneme ile çoğunu kaldırdım ama şimdi de şöyle gözüküyor:

Bu kalanları nasıl kaldıracağım veya farklı olarak ne yapabilirim? Node.js kütüphanesi önerisi istemiyorum. Kendim kodlamak istiyorum.

JavaScript:

var http = require('http');
function RemoveHTML(Data)
{
    Data = Data.replace( /(<([^>]+)>)/ig, '');
    Data = Data.replace( /({([^>]+)})/ig, '');
    return Data;
}
var options = {
    host: 'technopat.net',
    path: '/HebeleHübele'
}
var request = http.request(options, function (res)
{
    var Data = '';
    res.on('data', function (chunk)
    {
        Data += chunk;
    });
    res.on('end', function ()
    {
        console.log(RemoveHTML(Data));
    });
});
request.on('error', function (e)
{
    console.log(e.message);
});
request.end();

coa3 · 10 Şubat 2022

Örneğin bir web sitesinde div içeriği mi çekmek istiyorsun. Tam olarak anlamadım da, biraz daha açıklarsan yardımcı olabilirim.

Mucosoft · 10 Şubat 2022

coa3 dedi:
Örneğin bir web sitesinde div içeriği mi çekmek istiyorsun. Tam olarak anlamadım da, biraz daha açıklarsan yardımcı olabilirim.

Ham veri çekmek istiyorum. Yani etiket olmayacak. Yalnızca sayfada görünen yazıları çekmek istiyorum. Örneğin web sayfasında 1 yazıyor. Bunu çekecek. Kısacası ön plandaki tüm yazılar alınacak.

coa3 · 10 Şubat 2022

Peki belirli bir xpath olacak mı yoksa sayfadaki tüm yazılar mı olacak. Daha da detaylandırırsam,
Yani sayfada belirli bir alanı mı almak istiyorsun yoksa sayfadaki her yazıyı mı?

Mucosoft · 10 Şubat 2022

coa3 dedi:
Peki belirli bir xpath olacak mı yoksa sayfadaki tüm yazılar mı olacak. Daha da detaylandırırsam,
Yani sayfada belirli bir alanı mı almak istiyorsun yoksa sayfadaki her yazıyı mı?

Sayfadaki her yazıyı.

Yaptığım araştırmalardan sonra kodu istediğim kıvama getirdim. Bu kod ifadelerin arasındaki boşlukları silmiyor. Diğer boşlukları kaldırıyor. Tabii bu sayfaya özel kod olduğu için kullanıcıların güncellemesi gerekebilir.

JavaScript:

function RemoveHTML(Data)
{
    Data = Data.replace( /(<([^>]+)>)/ig, '');
    Data = Data.replace( /({([^>]+)})/ig, '');
    Data = Data.replace( 'var about_info = 0;', '');
    Data = Data.replace( 'clickable = false;', '');
    Data = Data.replace( 'window.dataLayer = window.dataLayer || [];', '');
    Data = Data.replace( 'function gtag()', '');
    Data = Data.replace( /(\r\n|\n|\r)/gm, '');
    Data = Data.replace( /^\s+|\s+$/gm, '');
    return Data;
}

Çözüldü Node.JS ile web sayfasından çekilen verideki kodları temizleme

Ayrıntılı düzenleme

Mucosoft

Megapat

Mucosoft

coa3

Decapat

Mucosoft

Megapat

coa3

Decapat

Mucosoft

Megapat

Benzer konular

Yeni konular

Yeni mesajlar

Gizliliğinize önem veriyoruz