Author

Topic: Web Madenciliği… (Read 281 times)

jr. member
Activity: 434
Merit: 1
March 03, 2018, 02:51:55 PM
#4
web madenciliği oldukça uzun sürmekte, vakit çok değerli  Smiley Smiley
jr. member
Activity: 73
Merit: 1
March 03, 2018, 09:30:46 AM
#3
Burada anlatilan 'madenciligin', kripto madenciligi ile alakasi yok. Burada anlatilan miningden ziyade 'crawling' ya da 'scraping', niye sovuyorsunuz bunu yapanlara?  Grin
sr. member
Activity: 504
Merit: 256
February 27, 2018, 01:31:23 AM
#2
Web madenciliğini anlatmak istedim lakin yapanin ölüsüne bir tas suyu dökenin de avradını..  Türküde söylendiği gibi Smiley
sr. member
Activity: 504
Merit: 256
February 27, 2018, 01:20:56 AM
#1
Günümüzde internet başta iletişim olmakla beraber e-ticaret, reklam, bilgi ve belge paylaşımı,bankacılık işlemleri, kurumsal işlemler ve eğitim gibi birçok alanda kullanılmaktadır. İnternetin herkese açık olması, içerdiği bilgilerin her geçen gün daha düzensiz olmasına ve daha da artmasına neden olmaktadır.

Web madenciliği (web mining) terimi ilk kez Oren Etzioni tarfından 1996’da ortaya atılmıştır. Etzioni hazırladığı bildiride web madenciliği (web mining) tekniklerini kullanarak World Wide Web’de bulunan dosya ve servislerden otomatik olarak paternler bulmak ve öngörülmeyen bilgiye ulaşmayı web mining olarak tanımlamıştır. Etzioni’nin web mining tanımlaması bir çok araştırmada web mining tanımı olarak atıf bulunmuştur.

Web mining ise Madria tarafından Web’de bulunan veriden faydalı bilgiye ulaşmak olarak tanımlanmıtşır. Çeşitli yapıdaki web sayfası dokümanlarını, içeriklerini, link yapılarını ve kullanım bilgilerini incelemek, bunlardaki anlamlı bilgileri keşfetmek için veri madenciliği tekniklerinin kullanılmasıdır.

Web üç tip veri bulundurur. Bunlar;


İçerik (content) verisi,
Yapı (structure) verisi,
Kullanım verisi (web log dosyaları)


İçerik verisi, web dokümanlarında, genellikle metin şeklinde yer alan verilerdir. Herhangi bir web sayfası üzerinde yer alan veriler bu tip için bir örnektir. Kullanım verisi, web sitesini ziyaret eden kullanıcıların oluşturdukları veri tipidir. Kullanım verisi genellikle hangi kullanıcı, ne zaman, hangi sayfaları ziyaret etti, ne kadar süre sitede kaldı gibi soruların cevaplarını içerir. Yapı verisi ise web sitesinin bağlantı yapısı hakkındaki verilerdir. Web sitesinde yer alan sayfaların hangi alt dizinler içerisinde bulunduğunu gösteren verilerden oluşur.

Web madenciliği ilk ortaya atıldığı dönemlerde Web İçerik Madenciliği (Web Content Mining) ve Web Kullanım Madenciliği (Web Usage Mining) olmak üzere iki sınıfa ayrılmaktaydı. Web madenciliğinin yaygınlaşması ile birlikte Web Yapı Madenciliği de (Web Structure Mining) üçüncü bir sınıf olarak eklenmiştir. Buna göre web madenciliği kullanılan verilerin yapısına göre 3 gruba ayrılır.

Web içerik madenciliği,
Web kullanım madenciliği,
Web yapı madenciliği
Web Kullanım Madenciliği
İnternet kullanıcıları web’de ziyaret ettikleri siteleride iz bırakırlar. Bu izlerde web’de dolaşırken yaptıkları erişim hareketlerince oluşturulan veriler bulunmaktadır. Bu izlerden log analizi yapılarak veri üretimi yapılır. Web kullanım madenciliği ise üretilen bu verilerden bilgi üretmeyi hedefler. Web kullanım madenciliği, ziyaretçinin siteyi kullanırken gerisinde bıraktığı erişim verilerinden bilgi üretmeyi amaçlar. Bu amaçla log dosyalarından en yoğun ve en ilginç kullanıcı erişim örüntülerini keşfetmek ve anlamlı verileri çıkartmak için veri madenciliği tekniklerini kullanır.

 Bu konudaki çalışmalar Genel Web Kullanım Madenciliği, Site Güncelleme Sistemleri, Sistem İyileştirme ve Kişiselleştirme başlıkları altında toplanabilir. Genel Web Kullanım Madenciliği Sistemleri kullanıcıların genel davranış biçimerini bilinen ya da önerilen veri madenciliği algoritmalarını sunucu erişim dosyalarındaki veriye uygulayarak bulmaya çalışır. Site Günçelleştirme Sistemlerinin hedefi ise site içerik ve yapısında yapılması gereken tadilatları bulmaktır. Sistem İyileştirme üzerine yapılan araştırmalar web kullanım verisini kullanarak trafiği etkinleştirmeyi hedefler. Son olarak, kişiselleştirme çalışmaları bireysel taleplere gore değişen siteler oluşturmaya çalışır.

Windows Server 2003 işletimi sistemi üzerinde çalışan IIS 6.0 web sunucusunda tutulan log dosyasından örnek bir satır verilmiştir.

2010-03-05 00:22:31 193.140.180.4 GET /Default.aspx – 80 – 212.154.80.164 Mozilla/4.0+ (compatible;+MSIE+6.0;+Windows+NT+5.1; +SV1;+GTB6.4) – 200 00 67049 428 31
Web kullanım madenciliği;

Ön işlem,
Örüntü keşfi,
Örüntü analizi
olmak üzere 3 aşamada gerçekleştirilir.

Ön İşlem; web sunucusu üzerinde tutulan log dosyalarından sağlıklı bilgi çıkarımı yapabilmek için gereksiz verilerden temizlenmesi ve belirli bir düzene sokulması gerekmektedir. Sunucular üzerinde karmaşık ve düzensiz bir şekilde tutulan log dosyalarındaki verilerin analiz değeri olmayan ilişkisiz verilerden temizlenmesi, belirli bir biçime getirilmesi ve veritabanına aktarılması işlemi ön işlem sürecidir. Ön işlem süreci web kullanım madenciliğinin en önemli ve en uzun süren basamağıdır. Bu süreç sonrasında veri örüntü keşfi için uygun hale getirilmektedir. Bu süreçte önemli olan verinin orijinalliğinin korunmasıdır. Ön işlem süreci veri temizleme, kullanıcı tanımlama, oturum tanımlama, yol tamamlama ve biçimlendirme olmak üzere dört adımda gerçekleşir. Verilerin temizlenmesi, kullanıcı ve oturum tanımlama aşamalarında sezgisel(heuristic) teknikler kullanılmaktadır. Web kullanım verisine VM tekniklerinin başarılı bir şekilde uygulanması, ön işlem sürecindeki işlemlerin doğru uygulanmasına büyük oranda bağımlıdır.

 Örüntü Keşfi; örüntü keşfi aşamasında ön işlem sürecinden sonra elde edilen düzenli ama anlamsız olan verilerden, veri madenciliği yöntemlerini kullanarak istenilen faydalı ve gerekli bilgilerin ortaya çıkarılması gerçekleştirilmektedir.

 Örüntü Analizi;  örüntü analizi web kullanım madenciliğinin son adımıdır. Örüntü analizinin amacı bulunan örüntülerden ilginç olmayan kuralları, istatistikî bilgileri ya da örüntüleri elemektir. Genellikle örüntü analiz işlemi web madenciliği uygulamaları tarafından elde edilir. Oracle,MS SQL SERVER, MySQL gibi veritabanı uygulamaları ve On-Line Analytical Processing (OLAP) yaygın olarak kullanılan bilgi sorgulama mekanizmalarıdır.

 Web İçerik Madenciliği

Web içerik madenciliği web kaynaklarından otomatik bilgi arama tekniklerini tanımlar. Web içerik madenciliği, web sitelerinin içeriğine yoğunlaşır. Verinin farklı tiplerde oluşu ve yapısal olmayışı bu konudaki tekniklere daha karışık yaklaşımlar kazandırır. Otomatik anahtar kelime anahtar kelime arama ötesinde, metinler içindeki bilinen yapıları bazı veri modellerine indirgeme yöntemleridir. İki tip veri madenciliği stratejisi olabilir; metin içeriklerini doğrudan arama ya da arama motorları gibi araçların aramalarını yardımcı olan.

Web içerikleri, içerik tarayıcı (Web Crawler) yazılımla taranır. Web Crawler yazılımları sadece siteleri arama motorları sonuçlarında listelemek haricinde, resim, video, makale, dosya, müzik vb gibi bir çok farklı format ve yapıdaki bilgiyi tarayabilmektedir. Bu yazılımlar ana sayfadan başlayarak verilen derinlik değerine göre linklerin gösterdiği sayfaları tarayarak sayfa numarası ve link adını istenen dosyaya yazar.

Web Crawler gibi çalışan ve içerdiği algoritmik farklılıkları olan tarayıcı başka yazılımlar da vardır. Bunlar robot yazılım olarak adlandırılır. Genellikle arama motorları tarafından bütün web sitelerinin taranmasını yaparlar. Web robot, web spider veya bot olarak ta adlandırılan arama motorları robotları olan bu bilgisayar yazılımları websitelerini dolaşarak gerekli bilgileri toplarlar. Bu içeriği toplarken sitenin alan adından, içeriğine, link yapısı ve site haritasına kadar bir çok farklı noktayı göz önünde bulundururlar, elbette sitenin indekslenmesi gereken alanları için robots.txt dosyasındaki yönlendirmeleri dikkate alırlar. Bu yazılımların güncel tam listesi user-agent-string (http://user-agent-string.info/list-of-ua/bots) sitesinde yayınlamaktadır.

 Web Yapı Madenciliği

Web yapı madenciliği, webteki bağlantıları bir çizge kuramı (graph theory) çalışması olarak görselleştirtirme süreci olarak düşünülebilir. Teknik olarak, dökümanlar arası bağlantılara yoğunlaşır. Web yapı madenciliğinin amacı web sitesi ve web sayfası hakkında bağlantı verisine bakarak bilgi üretmektir. Örneğin hangi sitelerin, hangi sitelere bağlantı (link) verdiği bilgisi bir grafik şeklinde çizilebilir. Buradan en çok bağlantı alan veya en çok bağlantı veren siteleri analiz etmek mümkündür. Benzer şekilde site içeriklerinde kullanılan bilgilerin de çizgeye dökülmesi ve analiz edilmesi mümkündür. Bir sitenin kendi içindeki bağlantı yoğunluğu veya resim yoğunluğu veya kullanıcı ile iletişimi sağlayan formların yoğunluğu site yöneticilerine veya site tasarımcılarına faydalı bilgiler sunabilir. Bu tip sitenin içeriğine yönelik analizler de yine web yapı madenciliğinin bir alanı olarak düşünülebilir.
Jump to: