Author

Topic: Paano Kumalap ng Datos sa Forum o sa Kahit Anong Website? [SCRAPING TUTORIAL] (Read 248 times)

hero member
Activity: 2044
Merit: 877
Leading Crypto Sports Betting and Casino Platform
Maraming salamat dito sa napakagandang content mo kabayan. Isa ako sa mga taong nagnanais na makakalap ng impormasyon sa ating forum at hindi ko alam kung anong software ang ginagamit para maisagawa ito. Ngayon ay medyo nalinawan ako ng konti at nag babakasakaling sa susunod ay magkaroon din ako ng mga contents na gaya ng sa inyo ni asu.

Tanong ko lang, may limit ba sa pag scrape ng data gamit ang software na yan? Kasi kung papansinin, sina loyceV, ddmrddmr ay nakakakalap ng datos na sobrang dami. At pagkakaalam ko hindi free ang softwares kaya gumagamit sila ng programming languages. Malamang ay may limit ang datos nyan.
sr. member
Activity: 644
Merit: 364
In Code We Trust
~
marami pang ibang software, pero masasabi ko kung gusto mo talaga mag scrape ng full without limitation, gamit ka programming language, kasi free version padin yang octoparse, meaning, 40000 pages ang limit sa scan hehe. Btw, nag tanong tanong lang din ako kung paano ko makukuha data, isa sa mga napag tanungan ko si DdmrDdmr kaya salamat sa kanya hehe
hero member
Activity: 2492
Merit: 542
Nice tut OP, honestly ngayon ko lang nalaman kung ano tong software na ginagamit nila pero alam ko na dati na gumagamit sila ang scraping tools hindi ko nga lang alam itong particular na software na gamit.
sr. member
Activity: 644
Merit: 364
In Code We Trust
Nagtataka kaba marahil may ilang members dito na nakakakuha ng datos mula sa ating forum at ginagawan ng topic upang makabuo ng makabuluhang ideya? Statistics na may graph na kasama, at ginagamit ang kapangyarihan ng numero upang bigyan tayo ng kaalaman sa mga impormasyon patungkol sa ating forum?

Kung lagi mong nakikita sina LoyceV, DdmrDdmr, tranthidung at asu(Local), sila marahil ang madalas na gumagawa ng topic na may kinalaman sa statistics sa pamamagitan ng tinatawag na Scraping o pag kalap ng datos mula sa ating forum. Ang Scraping ay isang paraan kung saan, ang bawat webpage ay dinadaanan upang kuhanin ang ano mang datos na ninanais nating kuhanin.

May ilang mga paraan kung paano isagawa ito:
1. Maaaring gumamit ng Phyton, o iba pang programming language para mag execute ng task sa pag sscrape.
2. At maaari din namang gumamit ng mga software na available para magscrape.

Ang ilan sa mga software na aking ginamit ay ang Outwit hub at ang Octoparse sa tulong ni DdmrDdmr

ang ibabahagi ko ngayon ay yung paraang hindi tayo gaanong mahihirapan sa pagkalap ng datos gamit ang Octoparse:

I'll make it as short as possible, and if you want to figure it out further, I advise you watch other tutorials regarding Xpath.
1. Mag download ng Octoparse at gumawa ng account dito.

2. Matapos gumawa ng account ay mag login.

3. Pindutin ang Advance Mode + New Task

4. Kopyahin ang URL ng unang page ng ninanais na kuhanan ng datos

5. I paste ang Link sa Octoparse

6. Pindutin ang Arrow para magsilbing loop.

7. Pindutin ang Loop Click the selected link. Matapos pindutin ang loop click selected link,  pindutin naman ang Go To Web Page na nasa illustration para bumalik ka sa page 1

8. Pumili ng element na nais kuhanin at piliin ang select all, matapos ito, select extract both link and text. Sa proseso nito, dadaanan ng octoparse automatically ang bawat web page at kung ano ang element na nais natin kuhanin ay automatically nya ding kukunin.

9. Maaari ng simulan ang pag eexctract ng datos.

10. Ito ang itsura habang nag eextract ng datos

Matapos ang lahat ng steps, maaari ng i export ang datos na nakalap, para sa akin, mas madaling maisaayos ito kung sa excel ko ito ieexport.

Last step ay buksan ang excel file na iyong inexport.

Ito ang ilan sa mga excel files ng datos na aking nakalap:
Pilipinas Section
Pamilihan Section
Pilipinas Altcoin Section
Altcoin Announcenment
All Sections Data

Mula sa mga datos na ito, nasasaatin nalang kung pano natin ito mamanipulahin kagaya ng pag rarank, at pag pili ng mga variables na nais nating makuha at pag sasaayos nito.
Jump to: