Semalt: 3 Chéim chun Scrapáil Leathanach Gréasáin PHP

Is é scríobadh gréasáin, ar a dtugtar eastóscadh sonraí gréasáin nó baint gréasáin freisin, an próiseas chun sonraí a bhaint as suíomh Gréasáin nó blag. Úsáidtear an fhaisnéis seo ansin chun meta-chlibeanna, meta tuairiscí, eochairfhocail agus naisc chuig láithreán a shocrú, ag feabhsú a feidhmíochta foriomláin i dtorthaí an innill chuardaigh.
Úsáidtear dhá phríomhtheicníc chun sonraí a scrabhadh:
- Parsáil doiciméad - Baineann sé le doiciméad XML nó HTML a athraítear go comhaid DOM (Múnla Réada Doiciméid). Soláthraíonn PHP síneadh iontach DOM dúinn.
- Nathanna rialta - Is bealach é chun sonraí a dhréachtú ó na cáipéisí gréasáin i bhfoirm nathanna rialta.
Tá baint ag an gceist le sonraí scrapála láithreán gréasáin tríú páirtí lena chóipcheart toisc nach bhfuil cead agat na sonraí seo a úsáid. Ach le PHP, is féidir leat sonraí a scrabhadh go héasca gan fadhbanna a bhaineann le cóipchearta nó cáilíocht íseal. Mar ríomhchláraitheoir PHP, b’fhéidir go mbeidh sonraí uait ó láithreáin ghréasáin éagsúla chun críocha códaithe. Mhínigh muid anseo conas sonraí a fháil ó shuíomhanna eile go héifeachtúil, ach roimhe sin, ba cheart duit a mheabhrú go bhfaighidh tú comhaid index.php nó scrape.js ag an deireadh.
Céimeanna1: Cruthaigh Foirm chun URL an Láithreáin Gréasáin a iontráil:
Ar dtús báire, ba cheart duit foirm a chruthú in index.php trí chliceáil ar an gcnaipe Cuir Isteach agus URL an láithreáin ghréasáin a iontráil chun sonraí a scríobadh.
<form method = "post" name = "scrape_form" id = "scrap_form" acti>
Iontráil URL Suíomh Gréasáin Chun Sonraí a Scrapeadh
<input type = "input" name = "website_url" id = "website_url">
<input type = "submit" name = "submit" value = "Cuir isteach">
</form>
Céimeanna2: Cruthaigh Feidhm PHP chun Sonraí Suíomh Gréasáin a Fháil:
Is é an dara céim ná scrapes feidhm PHP a chruthú sa chomhad scrape.php mar go gcabhróidh sé le sonraí a fháil agus an leabharlann URL a úsáid. Tabharfaidh sé deis duit freisin ceangal agus cumarsáid a dhéanamh le freastalaithe agus prótacail éagsúla gan aon cheist.
feidhm scrapeSiteData ($ site_url) {
más rud é (! function_exists ('curl_init')) {
bás ('níl cURL suiteáilte. Suiteáil le do thoil agus bain triail eile as.');
}

$ curl = curl_init ();
curl_setopt ($ curl, CURLOPT_URL, $ website_url);
curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, fíor);
$ aschur = curl_exec ($ curl);
curl_close ($ curl);
tuairisceán $ aschur;
}
Anseo, is féidir linn a fheiceáil an bhfuil an PHP cURL suiteáilte i gceart nó nach bhfuil. Caithfear trí phríomh-CURL a úsáid sa réimse feidhmeanna agus cuideoidh curl_init () leis na seisiúin a thionscnamh, cuirfidh curl_exec () i gcrích é agus cuideoidh curl_close () leis an nasc a dhúnadh. Úsáidtear na hathróga ar nós CURLOPT_URL chun na URLanna láithreán gréasáin a theastaíonn uainn a scrabhadh a shocrú. Cuideoidh an dara CURLOPT_RETURNTRANSFER leis na leathanaigh scrapáilte a stóráil san fhoirm athraitheach seachas a bhfoirm réamhshocraithe, a thaispeánfaidh an leathanach gréasáin iomlán sa deireadh.
Céimeanna3: Scrape Sonraí Sonracha ón Suíomh Gréasáin:
Tá sé in am feidhmiúlachtaí do chomhad PHP a láimhseáil agus an chuid shonrach de do leathanach gréasáin a scrabhadh. Mura dteastaíonn na sonraí go léir uait ó URL ar leith, ba cheart duit na hathróga CURLOPT_RETURNTRANSFER a chur in eagar agus aird a tharraingt ar na codanna is mian leat a scrabhadh.
más rud é (isset ($ _ POST ['submit'])) {
$ html = scrapeWebsiteData ($ _ POST ['website_url']);
$ start_point = strpos ($ html, 'Poist is Déanaí');
$ end_point = strpos ($ html, '', $ start_point);
$ length = $ end_point- $ start_point;
$ html = substr ($ html, $ start_point, $ fad);
macalla $ html;
}
Molaimid duit an t-eolas bunúsach ar PHP agus na Léirithe Rialta a fhorbairt sula n-úsáideann tú aon cheann de na cóid seo nó má scríobhann tú blag nó suíomh Gréasáin áirithe chun críocha pearsanta.