Semalt: 3 Chéim chun Scrapáil Leathanach Gréasáin PHP

Is é scríobadh gréasáin, ar a dtugtar eastóscadh sonraí gréasáin nó baint gréasáin freisin, an próiseas chun sonraí a bhaint as suíomh Gréasáin nó blag. Úsáidtear an fhaisnéis seo ansin chun meta-chlibeanna, meta tuairiscí, eochairfhocail agus naisc chuig láithreán a shocrú, ag feabhsú a feidhmíochta foriomláin i dtorthaí an innill chuardaigh.

Úsáidtear dhá phríomhtheicníc chun sonraí a scrabhadh:

  • Parsáil doiciméad - Baineann sé le doiciméad XML nó HTML a athraítear go comhaid DOM (Múnla Réada Doiciméid). Soláthraíonn PHP síneadh iontach DOM dúinn.
  • Nathanna rialta - Is bealach é chun sonraí a dhréachtú ó na cáipéisí gréasáin i bhfoirm nathanna rialta.

Tá baint ag an gceist le sonraí scrapála láithreán gréasáin tríú páirtí lena chóipcheart toisc nach bhfuil cead agat na sonraí seo a úsáid. Ach le PHP, is féidir leat sonraí a scrabhadh go héasca gan fadhbanna a bhaineann le cóipchearta nó cáilíocht íseal. Mar ríomhchláraitheoir PHP, b’fhéidir go mbeidh sonraí uait ó láithreáin ghréasáin éagsúla chun críocha códaithe. Mhínigh muid anseo conas sonraí a fháil ó shuíomhanna eile go héifeachtúil, ach roimhe sin, ba cheart duit a mheabhrú go bhfaighidh tú comhaid index.php nó scrape.js ag an deireadh.

Céimeanna1: Cruthaigh Foirm chun URL an Láithreáin Gréasáin a iontráil:

Ar dtús báire, ba cheart duit foirm a chruthú in index.php trí chliceáil ar an gcnaipe Cuir Isteach agus URL an láithreáin ghréasáin a iontráil chun sonraí a scríobadh.

<form method = "post" name = "scrape_form" id = "scrap_form" acti>

Iontráil URL Suíomh Gréasáin Chun Sonraí a Scrapeadh

<input type = "input" name = "website_url" id = "website_url">

<input type = "submit" name = "submit" value = "Cuir isteach">

</form>

Céimeanna2: Cruthaigh Feidhm PHP chun Sonraí Suíomh Gréasáin a Fháil:

Is é an dara céim ná scrapes feidhm PHP a chruthú sa chomhad scrape.php mar go gcabhróidh sé le sonraí a fháil agus an leabharlann URL a úsáid. Tabharfaidh sé deis duit freisin ceangal agus cumarsáid a dhéanamh le freastalaithe agus prótacail éagsúla gan aon cheist.

feidhm scrapeSiteData ($ site_url) {

más rud é (! function_exists ('curl_init')) {

bás ('níl cURL suiteáilte. Suiteáil le do thoil agus bain triail eile as.');

}

$ curl = curl_init ();

curl_setopt ($ curl, CURLOPT_URL, $ website_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, fíor);

$ aschur = curl_exec ($ curl);

curl_close ($ curl);

tuairisceán $ aschur;

}

Anseo, is féidir linn a fheiceáil an bhfuil an PHP cURL suiteáilte i gceart nó nach bhfuil. Caithfear trí phríomh-CURL a úsáid sa réimse feidhmeanna agus cuideoidh curl_init () leis na seisiúin a thionscnamh, cuirfidh curl_exec () i gcrích é agus cuideoidh curl_close () leis an nasc a dhúnadh. Úsáidtear na hathróga ar nós CURLOPT_URL chun na URLanna láithreán gréasáin a theastaíonn uainn a scrabhadh a shocrú. Cuideoidh an dara CURLOPT_RETURNTRANSFER leis na leathanaigh scrapáilte a stóráil san fhoirm athraitheach seachas a bhfoirm réamhshocraithe, a thaispeánfaidh an leathanach gréasáin iomlán sa deireadh.

Céimeanna3: Scrape Sonraí Sonracha ón Suíomh Gréasáin:

Tá sé in am feidhmiúlachtaí do chomhad PHP a láimhseáil agus an chuid shonrach de do leathanach gréasáin a scrabhadh. Mura dteastaíonn na sonraí go léir uait ó URL ar leith, ba cheart duit na hathróga CURLOPT_RETURNTRANSFER a chur in eagar agus aird a tharraingt ar na codanna is mian leat a scrabhadh.

más rud é (isset ($ _ POST ['submit'])) {

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Poist is Déanaí');

$ end_point = strpos ($ html, '', $ start_point);

$ length = $ end_point- $ start_point;

$ html = substr ($ html, $ start_point, $ fad);

macalla $ html;

}

Molaimid duit an t-eolas bunúsach ar PHP agus na Léirithe Rialta a fhorbairt sula n-úsáideann tú aon cheann de na cóid seo nó má scríobhann tú blag nó suíomh Gréasáin áirithe chun críocha pearsanta.