Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.

Parsiranje HTML stranica

[es] :: PHP :: Parsiranje HTML stranica

[ Pregleda: 3592 | Odgovora: 5 ] > FB > Twit

Postavi temu Odgovori

Autor

Pretraga teme: Traži
Markiranje Štampanje RSS

miličić.marko
Miličić Marko
Novi Sad

Član broj: 12598
Poruke: 346
*.as1.dla.dublin.eircom.net.

Sajt: milicicmarko.blogspot.com


+1 Profil

icon Parsiranje HTML stranica27.03.2007. u 20:51 - pre 207 meseci
Potrebno je napisati PHP kod koji parsira HTML fajlove odredjenog formata i prikuplja ciste podatke. Na primer, podaci mogu biti predstavljenji tabelarno, a podaci su vredsnosti u <td> tagovima.

Stranice mogu biti jako komplekse (ugnjezdene tabele i slicno) sta predlazete od PHP alata ili biblioteka za resavanje ovog problema. Razlimsljao sam o HTML tidy biblioteci i konvertovanju HTML koda u XML kod a zatim parsiranje XML koda uz pomoc nekog XML parsera.


Da li nekome pada na pamet neko drugacie resenje.

PS.
Mislim da regularni izrazi ne bi mogli da rese ovako slozene stranice.....
Skripte iz oblasti računarstva na Srpskom jeziku
kontakt email milicic [tacka] marko [na] gmail [tacka] com

Numizmatička kolekcija:
http://numismaticscollection.blogspot.com/
 
Odgovor na temu

dakipro
Dalibor Jovic
Web Developer
Bergen, Norway

Moderator
Član broj: 31848
Poruke: 1792
195.252.91.*

Sajt: norway.dakipro.com


+190 Profil

icon Re: Parsiranje HTML stranica27.03.2007. u 21:43 - pre 207 meseci
Glasam za konvertovanje u XML, pa parsing. To je i meni prvo palo na pamet, a nekako je lako za navigaciju po strani. Celu stranu parsiras u niz, i vadis sta ti treba.
 
Odgovor na temu

Nemanja Avramović
Engineering Manager
MENU Technologies
Beograd, Srbija

Moderator
Član broj: 32202
Poruke: 4391
194.106.174.*

Sajt: https://avramovic.info


+46 Profil

icon Re: Parsiranje HTML stranica28.03.2007. u 00:09 - pre 207 meseci
Ako su baš tabele u pitanju, glasam za table2arr
Laravel Srbija.

[NE PRUŽAM PODRŠKU ZA PHP PREKO PRIVATNIH PORUKA!]
 
Odgovor na temu

nezki
Miodrag Lapcevic
Beograd

Član broj: 101503
Poruke: 438
212.62.53.*

Sajt: www.websolutions.co.rs


Profil

icon Re: Parsiranje HTML stranica28.03.2007. u 19:30 - pre 207 meseci
Ja sam za to da odmah parsiras html, a za to imas gotovu pear klasu, a ako ne koristis pear pogledaj na PHP class imas takodje gotovu klasu.
Kada resis problem hajde budi dobar clan ovog foruma pa podeli resenje sa ostalima jer je ova tema bas zanimljiva i korisna.
Poz :)
djLapac
 
Odgovor na temu

miličić.marko
Miličić Marko
Novi Sad

Član broj: 12598
Poruke: 346
89.124.143.*

Sajt: milicicmarko.blogspot.com


+1 Profil

icon Re: Parsiranje HTML stranica28.03.2007. u 21:29 - pre 207 meseci
Hvala na savetima. Pocecu sa idejom da uz pomoc tidy-ja konvertujem HTML u XML, a zatim da parsiram taj XML koriscenjem xpath funkcionalnosti SimleXML-a koji je ugradjen u PHP 5. Takodje planiram da napisem apstratkni skup klasa za parsiranje bilo kog HTML-a. Infomracije ce da se pronalaze xpath sintaksom....


Ukoliko se pokaze i suvise komplikovano verovatno cu direkno da parsiram HTML koristeci se iskljucivo PHP-um.


Javljam kako ide :)


predlozi su i dalje dobrodosli.
Skripte iz oblasti računarstva na Srpskom jeziku
kontakt email milicic [tacka] marko [na] gmail [tacka] com

Numizmatička kolekcija:
http://numismaticscollection.blogspot.com/
 
Odgovor na temu

miličić.marko
Miličić Marko
Novi Sad

Član broj: 12598
Poruke: 346
89.124.143.*

Sajt: milicicmarko.blogspot.com


+1 Profil

icon Re: Parsiranje HTML stranica28.03.2007. u 21:36 - pre 207 meseci
@ Nemanja Avramovic.

Nazalos nisu samo tabele u ptanju. Ugnjezdene table sam naveo kao primer slozene strukture HTML dokumenta. Njih je najteze parsirati za razliku od web20 lepo formatiranih HTML stranica.... css stil ti je dovoljan da izvuces sve sto ti treba. medjutim god starok (messy) HTML koda, a pogotovo generisanog uz pomoc ASP-a parsiranje postaje nocna mora.
Skripte iz oblasti računarstva na Srpskom jeziku
kontakt email milicic [tacka] marko [na] gmail [tacka] com

Numizmatička kolekcija:
http://numismaticscollection.blogspot.com/
 
Odgovor na temu

[es] :: PHP :: Parsiranje HTML stranica

[ Pregleda: 3592 | Odgovora: 5 ] > FB > Twit

Postavi temu Odgovori

Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.