Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.

Parsiranje HTML stranica

[es] :: PHP :: Parsiranje HTML stranica

[ Pregleda: 836 | Odgovora: 5 ]

Postavi temu Odgovori

Autor

Pretraga teme: Traži
Markiranje Štampanje RSS

miličić.marko
Miličić Marko
Novi Sad

Član broj: 12598
Poruke: 346
*.as1.dla.dublin.eircom.net.

Sajt: milicicmarko.blogspot.com


Profil

icon Parsiranje HTML stranica27.03.2007. u 20:51

Potrebno je napisati PHP kod koji parsira HTML fajlove odredjenog formata i prikuplja ciste podatke. Na primer, podaci mogu biti predstavljenji tabelarno, a podaci su vredsnosti u <td> tagovima.

Stranice mogu biti jako komplekse (ugnjezdene tabele i slicno) sta predlazete od PHP alata ili biblioteka za resavanje ovog problema. Razlimsljao sam o HTML tidy biblioteci i konvertovanju HTML koda u XML kod a zatim parsiranje XML koda uz pomoc nekog XML parsera.


Da li nekome pada na pamet neko drugacie resenje.

PS.
Mislim da regularni izrazi ne bi mogli da rese ovako slozene stranice.....
Skripte iz oblasti računarstva na Srpskom jeziku
kontakt email milicic [tacka] marko [na] gmail [tacka] com

Numizmatička kolekcija:
http://numismaticscollection.blogspot.com/
27.03.2007. u 20:51 

dakipro
Dalibor Jovic
PHP Developer, SMDesign, Ciplex
Novi Sad

Moderator
Član broj: 31848
Poruke: 691
195.252.91.*



Profil

icon Re: Parsiranje HTML stranica27.03.2007. u 21:43
Glasam za konvertovanje u XML, pa parsing. To je i meni prvo palo na pamet, a nekako je lako za navigaciju po strani. Celu stranu parsiras u niz, i vadis sta ti treba.
27.03.2007. u 21:43 

Nemanja Avramović
PHP developer, Webinsane
Mladenovac, Srbija

Moderator
Član broj: 32202
Poruke: 3860
194.106.174.*

ICQ: 266136396
Sajt: www.avramovic.info


Profil

icon Re: Parsiranje HTML stranica28.03.2007. u 00:09
Ako su baš tabele u pitanju, glasam za table2arr
Moj sajt. Moj blog. Moj avatar. Moj grad. Moja frizura.

[NE PRUŽAM PODRŠKU ZA PHP PREKO PRIVATNIH PORUKA!]
28.03.2007. u 00:09 

nezki
Miodrag Lapcevic
Beograd

Član broj: 101503
Poruke: 268
212.62.53.*

Sajt: www.strictsystem.com


Profil

icon Re: Parsiranje HTML stranica28.03.2007. u 19:30
Ja sam za to da odmah parsiras html, a za to imas gotovu pear klasu, a ako ne koristis pear pogledaj na PHP class imas takodje gotovu klasu.
Kada resis problem hajde budi dobar clan ovog foruma pa podeli resenje sa ostalima jer je ova tema bas zanimljiva i korisna.
Poz :)
djLapac
28.03.2007. u 19:30 

miličić.marko
Miličić Marko
Novi Sad

Član broj: 12598
Poruke: 346
89.124.143.*

Sajt: milicicmarko.blogspot.com


Profil

icon Re: Parsiranje HTML stranica28.03.2007. u 21:29
Hvala na savetima. Pocecu sa idejom da uz pomoc tidy-ja konvertujem HTML u XML, a zatim da parsiram taj XML koriscenjem xpath funkcionalnosti SimleXML-a koji je ugradjen u PHP 5. Takodje planiram da napisem apstratkni skup klasa za parsiranje bilo kog HTML-a. Infomracije ce da se pronalaze xpath sintaksom....


Ukoliko se pokaze i suvise komplikovano verovatno cu direkno da parsiram HTML koristeci se iskljucivo PHP-um.


Javljam kako ide :)


predlozi su i dalje dobrodosli.
Skripte iz oblasti računarstva na Srpskom jeziku
kontakt email milicic [tacka] marko [na] gmail [tacka] com

Numizmatička kolekcija:
http://numismaticscollection.blogspot.com/
28.03.2007. u 21:29 

miličić.marko
Miličić Marko
Novi Sad

Član broj: 12598
Poruke: 346
89.124.143.*

Sajt: milicicmarko.blogspot.com


Profil

icon Re: Parsiranje HTML stranica28.03.2007. u 21:36
@ Nemanja Avramovic.

Nazalos nisu samo tabele u ptanju. Ugnjezdene table sam naveo kao primer slozene strukture HTML dokumenta. Njih je najteze parsirati za razliku od web20 lepo formatiranih HTML stranica.... css stil ti je dovoljan da izvuces sve sto ti treba. medjutim god starok (messy) HTML koda, a pogotovo generisanog uz pomoc ASP-a parsiranje postaje nocna mora.
Skripte iz oblasti računarstva na Srpskom jeziku
kontakt email milicic [tacka] marko [na] gmail [tacka] com

Numizmatička kolekcija:
http://numismaticscollection.blogspot.com/
28.03.2007. u 21:36 

[es] :: PHP :: Parsiranje HTML stranica

[ Pregleda: 836 | Odgovora: 5 ]

Postavi temu Odgovori

Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.