Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.

Problem sa parsiranjem dugačkog streama

[es] :: Java :: Problem sa parsiranjem dugačkog streama

[ Pregleda: 1666 | Odgovora: 2 ] > FB > Twit

Postavi temu Odgovori

Autor

Pretraga teme: Traži
Markiranje Štampanje RSS

tiranin
Dorćol

Član broj: 37185
Poruke: 245
*.pat-pool.bgd.sbb.co.yu.



Profil

icon Problem sa parsiranjem dugačkog streama01.08.2005. u 11:44 - pre 228 meseci
Hoću da parsiram jednu html stranicu, koja je mnogo velika, preko 300K.
Napravio sam klase za parsiranje i kada uradim Save as, i prebacim html na lokalni računar, sve radi bez greške.
Međutim, kada hoću da tu html stranicu učitavam preko
Code:

UTL url = new URL("http://nekaadresa/neki.html");
BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream()):

nekad radi, a nekad ne.
Da malo pojasnim.
Da ne bih imao buffer od preko 300K, učitavam sa reader.read(buffer,0,size) deo po deo tog html fajla, predam klasi za parsiranje, parsiram taj deo, ostatku dodam sledeću porciju i tako dalje.
I, ponavljam, na taj način, kada mi je BufferedReader za neki lokalni fajl sve lepo radi. Znači nije greška u algoritmu, osim ...
E, to osim me muči. Pretpostavljam da mi nešto sa sinhronizacijom nije u redu, jer naravno preko mreže nekad stvari idu sporije, a nekad ne. Nisu uvek isti delovi html preskočeni, a nisam uspeo da ukačim šta fali. Testno sam napravio veeeliki buffer, 400K, i sve učitao u komadu i greške nema. U parčićima, kada je fajl u lokalu, opet greške nema.
Ima li neko generalno ideju šta da promenim u pristupu. Ili kakav link na slične probleme da pogledam gde sam nešto propustio.

[Ovu poruku je menjao tiranin dana 01.08.2005. u 12:46 GMT+1]
 
Odgovor na temu

obranko
severna amerika

Član broj: 36599
Poruke: 152
*.cpe.net.cable.rogers.com.



+1 Profil

icon Re: Problem sa parsiranjem dugačkog streama12.08.2005. u 00:12 - pre 227 meseci
pozdrav,

ako parsiras html moze se desiti da u delu fajla koji si ucitao imas "open tag" a da "closing tag" jos nije ucitan. proveri kako "handlujes" takve slucajeve.
ja sam napravio program koji radi slicnu stvar (ucitava html stranu, pretrazi je, pa ako ucitana strana ima referencu na drugu stranu, ucitaje i td..) ali nisam imao takve probleme (moja veza je high-speed sto moze imati uticaj).
 
Odgovor na temu

tiranin
Dorćol

Član broj: 37185
Poruke: 245
*.pat-pool.bgd.sbb.co.yu.



Profil

icon Re: Problem sa parsiranjem dugačkog streama12.08.2005. u 08:44 - pre 227 meseci
Rešio sam problem, ali zbog zastoja na ESu nisam mogao da ga postujem.
Našao sam neku diskusiju na Google, lik kao da je prepisao moj kod i imao isti problem. I njemu posavetovaše. a i ja primenih, umesto
Code:

reader.read(buffer,0,duzina);


sam stavio
Code:

reader.readLine();

i sve fino radi.
Kako sam pročitao u toj diskusiji, moguće je da mi dvobajtni karakter ostane presečen ...da ne dužim priču.
Ja sam hteo da brže učitam, ali je readLine() kažu bolji jer lepo dekodira, sklanja neprintabilne karaktere ...
Eto, vrlo jednostavno rešenje, ali mi je problem zadao puno glavobolje.
 
Odgovor na temu

[es] :: Java :: Problem sa parsiranjem dugačkog streama

[ Pregleda: 1666 | Odgovora: 2 ] > FB > Twit

Postavi temu Odgovori

Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.