Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.

Izvalcenje neHTML reci iz web strane

[es] :: Perl :: Izvalcenje neHTML reci iz web strane

[ Pregleda: 4184 | Odgovora: 1 ] > FB > Twit

Postavi temu Odgovori

Autor

Pretraga teme: Traži
Markiranje Štampanje RSS

misa vranje
Milos Stanojevic
Vranje

Član broj: 15298
Poruke: 127
62.108.97.*



Profil

icon Izvalcenje neHTML reci iz web strane31.01.2005. u 00:22 - pre 234 meseci
Treba da iz stringa primera:
<tbody><tr><th align="left" bgcolor="#f0f0f0" nowrap="nowrap">Engleski jezik</th><th align="left" bgcolor="#f0f0f0" nowrap="nowrap">Srpski jezik</th></tr><tr><th align="left">god</th><td>bog</td></tr>

izvucem ne html reci.Dosao sam do $_=~/(?:<.*?>)*([^<]+)/g
ali problem nastaje kod toga sto se ceo primer zavrsava sa praznim prostorom pa tek onda ide kraj stringa.Znaci umesto da dobijem cetri nova stringa ja dobijam 5 gde je peti sa jednim spaceom.
Koji mi regularni izraz treba?
 
Odgovor na temu

OmerBeg

Član broj: 34822
Poruke: 18
*.de.uu.net.

Sajt: www.oglasi.com


Profil

icon Re: Izvalcenje neHTML reci iz web strane02.02.2005. u 15:23 - pre 234 meseci
Evo ovo je code koji ti iz html stranice izvadi tekst

Code:
 

$ perl  -e 'use HTML::TokeParser; 
use LWP::UserAgent;

my $ua = new LWP::UserAgent;
my $html = $ua->get("http://www.srebrenik.net/")->content;

sub html2text {
  my($html) = shift;
  my $p = HTML::TokeParser->new(\$html);
  my $body = $p->get_tag("body");
  my $text = $p->get_trimmed_text("/body");
  $text =~ s/\240/ /g; # &nbsp;
  $text =~ s/\s+/ /g;

  $text;
}

my $txt = html2text($html);
print $txt, "\n";
'




Pozdrav!
SdP,
OmerBeg !!!!

www.oglasi.com - najveci izbor nekretnina na Balkanu !!!!
 
Odgovor na temu

[es] :: Perl :: Izvalcenje neHTML reci iz web strane

[ Pregleda: 4184 | Odgovora: 1 ] > FB > Twit

Postavi temu Odgovori

Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.