Naisao sam na sledeci problem.
Potrebno mi je da sadrzaj nekog dokumenta "iscitam" i da sadrzaj tog dokumenta prebacim u bazu.
Elem, koristio sam sledeci code:
$handle = @fopen("documentacion/test.doc", "r");
if ($handle) {
while (!feof($handle)) {
$buffer = fgetss($handle);
echo $buffer;
}
fclose($handle);
}
Ukoliko je to dokument se .txt ekstenzijom, nije nikakav problem dobiti citljiv rezultat. Medjutim problem se javlja kada je u pitanju microsoft word.
Pre nego 'dodjem' do teksta, nailazim na stotine kukica kvacica i sl... pokusao sam da sa substr() resim problem, ali je duzina tog "nerazumljivog dela" pre pravog teksta razlicita u svakom dokumentu. ISte kukice i kvacice nalaze se i nakon razumljivog teksta.
To izgleda otprilike ovako (skratio sam dobar deo sa pocetka i sa kraja fajla, radi lakseg prikaza):
@@@=@@@@¸¸¸d¸¸¸¸¸¸¤¤¤¤¤¤ÿÿÿÿ Proba za Vladu. øðøåhXs/hXs/mH sH
Ideja je da se dokument uploadovan na server iscita, da se njegov sadrzaj upise u tabelu u bazi, kako bi kasnije mogao da radim pretragu. U pitanju je veliki broj dokumenata, koji se svakodnevno azuriraju i menjaju.
Unapred hvala na svakoj ideji i savetu.