Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.

Pretrazivanje unutar knjiga/dokumenata

[es] :: Baze podataka :: Pretrazivanje unutar knjiga/dokumenata

[ Pregleda: 2471 | Odgovora: 7 ] > FB > Twit

Postavi temu Odgovori

Autor

Pretraga teme: Traži
Markiranje Štampanje RSS

muki_sa
Sarajevo

Član broj: 200067
Poruke: 2
92.36.169.*



Profil

icon Pretrazivanje unutar knjiga/dokumenata04.11.2008. u 14:35 - pre 188 meseci
Eh ne znam da li je nesto slicno postano na ovu temu, al' ako jest, molio bih da mi date link...

Naime, imam 50ak naslova knjiga, poneke imaju i po 10ak dijelova. Znaci, nekih 300-400 knjiga ukupno. Ono sto meni treba jeste sljedece:

Napraviti bazu na NAJJEDNOSTAVNIJI nacin koja ce mi omoguciti da pretrazujem po njoj na osnovu rijeci, ili niza rijeci. Znaci, ukucam rijec "informatika" i da mogu na lak nacin da pristupim toj knjizi upravo na taj dio gdje se spominje ta rijec... Bilo bi pozeljno da selektira spomenutu rijec...

Jako mi je prioritetno, pa Vas molim da podjelite licno iskustvo, ako ga je neko imao...

Unaprijed zahvaljujem.
 
Odgovor na temu

momsab
Momčilo
Beograd, R.Srbija

Član broj: 2804
Poruke: 3041
*.dynamic.sbb.rs.

Jabber: pitati@PP
Sajt: www.momsab.com


+1 Profil

icon Re: Pretrazivanje unutar knjiga/dokumenata04.11.2008. u 15:14 - pre 188 meseci
prvo je potrebno skenirati te slike, onda ih indeksirati skroz-naskroz
Google, MS, Yahoo i jos neki to rade vec neko veme i nije bas tako lako uraditi, zahteva mnogo cimanja

uglavnom, zamisljam na brzinu sledece entitete za pocetak: autor, izdavac, knjiga, pojam
Žena u krevetu i vino na stolu nikako ne smeju da čekaju. Jer, vino se greje a žena hladi.

-vinolog
 
Odgovor na temu

vbbojan
Atanasijevic Bojan
Digit Consulting d.o.o.
Beograd

Član broj: 31580
Poruke: 273
93.93.194.*

Sajt: www.digitconsulting.rs


+20 Profil

icon Re: Pretrazivanje unutar knjiga/dokumenata04.11.2008. u 15:49 - pre 188 meseci
Prilicno si skromno predstavio problem, neka od kljucnih pitanja su na primer:

1. U kom formatu su knjige (pdf, html, doc, txt ...)
2. Gde se knjige čuvaju (baza ili filesystem)
3. Kakvu bazu napraviti (pretpostavljam index ključnih reči ili bazu koja će čuvati sadržaje knjiga ...)
ovo se jednostavno mora znati.
4. Dadati po želji - Ima tu još dosta pitanja.

Možda ne znaš šta je .pdf, .html, možda ne znaš ni šta je baza podataka i to bi objasnilo upravo
ovako postavljen problem.

Ne postoji "najjednostavniji način" da se tvoj problem reši, cela stvar je "relativno" kompleksna
i dok ne opišeš problem kvalitetno (ako umeš) ne verujem da ti iko može pomoći.

Na ovom forumu najverovatnije ti niko neće dati kompletno rešenje zadatka, ali će ti
veoma rado priskočiti u pomoć ako si krenuo nešto da radiš pa je to negde zapelo.


Znači probaj ponovo, ali na primer ovako:

Citat:

1. Imam 400 knjiga u pdf formatu.
2. Knjige(fajlovi) se nalaze u file sistemu / bazi podataka
3. Potrebno je kreirati bazu podataka sa ključnim rečima iz knjiga
4. Omogućiti pretragu ključnih reči u bazi podataka koja vraća reference (stranice npr.) gde se sve tražena nalazi
5. Po pronalaženju referenci omogućiti otvaranje same knjige i pozicioniranje na datu referencu

Kako da rešim sledeći problem:
Na koji način da izvršim pretragu pdf dokumenta i da ubacim sve reči u bazu podataka sa referncama na strane
gde su te reči pronađene.

Ovo je sklepano provizorno, služi samo kao primer.


Ovaj moj odgovor ti nažalost nije dao nikakvo rešenje, ali ti daje smernice o čemu treba sve razmisliti
pre nego što se potraži pomoć.

Često ljudi postavljaju pitanja koja ni sami posle ne razumeju.

Moj odgovor nema nameru da omalovaži tvoje znanje i ličnost na bilo koji način,
i dat je sa namerom da ljudi koji ovde traže pomoć malo bolje uvide/sjvate načine
na koje se pitanja postavljaju.


U svakom slučaju, probaj ponovo, pa da vidimo šta može da se uradi.

Srdačan pozdrav,
Bojan





A možda sve ovo i nije za ovaj forum?
 
Odgovor na temu

muki_sa
Sarajevo

Član broj: 200067
Poruke: 2
92.36.169.*



Profil

icon Re: Pretrazivanje unutar knjiga/dokumenata05.11.2008. u 07:13 - pre 188 meseci
hehheeh

Dobro, mislio sam da ce se razumjeti iz konteksta dosta toga, al ocito nije.

Ovako:

Imam oko 400 knjiga u elektronskom formatu (nevazno da li je to .doc, .pdf bla bla), vazno je da su u elektronskom formatu.
Znaci, sad hocu novu knjigu da pisem koja ima veze s prethodnih 400 dijelova, ali ne u potpunosti ista, vec neki citati se ponavljaju...
Eh sad, da se ja ne bih ponavljao u tim identicnim dijelovima, tj. mucio i prevodio ponovo (radi se o prevodima sa stranih jezika), treba da na osnovu jedne ili vise vezanih rijeci nadjem gdje se sve spominje to u prethodno napisanih 400 knjiga. Da mi izbaci nakon pretrage sve gdje se sve nalazi to, ali ne samo ta rijec vec bar dio recenice kako bih ja mogao uvidjeti koji je dio bas identican, a koji ne..

Znaci, svaka knjiga je u zasebnom dokumentu, a format mislim da je nevazan kad znate da je u elektronskom formatu, al ako je i to vazno, ja mogu prebaciti u formati koji je potreban radi olaksanja.


Sto se tice teme, mozda je skromno opisana, ocito da i jest, al' bilo je kraj radnog vremena i kolega mi nabrzinu predlozio da se Vama obratim za pomoc i smjernice, pa sam nabrzinu naskrabao sta mi je "naletjelo"...

Ako jos neka pojedinost treba, pitajte..

Hvala svima na brzoj reakciji...
 
Odgovor na temu

vbbojan
Atanasijevic Bojan
Digit Consulting d.o.o.
Beograd

Član broj: 31580
Poruke: 273
79.101.128.*

Sajt: www.digitconsulting.rs


+20 Profil

icon Re: Pretrazivanje unutar knjiga/dokumenata05.11.2008. u 11:12 - pre 188 meseci
Ok sad je malo jasnije šta se zapravo traži.

Obzirom da je ad-hock stvar u pitanju, moj predlog je da se uopšte ne
bakćeš sa bazama podataka, jer ti neće biti nimalo praktično da praviš
nešto prilično kompleksno za jednokratnu upotrebu. Naročito što bi
to između ostalog bilo i "izmišljanje tople vode".

Umesto toga ti preporučujem da koristiš neke od alata koji će poslužiti
upravo za ono što tebi treba, a verovatno ih već imaš pri ruci, na primer
jedan od prvih hitova sa google za pojam

"searching through multiple pdf files"

daje sledeći link:

http://web.wm.edu/it/banner/tr...xedSearchesForPDFs.pdf?svr=www

a tu je lepo objašnjeno kako najobičniji Adobe Reader upravo može da uradi ono
što tebi treba.

Isti princip možeš primeniti i za ostale formate ....

Malo razmišljanja, malo "googlanja" i problem se brzo reši.

Mislim da ti je ovo lakši i efikasniji put da završiš posao.

Predlažem da se ova tema preseli na neko pogodnije mesto.

Pozdrav,
Bojan
 
Odgovor na temu

MarkoBalkan

Član broj: 141124
Poruke: 1624
...133.13-dsl.net.metronet.hr.



+19 Profil

icon Re: Pretrazivanje unutar knjiga/dokumenata06.11.2008. u 20:45 - pre 188 meseci
kod firebirda postoji funkcija za pretraživanje Blob polja.

tj. ako se ubacuju dokumenti lako se pretrazuju.

bilo da je pdf, doc, ne znam sta sve podrzava.
 
Odgovor na temu

savkic
Igor Savkić

Član broj: 92186
Poruke: 2739



+92 Profil

icon Re: Pretrazivanje unutar knjiga/dokumenata07.11.2008. u 13:05 - pre 188 meseci
> kod firebirda postoji funkcija za pretraživanje Blob polja.
> tj. ako se ubacuju dokumenti lako se pretrazuju.
> bilo da je pdf, doc, ne znam sta sve podrzava.

Koliko ja znam podržano je pretraživanje blobova sa tekstualnim sadržajem. Pretraga .pdf i .doc ili drugih binarnih fajlova je moguća ali zahteva prethodnu konverziju u čist tekst što se može raditi pomoću posebno napisanih filtera. Dakle ne postoji (verovatno ni u jednom RDBMS) default mogućnost ubacivanja proizvoljnog binarnog dokumenta u blob i njegova pretraga sa postojećim alatima.
 
Odgovor na temu

franjo_tahi
Franjo Tahi
Zagreb

Član broj: 34712
Poruke: 399
*.adsl.net.t-com.hr.



+1 Profil

icon Re: Pretrazivanje unutar knjiga/dokumenata11.11.2008. u 07:38 - pre 187 meseci
Ovo je tema koja i mene zanima. Moja ideja je sljedeća: dokumente dobiti u PDF-format i čuvati ih u file system-u, napraviti OCR konveziju, a dobiveni tekst čuvati u blob field-u baze.
Pri pretraživanju za zadati pojam - izdvojiti rečenicu iz dokumenta u kom se pojavljuje (tekst), a po želji prikazati ili ispisati PDF.

Radim u Delphi-u s Firebird bazom.

Želim izbječi, ako je ikako moguče, korištenje vanjskih programa. Želio bih da cijeli projekt bide čisti Delphi program, zbog cijene za krajnjeg korisnika i zbog jednostanije instalacije.

Pronašao sam dosta dobru kontrolu za scan-iranje dokumenata, jednostavna je za uporabi i zadovoljava sve uvjete (a k tome i besplatna).

Sa OCR-om je malo veči problem... em slova čžšđć, em skupo.
Zanima me da li se tko od vas bavio OCR-om, da mi može preporučiti kontrolu koja mora imati mogučnost "učenja"
 
Odgovor na temu

[es] :: Baze podataka :: Pretrazivanje unutar knjiga/dokumenata

[ Pregleda: 2471 | Odgovora: 7 ] > FB > Twit

Postavi temu Odgovori

Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.