Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.

Ogromna PDF baza

[es] :: IT berza poslova :: Arhiva IT berze poslova :: Ogromna PDF baza

Strane: 1 2

[ Pregleda: 3695 | Odgovora: 27 ]

Postavi temu Odgovori

Autor

Pretraga teme: Traži
Markiranje Štampanje RSS

triD
Bojan Radulovic
Beograd

Član broj: 28379
Poruke: 4
62.108.111.*

Sajt: www.trid.co.yu


Profil

icon Ogromna PDF baza15.09.2004. u 13:30

Treba napraviti bazu koja se brzo moze pretraživati po svim rečima.
Baza se pravi od skeniranih dnevnih novina formata A3. Zahtev je da se novina skenira, pretvori u pdf fajlove i postavi u bazu koja bi se mogla brzo pretraživati.
Problem je naizgled jednostavan, ali radi se o novini koja izlazi 40 godina, svaki dan, i ima 40 strana.
Treba napraviti projekat koji uključuje hardver, softver organizaciju.

tri D - priprema za štampu
Krunska 46
011.32.42.899
www.trid.co.yu
studio.trid@gmail.com
15.09.2004. u 13:30 

zsteva

Član broj: 503
Poruke: 31
*.smin.sezampro.yu.

ICQ: 26239191


Profil

icon Re: Ogromna PDF baza15.09.2004. u 15:24

u, dobra posao.

oko pola miliona A3 strana.

skeniranje: ako u proseku ne moze bez jednog minuta da se skenira stranica,
to izadje na oko 3 godina/covek vremena.

sken strane ne moze biti manji od 1Mb shto mu dodje oko 500Gb.

OCR, uz malo srece moze da se uradi, uz dovoljno hardwera, i dovoljno dobar
program. brzina, pa verovatno ne brze nego skeniranje...

indexiranje, e to je vec decija igra kad se ovo gore reshi....

sve u svemu projekat verovatno cirkla preko 10 miliona dinara.

pitanje samo kome to treba....
15.09.2004. u 15:24 

MorenoArdohain

Član broj: 33751
Poruke: 84
*.beotel.net

Sajt: www.mojmobilni.com


Profil

icon Re: Ogromna PDF baza15.09.2004. u 16:23
Izvodjljivo je, pitanje je samo da li imate pare za tako nesto
15.09.2004. u 16:23 

flylord
Ilić Aleksandar
Freedomia (direktor)
Nis/Uzice

Tehnički konsultant
Član broj: 2954
Poruke: 3439
212.200.97.*

Jabber: flylord@elitesecurity.org
ICQ: 4849714
Sajt: blog.itseminar.org


Profil

icon Re: Ogromna PDF baza15.09.2004. u 17:42
Citat:
zsteva:
skeniranje: ako u proseku ne moze bez jednog minuta da se skenira stranica,
to izadje na oko 3 godina/covek vremena.


Odakle ti minut!??!?! Sto pricas nesto sto ne znas!?!? Imas profi skenere koji mogu da skeniraju na 200-300 dpi (za novine i txt uglavnom dosta), za 0.5-1 sec!!!
Prema tome, kad ne znas, bolje cuti
I gde si nasao 10 000 000 din? Na osnovu cega si izracunao!?
uzass
15.09.2004. u 17:42 

zsteva

Član broj: 503
Poruke: 31
*.smin.sezampro.yu.

ICQ: 26239191


Profil

icon Re: Ogromna PDF baza15.09.2004. u 19:35
prvo, ako si expert daj tacnu racunicu. ja nisam ni upucen u tu oblast, samo sam
pokushao sebi i ostalima da predstavim red velicine problema.

pa nije samo skeniranje deo procesa ? kolko kamiona novina treba da se spremi
tako da moze da se provuce kroz profi skener.

recimo da je to oko 50tak metara visoka gomila formata A3, kolko treba
vreme/covek jedinica da se takav materijal spremi za ultra brzi skener ?

ja se nadam da ce (ako projekat ikad bude realizovan) da se informacije:
kolko para, kolko ljudi i kolko vremena pojavi ovde na forumu.

btw: ljudi su se gadno mucili da naprave PDF izdanje necega shto imaju u quark-u,
ovo je extra proces.


[Ovu poruku je menjao Bojan Basic dana 16.09.2004. u 00:37 GMT]
15.09.2004. u 19:35 

zsteva

Član broj: 503
Poruke: 31
*.smin.sezampro.yu.

ICQ: 26239191


Profil

icon Re: Ogromna PDF baza15.09.2004. u 19:40
BTW, sha mislite da li bilo koji OCR ume da prepozna sken sa novinskog papira,
starog 40 godina, sa ko zna kakvim fontom...
15.09.2004. u 19:40 

Raspucin
Ljubisa Punosevac
Java Programer
Salzburg, Austrija

Član broj: 20699
Poruke: 169
*.medianis.net

ICQ: 244452581


Profil

icon Re: Ogromna PDF baza15.09.2004. u 20:57
"Imate li vi momci para za ovo planinarenje?"...

Naravno salim se. Dosta ozbiljan posao.

Citat:
zsteva
indexiranje, e to je vec decija igra kad se ovo gore reshi....


Indeksiranje je cela nauka pogotovu za nesto ovog obima.
15.09.2004. u 20:57 

byTer

Član broj: 10936
Poruke: 1221
*.info-net.co.yu

ICQ: 47761626


Profil

icon Re: Ogromna PDF baza15.09.2004. u 21:00
Skeniranje svega je glavni problem. Ako moze ko sto kaze flylord da se skenira sve to brzo, onda je laganica da se sve to lako odradi.

Znaci
- skeniranje i citanje iz Fine Readera
- save as Word Document
- (spajanje dokumenata)
- Konverzija u PDF

Samo me malo zulja sto sve ovo ne ide u bazu nego ide u PDF.
15.09.2004. u 21:00 

Raspucin
Ljubisa Punosevac
Java Programer
Salzburg, Austrija

Član broj: 20699
Poruke: 169
*.medianis.net

ICQ: 244452581


Profil

icon Re: Ogromna PDF baza15.09.2004. u 21:19
Ovo je tolika koska da ne mozes ni da zamislis kolika. Raspitaj se malo sta je uradio i dokle su stigli JAT i Djerdap sa skeniranjem i skladistenjem svoje dokumentacije.

Ovde nema ni l od "laganice", osim toga da li je neko radio sa bazom reda velicine 500GB-1TB?


[Ovu poruku je menjao Bojan Basic dana 16.09.2004. u 00:37 GMT]
15.09.2004. u 21:19 

VRider
Marković Damir
(BGD/SD Karaburma)/Pirot

Član broj: 1510
Poruke: 4129
212.200.53.*

Jabber: damirm | gmail | com
ICQ: 134002435


Profil

icon Re: Ogromna PDF baza15.09.2004. u 21:28
Kojih crnih 500GB-1TB? Da li ste ludi?
Jedan A3 list u pdf-u == 1MB? LOL
Ovo ne bi bilo vece od 30-40GB.
'Ajde da ja budem konstruktivniji: koji je list? Koje pismo (cirilica ili latinica)? Koliko su ocuvani primerci koje treba skenirati? Koliko ljudi, vremena i para ste spremni da odvojite za ovako nesto?
15.09.2004. u 21:28 

Raspucin
Ljubisa Punosevac
Java Programer
Salzburg, Austrija

Član broj: 20699
Poruke: 169
*.medianis.net

ICQ: 244452581


Profil

icon Re: Ogromna PDF baza15.09.2004. u 21:41
Citat:
VRider: Kojih crnih 500GB-1TB? Da li ste ludi?
Jedan A3 list u pdf-u == 1MB? LOL
Ovo ne bi bilo vece od 30-40GB.


Za one koji ne znaju da racunaju 1list=1MB*40 strana (1 dan)=40MB
40MB*365 dana (1 godina) =14600MB ili ti drugim recima 14.6GB
14.6GB * 40 godina= 584GB

Da li ti ocekujes da dobijes samo tekst kao u Notepad-u bez i slika svega sto jos moze da se pojavi?

15.09.2004. u 21:41 

VRider
Marković Damir
(BGD/SD Karaburma)/Pirot

Član broj: 1510
Poruke: 4129
212.200.53.*

Jabber: damirm | gmail | com
ICQ: 134002435


Profil

icon Re: Ogromna PDF baza15.09.2004. u 21:49
Racunica za broj listova je OK, ali
Citat:
Jedan A3 list u pdf-u == 1MB?

u ovome je kljuc.
Citat:
Da li ti ocekujes da dobijes samo tekst kao u Notepad-u bez i slika svega sto jos moze da se pojavi?

U pitanju je dnevni list a ne slikovnica. Pa cak i da je slikovnica, u pitanju su slike jako niske rezolucije (halo? 40 godina).
15.09.2004. u 21:49 

Raspucin
Ljubisa Punosevac
Java Programer
Salzburg, Austrija

Član broj: 20699
Poruke: 169
*.medianis.net

ICQ: 244452581


Profil

icon Re: Ogromna PDF baza15.09.2004. u 22:04
Citat:
VRider: Racunica za broj listova je OK, ali

U pitanju je dnevni list a ne slikovnica. Pa cak i da je slikovnica, u pitanju su slike jako niske rezolucije (halo? 40 godina).


Bez komentara...
15.09.2004. u 22:04 

Dejan Lozanovic
Senior Software Developer - Team Leader , www.limores..
Beograd

Član broj: 691
Poruke: 1998
*.vdial.verat.net

Jabber: null@elitesecurity.org
Sajt: www.limores.net


Profil

icon Re: Ogromna PDF baza15.09.2004. u 22:32
Zasto bas mora PDF, tj pitanje da li pdf mora da bude 100% verodostojna kopija, odnosno da li bi zadovoljavalo da text bude isti sa stranica a slike da se zasebno dodaju sa odredjenim kordinatama sa ovime bi se dobio priblizan izgled preko 90% slican. Bio bi verovatno razlicit font pa bi text mozda bio malo durgacije aranziran, tj neka rec bi se nasla u jednoj liniji iznad ili ispod originalnog texta(svi znate za ovaj efekat kada u wordu ili nekom slicnom programu promenite font). U svakom slucaju moj predlog je ova varijanta slicnog izgleda, jer ce skladistenje tih podataka biti manje, sa druge strane ukoliko insistirate na 100% verodostojnosti onda predlazem da se uradi OCR nad tekstom a da se cela stranica cuva u nekom grafickom formatu jpg,png,gif itd... a sam PDF bi se mogao izgenerisati po potrebi.

Kako bi moglo da se dobije vise informacija u vezi projekta.



[Ovu poruku je menjao Dejan Lozanovic dana 16.09.2004. u 00:43 GMT]
"E tako se to radi , kratko ali j.e.b.i.t.a.c.n.o"
Degojs car - http://www.elitesecurity.org/t306994
15.09.2004. u 22:32 

popeye
Branko Ivanović
Beograd

Član broj: 3846
Poruke: 960
*.pristop.co.yu

Jabber: popeye@elitesecurity.org
ICQ: 18038966
Sajt: popeye.linuxo.org


Profil

icon Re: Ogromna PDF baza15.09.2004. u 22:42
OCR je vrlo problematičan kod štampanih medija, pogotovu naših koji su očajnog kvaliteta. Kako održavam sistem sličan ovom, iz iskustva znam da skeniranje i skladištenje nije problem, ukoliko se radi jednobitno (crno-belo) i pri rezoluciji od 400dpi. Skladištenje članaka u boji znatno povećava veličinu skeniranih slika, ali olakšava OCR.
15.09.2004. u 22:42 

Dejan Lozanovic
Senior Software Developer - Team Leader , www.limores..
Beograd

Član broj: 691
Poruke: 1998
*.vdial.verat.net

Jabber: null@elitesecurity.org
Sajt: www.limores.net


Profil

icon Re: Ogromna PDF baza15.09.2004. u 22:45
Citat:
Raspucin: Za one koji ne znaju da racunaju 1list=1MB*40 strana (1 dan)=40MB
40MB*365 dana (1 godina) =14600MB ili ti drugim recima 14.6GB
14.6GB * 40 godina= 584GB

Da li ti ocekujes da dobijes samo tekst kao u Notepad-u bez slika svega sto jos moze da se pojavi?


Sve zavisi kakav se pdf ocekuje, posto ukoliko niste upoznati i PDF cuva tekst kao klasican formatiran tekst i ima moguncos da ubacite slike (gledajte na njega kao na neku vrstu HTML), ukoliko se radi o toj normalnoj varijanti onda ti pdf-ovi nece mnogo mesta zauzimati. tj nece sigurno 1list 1 mb, vec ce to biti dosta manje, tacnije od broja slika i njihove rezolucije to sve zavisi. U svakom slucaju pogledajte razne tehnicke manuale u pdf-u, otrilike to su knjize od 400 strana koje stanu u 5-6 mb sve zajedno sa semama.
"E tako se to radi , kratko ali j.e.b.i.t.a.c.n.o"
Degojs car - http://www.elitesecurity.org/t306994
15.09.2004. u 22:45 

popeye
Branko Ivanović
Beograd

Član broj: 3846
Poruke: 960
*.pristop.co.yu

Jabber: popeye@elitesecurity.org
ICQ: 18038966
Sajt: popeye.linuxo.org


Profil

icon Re: Ogromna PDF baza15.09.2004. u 22:49
Kao što rekoh, OCR je nepouzdan i nikako se ne treba na njega oslanjati pri pravljenju PDF-a. Najbolji kvalitet se postiže čuvanjem strane kao slike, od koje se po potrebi može generisati PDF (mada je bespredmetno, čisto ako hoćete da dokument otvorite u Acrobat Readeru).
15.09.2004. u 22:49 

pctel
Beograd

Član broj: 13030
Poruke: 7777
*.sbb.co.yu

Sajt: www.pcteldoo.co.yu


Profil

icon Re: Ogromna PDF baza15.09.2004. u 23:09
Slazem se da je OCR tesko realizovati, ali ovde je potrebno pretrazivanje tekstova, znaci nema druge mogucnosti - ili OCR ili da se kuca sve ponovo. Jeste li probali neki OCR program? Koliko strana ste uspeli pravilno da prebacite u tekst za sat vremena? Ja ne vise nego sto uvezban daktilograf moze da otkuca! Realna cena za to je 10 miliona dinara, koji dinar gore-dole, ali to je red velicine. To i nije mnogo, ako se posao odradi kako treba, a ako se samo uradi OCR da pola prepozna pola ne, onda treba da bude visestruko jeftinije.
Boze,
daj mi smirenost da prihvatim ono sto ne mogu da promenim,
hrabrosti da promenim ono sto mogu
i mudrosti da to dvoje razlikujem.
15.09.2004. u 23:09 

broker

Član broj: 2415
Poruke: 8521
212.62.59.*



Profil

icon Re: Ogromna PDF baza15.09.2004. u 23:20
Mozda bi bipak trbalo naci neko konmpromisno resenje. U tekstu novina ipak nije svaka rec kljucna. Mozda bi bilo zadovoljavajuce cuvati bitmapirane skenove a pored njih praviti bazu kljucnih reci za svaku stranu. Kljucne reci bi odredjivao neko ko je upucen u njihovu vaznost (urednik?) a daktilografi bi u bazu ukucavali samo kljucne reci po strani.

Tako bi se dobila baza kljucnih reci razumnog obima za razumno vreme a opet bi korisnik imao mogucnost da pregleda kompletne strane novina.

Mislim da je pocetni zahtev da se svi brojevi unazad 40 godina pretvore u tekst radi pretrazivanja preteran i ekonomski neisplativ.

15.09.2004. u 23:20 

popeye
Branko Ivanović
Beograd

Član broj: 3846
Poruke: 960
*.pristop.co.yu

Jabber: popeye@elitesecurity.org
ICQ: 18038966
Sajt: popeye.linuxo.org


Profil

icon Re: Ogromna PDF baza15.09.2004. u 23:24
OCR se mora raditi, naravno, ali se stranice moraju čuvati kao slike. Što se brzine tiče, mogu se dobiti zadovoljavajući rezultati (300-400 A4 strana na sat). Preciznost prepoznavanja na kvalitetnijim štampanim medijima se može podići iznad 95%.
15.09.2004. u 23:24 

[es] :: IT berza poslova :: Arhiva IT berze poslova :: Ogromna PDF baza

Strane: 1 2

[ Pregleda: 3695 | Odgovora: 27 ]

Postavi temu Odgovori

Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.