Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.

Ogromna PDF baza

[es] :: IT berza poslova :: Arhiva IT berze poslova :: Ogromna PDF baza

Strane: 1 2

[ Pregleda: 9021 | Odgovora: 27 ] > FB > Twit

Postavi temu Odgovori

Autor

Pretraga teme: Traži
Markiranje Štampanje RSS

triD
Bojan Radulovic
Beograd

Član broj: 28379
Poruke: 7
62.108.111.*

Sajt: www.studiotrid.com


Profil

icon Ogromna PDF baza15.09.2004. u 13:30 - pre 237 meseci
Treba napraviti bazu koja se brzo moze pretraživati po svim rečima.
Baza se pravi od skeniranih dnevnih novina formata A3. Zahtev je da se novina skenira, pretvori u pdf fajlove i postavi u bazu koja bi se mogla brzo pretraživati.
Problem je naizgled jednostavan, ali radi se o novini koja izlazi 40 godina, svaki dan, i ima 40 strana.
Treba napraviti projekat koji uključuje hardver, softver organizaciju.

triD - dizajn studio
Krunska 46
011.32.42.899
www.studiotrid.com
[email protected]
 
Odgovor na temu

zsteva

Član broj: 503
Poruke: 31
*.smin.sezampro.yu.

ICQ: 26239191


Profil

icon Re: Ogromna PDF baza15.09.2004. u 15:24 - pre 237 meseci

u, dobra posao.

oko pola miliona A3 strana.

skeniranje: ako u proseku ne moze bez jednog minuta da se skenira stranica,
to izadje na oko 3 godina/covek vremena.

sken strane ne moze biti manji od 1Mb shto mu dodje oko 500Gb.

OCR, uz malo srece moze da se uradi, uz dovoljno hardwera, i dovoljno dobar
program. brzina, pa verovatno ne brze nego skeniranje...

indexiranje, e to je vec decija igra kad se ovo gore reshi....

sve u svemu projekat verovatno cirkla preko 10 miliona dinara.

pitanje samo kome to treba....
 
Odgovor na temu

MorenoArdohain

Član broj: 33751
Poruke: 84
*.beotel.net

Sajt: www.mojmobilni.com


Profil

icon Re: Ogromna PDF baza15.09.2004. u 16:23 - pre 237 meseci
Izvodjljivo je, pitanje je samo da li imate pare za tako nesto
 
Odgovor na temu

flylord
Ilić Aleksandar
Simplicity d.o.o.
Nis/Uzice

Član broj: 2954
Poruke: 3859
212.200.97.*

ICQ: 4849714


+68 Profil

icon Re: Ogromna PDF baza15.09.2004. u 17:42 - pre 237 meseci
Citat:
zsteva:
skeniranje: ako u proseku ne moze bez jednog minuta da se skenira stranica,
to izadje na oko 3 godina/covek vremena.


Odakle ti minut!??!?! Sto pricas nesto sto ne znas!?!? Imas profi skenere koji mogu da skeniraju na 200-300 dpi (za novine i txt uglavnom dosta), za 0.5-1 sec!!!
Prema tome, kad ne znas, bolje cuti
I gde si nasao 10 000 000 din? Na osnovu cega si izracunao!?
uzass
 
Odgovor na temu

zsteva

Član broj: 503
Poruke: 31
*.smin.sezampro.yu.

ICQ: 26239191


Profil

icon Re: Ogromna PDF baza15.09.2004. u 19:35 - pre 237 meseci
prvo, ako si expert daj tacnu racunicu. ja nisam ni upucen u tu oblast, samo sam
pokushao sebi i ostalima da predstavim red velicine problema.

pa nije samo skeniranje deo procesa ? kolko kamiona novina treba da se spremi
tako da moze da se provuce kroz profi skener.

recimo da je to oko 50tak metara visoka gomila formata A3, kolko treba
vreme/covek jedinica da se takav materijal spremi za ultra brzi skener ?

ja se nadam da ce (ako projekat ikad bude realizovan) da se informacije:
kolko para, kolko ljudi i kolko vremena pojavi ovde na forumu.

btw: ljudi su se gadno mucili da naprave PDF izdanje necega shto imaju u quark-u,
ovo je extra proces.


[Ovu poruku je menjao Bojan Basic dana 16.09.2004. u 00:37 GMT]
 
Odgovor na temu

zsteva

Član broj: 503
Poruke: 31
*.smin.sezampro.yu.

ICQ: 26239191


Profil

icon Re: Ogromna PDF baza15.09.2004. u 19:40 - pre 237 meseci
BTW, sha mislite da li bilo koji OCR ume da prepozna sken sa novinskog papira,
starog 40 godina, sa ko zna kakvim fontom...
 
Odgovor na temu

Raspucin

Član broj: 20699
Poruke: 216
*.medianis.net

ICQ: 244452581


+3 Profil

icon Re: Ogromna PDF baza15.09.2004. u 20:57 - pre 237 meseci
"Imate li vi momci para za ovo planinarenje?"...

Naravno salim se. Dosta ozbiljan posao.

Citat:
zsteva
indexiranje, e to je vec decija igra kad se ovo gore reshi....


Indeksiranje je cela nauka pogotovu za nesto ovog obima.
 
Odgovor na temu

byTer

Član broj: 10936
Poruke: 1221
*.info-net.co.yu

ICQ: 47761626


Profil

icon Re: Ogromna PDF baza15.09.2004. u 21:00 - pre 237 meseci
Skeniranje svega je glavni problem. Ako moze ko sto kaze flylord da se skenira sve to brzo, onda je laganica da se sve to lako odradi.

Znaci
- skeniranje i citanje iz Fine Readera
- save as Word Document
- (spajanje dokumenata)
- Konverzija u PDF

Samo me malo zulja sto sve ovo ne ide u bazu nego ide u PDF.
 
Odgovor na temu

Raspucin

Član broj: 20699
Poruke: 216
*.medianis.net

ICQ: 244452581


+3 Profil

icon Re: Ogromna PDF baza15.09.2004. u 21:19 - pre 237 meseci
Ovo je tolika koska da ne mozes ni da zamislis kolika. Raspitaj se malo sta je uradio i dokle su stigli JAT i Djerdap sa skeniranjem i skladistenjem svoje dokumentacije.

Ovde nema ni l od "laganice", osim toga da li je neko radio sa bazom reda velicine 500GB-1TB?


[Ovu poruku je menjao Bojan Basic dana 16.09.2004. u 00:37 GMT]
 
Odgovor na temu

VRider
Marković Damir
(BGD/SD Karaburma)/Pirot

Član broj: 1510
Poruke: 4132
212.200.53.*

Jabber: damirm | gmail | com
ICQ: 134002435


+13 Profil

icon Re: Ogromna PDF baza15.09.2004. u 21:28 - pre 237 meseci
Kojih crnih 500GB-1TB? Da li ste ludi?
Jedan A3 list u pdf-u == 1MB? LOL
Ovo ne bi bilo vece od 30-40GB.
'Ajde da ja budem konstruktivniji: koji je list? Koje pismo (cirilica ili latinica)? Koliko su ocuvani primerci koje treba skenirati? Koliko ljudi, vremena i para ste spremni da odvojite za ovako nesto?
JaFreelancer.com
 
Odgovor na temu

Raspucin

Član broj: 20699
Poruke: 216
*.medianis.net

ICQ: 244452581


+3 Profil

icon Re: Ogromna PDF baza15.09.2004. u 21:41 - pre 237 meseci
Citat:
VRider: Kojih crnih 500GB-1TB? Da li ste ludi?
Jedan A3 list u pdf-u == 1MB? LOL
Ovo ne bi bilo vece od 30-40GB.


Za one koji ne znaju da racunaju 1list=1MB*40 strana (1 dan)=40MB
40MB*365 dana (1 godina) =14600MB ili ti drugim recima 14.6GB
14.6GB * 40 godina= 584GB

Da li ti ocekujes da dobijes samo tekst kao u Notepad-u bez i slika svega sto jos moze da se pojavi?

 
Odgovor na temu

VRider
Marković Damir
(BGD/SD Karaburma)/Pirot

Član broj: 1510
Poruke: 4132
212.200.53.*

Jabber: damirm | gmail | com
ICQ: 134002435


+13 Profil

icon Re: Ogromna PDF baza15.09.2004. u 21:49 - pre 237 meseci
Racunica za broj listova je OK, ali
Citat:
Jedan A3 list u pdf-u == 1MB?

u ovome je kljuc.
Citat:
Da li ti ocekujes da dobijes samo tekst kao u Notepad-u bez i slika svega sto jos moze da se pojavi?

U pitanju je dnevni list a ne slikovnica. Pa cak i da je slikovnica, u pitanju su slike jako niske rezolucije (halo? 40 godina).
JaFreelancer.com
 
Odgovor na temu

Raspucin

Član broj: 20699
Poruke: 216
*.medianis.net

ICQ: 244452581


+3 Profil

icon Re: Ogromna PDF baza15.09.2004. u 22:04 - pre 237 meseci
Citat:
VRider: Racunica za broj listova je OK, ali

U pitanju je dnevni list a ne slikovnica. Pa cak i da je slikovnica, u pitanju su slike jako niske rezolucije (halo? 40 godina).


Bez komentara...
 
Odgovor na temu

Dejan Lozanovic
Dejan Lozanovic
Beograd

Član broj: 691
Poruke: 2325
*.vdial.verat.net

Jabber: null@elitesecurity.org
Sajt: speedy-order.com


+75 Profil

icon Re: Ogromna PDF baza15.09.2004. u 22:32 - pre 237 meseci
Zasto bas mora PDF, tj pitanje da li pdf mora da bude 100% verodostojna kopija, odnosno da li bi zadovoljavalo da text bude isti sa stranica a slike da se zasebno dodaju sa odredjenim kordinatama sa ovime bi se dobio priblizan izgled preko 90% slican. Bio bi verovatno razlicit font pa bi text mozda bio malo durgacije aranziran, tj neka rec bi se nasla u jednoj liniji iznad ili ispod originalnog texta(svi znate za ovaj efekat kada u wordu ili nekom slicnom programu promenite font). U svakom slucaju moj predlog je ova varijanta slicnog izgleda, jer ce skladistenje tih podataka biti manje, sa druge strane ukoliko insistirate na 100% verodostojnosti onda predlazem da se uradi OCR nad tekstom a da se cela stranica cuva u nekom grafickom formatu jpg,png,gif itd... a sam PDF bi se mogao izgenerisati po potrebi.

Kako bi moglo da se dobije vise informacija u vezi projekta.



[Ovu poruku je menjao Dejan Lozanovic dana 16.09.2004. u 00:43 GMT]
 
Odgovor na temu

popeye
Branko Ivanović
Beograd

Član broj: 3846
Poruke: 960
*.pristop.co.yu

Jabber: popeye@elitesecurity.org
ICQ: 18038966
Sajt: popeye.linuxo.org


Profil

icon Re: Ogromna PDF baza15.09.2004. u 22:42 - pre 237 meseci
OCR je vrlo problematičan kod štampanih medija, pogotovu naših koji su očajnog kvaliteta. Kako održavam sistem sličan ovom, iz iskustva znam da skeniranje i skladištenje nije problem, ukoliko se radi jednobitno (crno-belo) i pri rezoluciji od 400dpi. Skladištenje članaka u boji znatno povećava veličinu skeniranih slika, ali olakšava OCR.
 
Odgovor na temu

Dejan Lozanovic
Dejan Lozanovic
Beograd

Član broj: 691
Poruke: 2325
*.vdial.verat.net

Jabber: null@elitesecurity.org
Sajt: speedy-order.com


+75 Profil

icon Re: Ogromna PDF baza15.09.2004. u 22:45 - pre 237 meseci
Citat:
Raspucin: Za one koji ne znaju da racunaju 1list=1MB*40 strana (1 dan)=40MB
40MB*365 dana (1 godina) =14600MB ili ti drugim recima 14.6GB
14.6GB * 40 godina= 584GB

Da li ti ocekujes da dobijes samo tekst kao u Notepad-u bez slika svega sto jos moze da se pojavi?


Sve zavisi kakav se pdf ocekuje, posto ukoliko niste upoznati i PDF cuva tekst kao klasican formatiran tekst i ima moguncos da ubacite slike (gledajte na njega kao na neku vrstu HTML), ukoliko se radi o toj normalnoj varijanti onda ti pdf-ovi nece mnogo mesta zauzimati. tj nece sigurno 1list 1 mb, vec ce to biti dosta manje, tacnije od broja slika i njihove rezolucije to sve zavisi. U svakom slucaju pogledajte razne tehnicke manuale u pdf-u, otrilike to su knjize od 400 strana koje stanu u 5-6 mb sve zajedno sa semama.
 
Odgovor na temu

popeye
Branko Ivanović
Beograd

Član broj: 3846
Poruke: 960
*.pristop.co.yu

Jabber: popeye@elitesecurity.org
ICQ: 18038966
Sajt: popeye.linuxo.org


Profil

icon Re: Ogromna PDF baza15.09.2004. u 22:49 - pre 237 meseci
Kao što rekoh, OCR je nepouzdan i nikako se ne treba na njega oslanjati pri pravljenju PDF-a. Najbolji kvalitet se postiže čuvanjem strane kao slike, od koje se po potrebi može generisati PDF (mada je bespredmetno, čisto ako hoćete da dokument otvorite u Acrobat Readeru).
 
Odgovor na temu

pctel
Beograd

Član broj: 13030
Poruke: 10893



+1349 Profil

icon Re: Ogromna PDF baza15.09.2004. u 23:09 - pre 237 meseci
Slazem se da je OCR tesko realizovati, ali ovde je potrebno pretrazivanje tekstova, znaci nema druge mogucnosti - ili OCR ili da se kuca sve ponovo. Jeste li probali neki OCR program? Koliko strana ste uspeli pravilno da prebacite u tekst za sat vremena? Ja ne vise nego sto uvezban daktilograf moze da otkuca! Realna cena za to je 10 miliona dinara, koji dinar gore-dole, ali to je red velicine. To i nije mnogo, ako se posao odradi kako treba, a ako se samo uradi OCR da pola prepozna pola ne, onda treba da bude visestruko jeftinije.
Samo ti sinko (administratore) radi svoj posao.
 
Odgovor na temu

broker

Član broj: 2415
Poruke: 8514
212.62.59.*



+11 Profil

icon Re: Ogromna PDF baza15.09.2004. u 23:20 - pre 237 meseci
Mozda bi bipak trbalo naci neko konmpromisno resenje. U tekstu novina ipak nije svaka rec kljucna. Mozda bi bilo zadovoljavajuce cuvati bitmapirane skenove a pored njih praviti bazu kljucnih reci za svaku stranu. Kljucne reci bi odredjivao neko ko je upucen u njihovu vaznost (urednik?) a daktilografi bi u bazu ukucavali samo kljucne reci po strani.

Tako bi se dobila baza kljucnih reci razumnog obima za razumno vreme a opet bi korisnik imao mogucnost da pregleda kompletne strane novina.

Mislim da je pocetni zahtev da se svi brojevi unazad 40 godina pretvore u tekst radi pretrazivanja preteran i ekonomski neisplativ.

 
Odgovor na temu

popeye
Branko Ivanović
Beograd

Član broj: 3846
Poruke: 960
*.pristop.co.yu

Jabber: popeye@elitesecurity.org
ICQ: 18038966
Sajt: popeye.linuxo.org


Profil

icon Re: Ogromna PDF baza15.09.2004. u 23:24 - pre 237 meseci
OCR se mora raditi, naravno, ali se stranice moraju čuvati kao slike. Što se brzine tiče, mogu se dobiti zadovoljavajući rezultati (300-400 A4 strana na sat). Preciznost prepoznavanja na kvalitetnijim štampanim medijima se može podići iznad 95%.
 
Odgovor na temu

[es] :: IT berza poslova :: Arhiva IT berze poslova :: Ogromna PDF baza

Strane: 1 2

[ Pregleda: 9021 | Odgovora: 27 ] > FB > Twit

Postavi temu Odgovori

Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.