Interesuje me kako plejeri (MV2 Player) prepoznaje na kom je jeziku napisan titl iako u imenu fajla ne pise nista o tome , jel' postoji neki tag ili slicno u samom .srt, .sub,... fajlu?
Nisam na to mislio. MV2 Player u gornjem delu uvek ispisuje ser, cro, eng i sl., u zavisnosti od ubacenog titla. Kako dobija te informacije kad u imenu fajla nista o tome nema.
Kako tacno Mv2 radi nisam siguran.
Najvjerovatnije je baziran na encoding-u texta jer vecina algoritamaza language detection upravo koristi tu tehniku.
Mislim da se dosta jezika moze prepoznati po slovima koji su upotrebljani.
na primer engleski jezik koristi slova XYWQ
srpski i hrvatski ŠĐČĆŽ
grcki koristi alfa, beta, omega...
nemci imaju one kukice..
ruski ima jedinstvenu verziju cirilice..
u kombinaciji sa prepoznavanjem encodinga, pretpostavljam da to verovatno i nije tako tesko
Koliko se jezik moze prepoznati na osnovu upotrebljenih slova sigurno znaju oni koji se bave lingvistikom, arheologijjom ili necim slicnim... na forumu Nauka mislim da sam video jednu TOP temu o tome pa mozes pogledati ili pitati ako te zanima.
Slova su nebitna u ovom slucaju jer imas brdo "domacih" titlova koji nemaju niti jedan nas karakter...
Algoiritmi (u ovom slucaju) se baziraju na prepoznavanju encodinga!
pa dobro ako domaci titl nema domacih slova onda to nije ispravan subtitl. oonda ne mozemo ni ocekivati da ce ga prepoznati.
inace, bas ovih dana sam prekopavao po gomili fontova u programu MainType i tabele karaktera sa oznacenim encodingom su mi bile pred ocima sve vreme. Nema ih toliko puna a vidljivo je da ima mnogo specificnih karaktera zato mislim da je prepoznavanje samo na osnovu enkodinga prilicno tesko.