Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.

Big Data - preporuke

[es] :: Baze podataka :: Big Data - preporuke

Strane: 1 2

[ Pregleda: 7369 | Odgovora: 25 ] > FB > Twit

Postavi temu Odgovori

Autor

Pretraga teme: Traži
Markiranje Štampanje RSS

nkrgovic
Nikola Krgović
Beograd

Član broj: 3534
Poruke: 2807

ICQ: 49345867
Sajt: https://www.twinstarsyste..


+655 Profil

icon Re: Big Data - preporuke25.07.2014. u 08:30 - pre 118 meseci
Pazi i HBase ti je columnar storage engine, pa ti i Hive i Impala rade tako. Naravno, mozes uvek da probas i CouchDB npr. Vertica je isto fina, ali free resenje ima limit u kolicini podata - i to premali za ozbiljan rad.

Sustina je: Razmisli da ti ti vrsi posao Elastic. Nisam ga koristio, ali moram da priznam da deluje impresivno - i on ima Hadoop backend i to bi trebalo da radi sjajno, sve dok si unutar parametara koje on moze da obradi. Za apache logove, deluje kao kljuc-u-ruke resenje, tako da je verovatno sasvim dovoljan.

Ono sto sam ti ja spominjao CDH (Hadoop + HBase + Hive/Impala + sitnice ) -> TokuDB -> Reporting je genericko resenje, koje ima smisla ako ti treba full OLAP, sa nekim custom podacima. Ako ono sto logujes nije samo clickstream, vec i detaljni user data, ako hoces vise od analiza posete - npr. detaljne analize ponasanja posetilaca, neki e-commerce recomendation engine ili tako nesto, onda ovo sto sam ti ja predlozio ima smisla. Ako si siguran da ti treba samo apache log analisys - pa, ja bi, iskreno, ulozio vreme u Elastic.
Please do not feed the Trolls!

Blasphemy? How can I blaspheme? I'm a god!'
 
Odgovor na temu

mikikg
System administrator
Srbija

Član broj: 3779
Poruke: 5059
*.static.sbb.rs.

Sajt: yu3ma.net


+505 Profil

icon Re: Big Data - preporuke25.07.2014. u 09:35 - pre 118 meseci
Nisam odustao od HBase i pratecih komponenti nego u ovom trenutku nemam HW za neko malo ozbiljnije testiranje. Ocekujem da mi to obezbede pa sam u meduvremenu probao ova nesto jednostvnija resenja.

InfiniDB mi je bio zgodan za probu jer sam vec napisao parser u PHP (za custom Apache log format) koji se kaci na MySQL backend pa sam brzinski to pustio u pogon.
Inace imao sam isti takav parser i u Python-u koji su pisali neki drugi momci ali ovaj moj sam tako dobro uradio da shije ~5x po brzini ovog u Python-u za kojeg su pricali da je mega brz ;)

Sad cu jos malo da se pozabavim sa Elasticsearch ali moram da udjem dublje u problematiku bas zbog ovog custom log formata pa da vidim kako to sad sve da iskombinujem za testiranje.
Site about Software Defined Radio – SDR
http://yu3ma.net/
https://github.com/yu3ma
On-line LM317 kalkulator
 
Odgovor na temu

whitie2004

Član broj: 19966
Poruke: 1538
*.dynamic.sbb.rs.



+267 Profil

icon Re: Big Data - preporuke25.07.2014. u 10:15 - pre 118 meseci
Probaj http://it-ebooks.info/book/3280/

Nije suvoparna teorija, vise je -> koji alat za koji zanat. Koliko veliki cekic mi treba ....
U padu jednog carstva stradaju svi, tako je uvek bilo, tako će biti i sada. Verovatno će posle svega ovoga
biti formirani neki novi blokovi, nova uređenja. A mi? Eh, a mi..
 
Odgovor na temu

mikikg
System administrator
Srbija

Član broj: 3779
Poruke: 5059
*.static.sbb.rs.

Sajt: yu3ma.net


+505 Profil

icon Re: Big Data - preporuke25.07.2014. u 16:05 - pre 118 meseci
@whitie2004 Procitao sam za sad prva dva poglavlja ove knjige. Vrlo korisno pisanije!
Hvala za preporuku.
Site about Software Defined Radio – SDR
http://yu3ma.net/
https://github.com/yu3ma
On-line LM317 kalkulator
 
Odgovor na temu

gandalf
Goran Raovic
senior network engineer
Belgrade

Član broj: 52
Poruke: 248
*.mts.telekom.rs.

Jabber: goran.raovic@gmail.com


+44 Profil

icon Re: Big Data - preporuke26.07.2014. u 13:29 - pre 118 meseci
Citat:
mikikg:

Inace imao sam isti takav parser i u Python-u koji su pisali neki drugi momci ali ovaj moj sam tako dobro uradio da shije ~5x po brzini ovog u Python-u za kojeg su pricali da je mega brz ;)


Daj link za taj python parser (ako je open source) .. bas da vidim zasto je spor :)
 
Odgovor na temu

mikikg
System administrator
Srbija

Član broj: 3779
Poruke: 5059
*.static.sbb.rs.

Sajt: yu3ma.net


+505 Profil

icon Re: Big Data - preporuke28.07.2014. u 08:52 - pre 118 meseci
@gandalf Nazalost nije open source, vlasnistvo je firme i ne smem da sherujem ...

Ukratko, caka je u citanju ulaznog fajla, oni su verovatno radili citanje linije po linije (praksa kada se radi sa velikim fajlovima) i to je uzasno sporo, mnogo I/O sa diskom. Ja sam uradio citanje po chunk-ovima od 5-10MB pa onda u memoriji nad tim podacima uradim jedan globalni RegExp i to mi je u startu drasticno ubrzalo stvari, reda 10x! Kako sam posle pisao dalje code za moj PHP parser to se naravno smanjivalo.
Recimo isto jedan zanimljiv podatak, u PHP foreach naredba/petlja je drasticno sporija nego for petlja pa sam tu isto malo dobio na ubrzanju.
Generalno Python je brzi od PHP ali ako se napise los code dzaba ta njegova prednost. Python ne znam tako dobro kao PHP tako da se drzim onoga sto najbolje znam ...
Site about Software Defined Radio – SDR
http://yu3ma.net/
https://github.com/yu3ma
On-line LM317 kalkulator
 
Odgovor na temu

[es] :: Baze podataka :: Big Data - preporuke

Strane: 1 2

[ Pregleda: 7369 | Odgovora: 25 ] > FB > Twit

Postavi temu Odgovori

Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.