Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.

Dosli smo do kraja Murovog zakona, vreme je da se vratimo efikasnosti i otpimizaciji :P

[es] :: Art of Programming :: Dosli smo do kraja Murovog zakona, vreme je da se vratimo efikasnosti i otpimizaciji :P

Strane: 1 2

[ Pregleda: 4777 | Odgovora: 30 ] > FB > Twit

Postavi temu Odgovori

Autor

Pretraga teme: Traži
Markiranje Štampanje RSS

Ivan Dimkovic

Administrator
Član broj: 13
Poruke: 16687
*.unitymedia.biz.



+7173 Profil

icon Re: Dosli smo do kraja Murovog zakona, vreme je da se vratimo efikasnosti i otpimizaciji :P08.06.2020. u 19:44 - pre 46 meseci
@Branimir,

Citat:

Doslo je vreme asemblera vidim ja :P


Mislis WebAssembly? :-)

Jedan razbijac programer sa debelim iskustvom sa optimizacijama kosta $100K-$500K u USA, EUR 80K-150K u Nemackoj i tako dalje.

Tim sa nekoliko prosecnih i nekoliko ovih razbijaca + resto kosta par miliona EUR/$ godisnje.

Koliko brzih "v2.0" kutija mozes da kupis za te pare? Puno.

Sta? Stace proizvodnja brzih kutija zbog tripovanja da je gotov "Murov zakon"? Sve i da je to tacno (nije), skaliranje ce preci u inteligentno pakovanje (a-la Foveros), nalepljenu HBM2+ memoriju, brzi I/O, RAM...

Danas mozes da odes u prodavnicu i da kupis kutiju sa 128 jezgara za istu cenu koliko si placao 20 jezgara pre 6 godina. O ostalim stvarima da ne pricamo, ubaci 8 PCIe 4.0 GPU-ova sa HBM2 RAM-om, NVMe SSD-ove i kilo 8-kanalne memorije.

Ta masina je brza za dvocifreni faktor, i to solidan.

Cena je uvek manje-vise ista u konstantnim dolarima. Imas jeftinu kutiju ($5K), mid-size kutiju ($20K) i skupu kutiju ($100K) i vozi.
DigiCortex (ex. SpikeFun) - Cortical Neural Network Simulator:
http://www.digicortex.net/node/1 Videos: http://www.digicortex.net/node/17 Gallery: http://www.digicortex.net/node/25
PowerMonkey - Redyce CPU Power Waste and gain performance! - https://github.com/psyq321/PowerMonkey
 
Odgovor na temu

Branimir Maksimovic

Član broj: 64947
Poruke: 5534
109.72.51.23



+1064 Profil

icon Re: Dosli smo do kraja Murovog zakona, vreme je da se vratimo efikasnosti i otpimizaciji :P08.06.2020. u 20:30 - pre 46 meseci
Citat:
Sta? Stace proizvodnja brzih kutija zbog tripovanja da je gotov "Murov zakon"?


Po ovima 5nm je kraj :P
Proizvodnja nece stati, ali nece biti brze :P
 
Odgovor na temu

Ivan Dimkovic

Administrator
Član broj: 13
Poruke: 16687
...kabel-badenwuerttemberg.de.



+7173 Profil

icon Re: Dosli smo do kraja Murovog zakona, vreme je da se vratimo efikasnosti i otpimizaciji :P09.06.2020. u 01:25 - pre 46 meseci
Murov "zakon" je bio vezan za broj tranzistora koji mozes napakovati na fiksnoj povrsini (btw, cak i na 5nm, Murov "zakon" nije pokrio 3D pakovanje).

Brzina nema veze sa tim.

Brze ce biti sasvim sigurno, sve i da si zakucan na nekom procesu, ima jako puno prostora za dalje optimizacije:

- 3D pakovanje jezgara (Foveros)
- Dodavanje vrlo brze memorije u pakovanje (HBM2)
- Brzi interconnect
- Brzi I/O sa perferijama (PCIe 4.0+)

Za jos zahtevnije, umesto mase CPU-ova imaces masu GPU-ova ili "glupih" izvrsnih jedinica koje krckaju tenzore.

Svakako u nekom momentu zbog Amdahl-ovog zakona pumpanje novih jezgara nema smisla (za konkretnu aplikaciju).

Za proizvode koji su u slepoj ulici sto se hiper-paralelizacije tice ima mesta, tipa brzi I/O i memorija.


DigiCortex (ex. SpikeFun) - Cortical Neural Network Simulator:
http://www.digicortex.net/node/1 Videos: http://www.digicortex.net/node/17 Gallery: http://www.digicortex.net/node/25
PowerMonkey - Redyce CPU Power Waste and gain performance! - https://github.com/psyq321/PowerMonkey
 
Odgovor na temu

Branimir Maksimovic

Član broj: 64947
Poruke: 5534
109.72.51.23



+1064 Profil

icon Re: Dosli smo do kraja Murovog zakona, vreme je da se vratimo efikasnosti i otpimizaciji :P09.06.2020. u 01:42 - pre 46 meseci
Znas kako, sve je to super, ali masovna paralelizacija ne pije vodu zato sto vecinu algoritama nije lako paralelizovati.
Ono sto vidimo je da aktuelni procesori nisu ni dva puta brzi od sandy bdridga iz 2011. Sve to limitira mogucnosti
softvera i onoga sto je izvodljivo na trenutnom hardveru :P
Brza memorija svakako da ce ubrzati donekle ali sa obzirom da vecina algoritama sasvim fino koristi CPU cache
i da zbog toga vidimo da brza memorija ne donosi proprocionalna ubrzanja, benefitirace samo baze i algoritmi
koji jure pointere po memoriji. Dakle umesto sorta linked liste koji u proseku izvrsava 0.3 instrukcije po kloku
videcemo sort od 1 instrukcije po kloku na procesoru koji u proseku vozi 3-4 instrukcije po kloku
zbog utilizacije cache-a :P
 
Odgovor na temu

nkrgovic
Nikola Krgović
Beograd

Član broj: 3534
Poruke: 2807

ICQ: 49345867
Sajt: https://www.twinstarsyste..


+655 Profil

icon Re: Dosli smo do kraja Murovog zakona, vreme je da se vratimo efikasnosti i otpimizaciji :P09.06.2020. u 08:32 - pre 46 meseci
Bane, aj' se odluci? :)

Prvo si nam rekao da za sve sto si probao desktop related, vec ne koristis ni 25% CPU-a koji sad imas, a onda nam kazes da imas problem sa paralelizacijom. Sta paralelizujes? Cak i te primene koje si naveo mogu da se paralelizuju, tako da ne ocekujemo da ce biti bilo kakvih problema kod kucnih korisnika. Kod servera, kako da ti kazem, paralelizacija nije bitna.... Jednostavno, za sada bar, server ima mnogo vise korisnika nego jezgara, tako da je gusto pakovanje i dale odlicno resenje. Za ne-paralelabilne serverske primene se koriste razni akceleratori, ili se prelazi na aproksimacije numerickim metodama koje nisu podjednako tacne, ali su dovoljno tacno - a masivno paralelabilne. Danas imas klinke koje vloguju o sminci, ali naravno sa dekolteom i svime pratecim - koje skupe tipa 100K "pratilaca" ocas posla. Klijenata ima sve vise, to je glavni problem infrastrukture - a klijenti su po definiciji nezavisni - i samim tim paralelabilni.

Kao sto ti je Ivan gore rekao, cak i u Srbiji (dobrim delom zbog poreza i dazbina) tim od 20-30 ljudi da razvijes neku platformu kosta nekih, recimo dva miliona godisnje (ballpark). U Nemackoj za to dobijes core team, ovde dobijes sve... Ali cak i za to, troskovi masivnog hardvera se isplate. Zapravo, svodi se na:

- Desktop primene preseliti sto vise u cloud
- Desktop procesori moraju da budu dovoljno brzi za media consumption (ovo vise nije ni blizu)
- Cloud i server primene skaliraju sve dok imas vise korisnika nego jezgara
- Serverske primene najvise boli brzi I/O, a ovde ima jos o-ho-ho mesta za optimizaciju.

Da, malo se vraca client-server model, ali... to ti je sto ti je.
Please do not feed the Trolls!

Blasphemy? How can I blaspheme? I'm a god!'
 
Odgovor na temu

nkrgovic
Nikola Krgović
Beograd

Član broj: 3534
Poruke: 2807

ICQ: 49345867
Sajt: https://www.twinstarsyste..


+655 Profil

icon Re: Dosli smo do kraja Murovog zakona, vreme je da se vratimo efikasnosti i otpimizaciji :P09.06.2020. u 08:39 - pre 46 meseci
Citat:
Ali Imam: Šta fali krivoj na slici koju sam priložio?
Približava se nekoj asimptoti oko 10 milijardi.

nVidia Ampere A100 GPU ima 54 milijarde tranzistora. Think again? :) To ne ukljucuje nalepljenu HBM2 memoriju. Ima FPGA, Xilinix VU19P FPGA, sa 35 milijardi tranzistora - od toga mozes da pravis sam akcelerator za sta 'oces.... Intel XE grafika sa Foveros pakovanjem, koja btw treba da izadje ove godine kao graficka kartica i konkurencija nVidia i AMD-u isto ima skoro 40 miliona tranzistora. (Raja Koduri koga je intel ukrao iz AMD Radeon tima za ovaj projekat je rekao "desetine miliona").
Please do not feed the Trolls!

Blasphemy? How can I blaspheme? I'm a god!'
 
Odgovor na temu

Ali Imam

Član broj: 341650
Poruke: 81



+96 Profil

icon Re: Dosli smo do kraja Murovog zakona, vreme je da se vratimo efikasnosti i otpimizaciji :P11.06.2020. u 15:32 - pre 46 meseci
Citat:
nkrgovic

nVidia Ampere A100 GPU ima 54 milijarde tranzistora. Think again? :)

Thinkio sam i zaključio da taj dijagram može da se tumači na različite načine.
Mislim, povlačenje krive pomoću lenjira i krivuljara nije više hit.
Za tačnije procene potrebni su numerički podaci i numerička interpolacija.
Ovako zaključak je isti kao i naslov :)
 
Odgovor na temu

Ivan Dimkovic

Administrator
Član broj: 13
Poruke: 16687
*.unitymedia.biz.



+7173 Profil

icon Re: Dosli smo do kraja Murovog zakona, vreme je da se vratimo efikasnosti i otpimizaciji :P11.06.2020. u 16:35 - pre 46 meseci
Citat:
Branimir Maksimovic:
Znas kako, sve je to super, ali masovna paralelizacija ne pije vodu zato sto vecinu algoritama nije lako paralelizovati.
Ono sto vidimo je da aktuelni procesori nisu ni dva puta brzi od sandy bdridga iz 2011. Sve to limitira mogucnosti
softvera i onoga sto je izvodljivo na trenutnom hardveru :P
Brza memorija svakako da ce ubrzati donekle ali sa obzirom da vecina algoritama sasvim fino koristi CPU cache
i da zbog toga vidimo da brza memorija ne donosi proprocionalna ubrzanja, benefitirace samo baze i algoritmi
koji jure pointere po memoriji. Dakle umesto sorta linked liste koji u proseku izvrsava 0.3 instrukcije po kloku
videcemo sort od 1 instrukcije po kloku na procesoru koji u proseku vozi 3-4 instrukcije po kloku
zbog utilizacije cache-a :P


Mislim da je nkrgovic pokrio sve.

Van HPC/AI/naucne primene, na serverskoj strani uopste nemas problem sa paralelizacijom. Serveri izvrsavaju zadatke po korisniku/sesiji/stagod. Kako nemas deficit u broju sesija i taj broj je mnogo veci od broja jezgara, ne zanima te uopste paralelizam unutar sesije.

Koji ce ti. Procesor dobije sesiju/korisnika/stagod i imas paralelizam bez da se zlopatis sa borbom sa Amdahl-ovim zakonom (koji je zaista zakon a ne "zakon" kao Murov).

Kad se bude doslo do najmanjeg procesa fabrikacije (i ako se ne nadje neki novi materijal ili dizajn tranzistora), industrija ce preci u gusto 3D pakovanje. Tu imas nove probleme, poput hladjenja. Ali vidis, tu je bas super sto trcis u datacentru, zato sto u datacentru mogu da instaliraju neko svemirsko hladjenje.

Citat:

Brza memorija svakako da ce ubrzati donekle ali sa obzirom da vecina algoritama sasvim fino koristi CPU cache
i da zbog toga vidimo da brza memorija ne donosi proprocionalna ubrzanja, benefitirace samo baze i algoritmi
koji jure pointere po memoriji.


Da i svi AI algoritmi koji su ograniceni propusnom moci (citaj: skoro svi). Sva prepoznavanja lica, fotografija, glasa, razni Asistenti i ostalo ce jako lepo biti ubrzani sa jos nabacane brze memorije.

Citat:

Ono sto vidimo je da aktuelni procesori nisu ni dva puta brzi od sandy bdridga iz 2011. Sve to limitira mogucnosti
softvera i onoga sto je izvodljivo na trenutnom hardveru :P


Mislim da posmatramo sasvim druge segmente industrije. Ti posmatras segment desktop/WS masina, ja posmatram DC/HPC segment.

2011 godina je bukvalno praistorija sto se, recimo, AI-a tice. 2011 su ljudi jos ziveli u ideji da je klasifikacija slika sa performansama uporedivim sa ljudskim tezak problem bez resenja.

Sledece godine se desila revolucija koja je problem ucinila resivim u kratkom roku. Par godina kasnije su klasifikatori prestigli performanse ljudi.

Kolicina operacija koje mozes da izvedes je nastavila da skace kao da se nista nije desilo.
DigiCortex (ex. SpikeFun) - Cortical Neural Network Simulator:
http://www.digicortex.net/node/1 Videos: http://www.digicortex.net/node/17 Gallery: http://www.digicortex.net/node/25
PowerMonkey - Redyce CPU Power Waste and gain performance! - https://github.com/psyq321/PowerMonkey
 
Odgovor na temu

Branimir Maksimovic

Član broj: 64947
Poruke: 5534
109.72.51.23



+1064 Profil

icon Re: Dosli smo do kraja Murovog zakona, vreme je da se vratimo efikasnosti i otpimizaciji :P11.06.2020. u 17:04 - pre 46 meseci
Ivan:"Ti posmatras segment desktop/WS masina, ja posmatram DC/HPC segment."

Mislim da je to jedini segment gde treba vise od 16 kora, ajde 16 na 8 smo od 2017 ;)
No generalno sve o cemu pricas je zapravo optimizacija koda, na hardveru koji sporo
napreduje u performansama :P

"zato sto u datacentru mogu da instaliraju neko svemirsko hladjenje."

Heh, ali data centri nisu ono oko cega se vrti svet ;)

U svakom slucaju mi ovde imamo paralelizaciju, koja van specificnih problema
nema neku primenu za najvise algoritama, kao sto sam rekao. Usvakom slucaju
se opet vracamo na pocetak a to je problem paralelizacije postojecih algoritama
sto donosi drasticna ubrzanja...


 
Odgovor na temu

Ivan Dimkovic

Administrator
Član broj: 13
Poruke: 16687
*.unitymedia.biz.



+7173 Profil

icon Re: Dosli smo do kraja Murovog zakona, vreme je da se vratimo efikasnosti i otpimizaciji :P11.06.2020. u 18:30 - pre 46 meseci
Citat:
Branimir Maksimovic
Heh, ali data centri nisu ono oko cega se vrti svet ;)


To neki citat iz 1990-te?

Ako uzmes samo stvari koje prosecan covek koristi danas - Google / YouTube, Netflix & Co., Amazon, Facebook itd. su masivni Cloud servisi.

Zameni sve ovo gore sa lokalnim alternativama ako pricas o Kini.

Onda na sve to dodaj DC resurse koji kreiraju mobilne mreze, digitani TV, procesiraju transakcije sa karticama i tone baza podataka, AI servisa.

Intelov CCG (potrosacki procesori) je doneo $10B u prihodima (Q4 2019)
Intelov DCG (datacentar) je doneo $7.2B u prihodima (Q4 2019)

Samo sto, DCG ima rast 19%, CCG 2%.

Ali ono sto je interesantnije je da 7 firmi kupi pola Intelovih serverskih procesora. Te firme su cloud provajderi i hyperscaleri, cist DC.

Citat:

U svakom slucaju mi ovde imamo paralelizaciju, koja van specificnih problema
nema neku primenu za najvise algoritama, kao sto sam rekao. Usvakom slucaju
se opet vracamo na pocetak a to je problem paralelizacije postojecih algoritama
sto donosi drasticna ubrzanja...


Samo si propustio sitnicu da servisi koji pokrecu Internet, TV i mobilnu komunikaciju uopste nemaju potrebu za "paralelizacijom algoritama" posto paralelizaciju dobijaju za dzabe samom prirodom servisa.

A HPC/AI problemi su mahom masivno paralelni i pogodni za klasicne tehnicke paralelizacije.

Ostaju stvari koje uopste nisu ni smislene za paralelno izvrsavanje. Da, moj kalendar na laptopu nece moci da iskoristi 1000 jezgara. Koga briga?

Citat:

Mislim da je to jedini segment gde treba vise od 16 kora, ajde 16 na 8 smo od 2017 ;)
No generalno sve o cemu pricas je zapravo optimizacija koda, na hardveru koji sporo
napreduje u performansama :P


Ti si jednostavno izignorisao da je skoro svo racunanje otislo iz tvog PC-ja u DC/Cloud.

Kad trazis nesto na Google-u to se izvrsava na servisu od miliona nodova. Jedna glupa pretraga koja ti deluje da malo duze traje (par sekundi) je bukvalno "proletela" kroz indekse velciine hiljada terabajta. Probaj to kod kuce za par sekundi.
Kad gledas Netflix/YouTube/.. tvoj racunar samo prikazuje video. Glavni deo posla se izvrsava u DC-u.
Kad kupujes robu online, tvoj racunar samo renderuje HTML. Glavni deo posla se izvrsava u DC-u.
Kad zoves nekog preko mobilnog ili WhatsApp-a, Vibera - tvoj terminal je data pumpa sa codecima. Sve ostalo se radi u DC-u.

Da, ne treba ti vise od 16 jezgara. Zato sto je neko pametan premesto centar racunanja tamo gde je jeftniji i efikasniji. Pogodi kako stoje stvari sa brojem jezgara koja krckaju tvoje Google pretrage ili ti salju YouTube video pakete.

DigiCortex (ex. SpikeFun) - Cortical Neural Network Simulator:
http://www.digicortex.net/node/1 Videos: http://www.digicortex.net/node/17 Gallery: http://www.digicortex.net/node/25
PowerMonkey - Redyce CPU Power Waste and gain performance! - https://github.com/psyq321/PowerMonkey
 
Odgovor na temu

Branimir Maksimovic

Član broj: 64947
Poruke: 5534
109.72.51.23



+1064 Profil

icon Re: Dosli smo do kraja Murovog zakona, vreme je da se vratimo efikasnosti i otpimizaciji :P12.06.2020. u 03:22 - pre 46 meseci
Ivan:"Ti si jednostavno izignorisao da je skoro svo racunanje otislo iz tvog PC-ja u DC/Cloud. "

To je samo deo toga. Internet servisi i ini, i to ne svi nego oni veliki. Nije bas tako da se sve odvija
kod velikih.

"Da, ne treba ti vise od 16 jezgara."

Ne iz razloga sto se sve odvija u data centrima, nego zbog toga sto trenutni softver retko koristi
i 8 kamoli 16. Znaci amendum na osnovi artikl je paralelizacija postojeceg softvera.
 
Odgovor na temu

[es] :: Art of Programming :: Dosli smo do kraja Murovog zakona, vreme je da se vratimo efikasnosti i otpimizaciji :P

Strane: 1 2

[ Pregleda: 4777 | Odgovora: 30 ] > FB > Twit

Postavi temu Odgovori

Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.