| | SLO | ENG | Piškotki in zasebnost

Večja pisava | Manjša pisava

Izpis gradiva

Naslov:Deep Learning on Low Power Embedded Devices Using RISC-V Cores with an Extended Instruction Set : master's thesis
Avtorji:Vreča, Jure (Avtor)
Brezočnik, Zmago (Mentor) Več o mentorju... Novo okno
Merchant, Farhad (Komentor)
Datoteke:.pdf MAG_Vreca_Jure_2020.pdf (2,69 MB)
MD5: 2E508CBD50BF4D1789FF869DE433BFF4
 
Jezik:Angleški jezik
Vrsta gradiva:Magistrsko delo/naloga (mb22)
Tipologija:2.09 - Magistrsko delo
Organizacija:FERI - Fakulteta za elektrotehniko, računalništvo in informatiko
Opis:This thesis explores the possibility of running neural networks on microcontrollers and how to optimize their performance using instruction set extensions. Microcontrollers are seen as too weak to run neural networks. We challenge this view and show that stripped-down neural networks can run and be useful for some applications. We used an open-source microcontroller called PULPino to run our neural network. The benefit of various instructions and optimizations for minimizing energy consumption to run deep learning algorithms was evaluated. Hardware loops, loop unrolling, and the dot-product unit were implemented and tested. We developed an FPGA-based testing system to evaluate our hardware. We also developed a deep learning library and a test neural network for our hardware. We wrote two versions of the deep learning library. One version is the reference code, and the other is the optimized code that uses the dot product unit. Using the testing system, we tested the performance of the two versions. The synthesis was run to determine the power and energy consumption. We also tried out various optimizations to see if the performance could be improved. Using instruction set extensions and algorithmic optimizations we reduced the clock cycle count by 72% for the convolutional layers and by 78% for fully-connected layers. This reduced power consumption by 73%. We compare our results with related research.
Ključne besede:deep learning, embedded system, instruction set, RISC-V
Leto izida:2020
Kraj izvedbe:Maribor
Založnik:[J. Vreča]
Št. strani:85 f.
Izvor:Maribor
UDK:004.8.021(043.2)
COBISS_ID:36194051 Novo okno
NUK URN:URN:SI:UM:DK:4LVMOO45
Število ogledov:420
Število prenosov:83
Metapodatki:XML RDF-CHPDL DC-XML DC-RDF
Področja:KTFMB - FERI
:
  
Skupna ocena:(0 glasov)
Vaša ocena:Ocenjevanje je dovoljeno samo prijavljenim uporabnikom.
Objavi na:AddThis
AddThis uporablja piškotke, za katere potrebujemo vaše privoljenje.
Uredi privoljenje...

Postavite miškin kazalec na naslov za izpis povzetka. Klik na naslov izpiše podrobnosti ali sproži prenos.

Licence

Licenca:CC BY-NC-ND 4.0, Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna
Povezava:http://creativecommons.org/licenses/by-nc-nd/4.0/deed.sl
Opis:Najbolj omejujoča licenca Creative Commons. Uporabniki lahko prenesejo in delijo delo v nekomercialne namene in ga ne smejo uporabiti za nobene druge namene.
Začetek licenciranja:27.08.2020

Sekundarni jezik

Jezik:Slovenski jezik
Naslov:Globoko učenje na nizkoenergijskih vgrajenih napravah z uporabo jeder RISC-V z razširjenim naborom ukazov
Opis:V magistrski nalogi smo raziskovali, kako različne razširitve nabora ukazov vplivajo na učinkovitost izvajanja algoritmov globokega učenja — predvsem v kontekstu nizkoenergijskih vgrajenih naprav. Konkretno smo pogledali uporabnost inštrukcij za strojne zanke in inštrukcij za skalarni produkt. Algoritmi globokega učenja se redko uporabljajo v vgrajenih sistemih, ker so računsko in energijsko zelo zahtevni. Zatorej je bil stranski cilj magistrske naloge pokazati, da lahko algoritme globokega učenja v okrnjeni obliki kljub temu uporabljamo v nizkoenergijskih vgrajenih napravah. Za osnovo smo vzeli odprtokodni mikrokrmilnik PULPino, ki sta ga skupaj razvila ETH Zürich in Univerza v Bologni. Procesorsko jedro mikrokrmilnika PULPino se imenuje RI5CY. RI5CY je majhno jedro s cevovodom s štirimi stopnjami. Jedro je namensko zgrajeno za nizkoenergijsko paralelno računanje. Procesorsko jedro smo nato nadgradili z enoto za računanje skalarnega produkta vektorjev velikosti štiri. Vso aritmetiko smo delali v aritmetiki s plavajočo vejico. Pomembna funkcionalnost jedra RI5CY je funkcija strojne zanke. Ta funkcija nam je omogocala učinkovitejše izvajanje zank z majhnim telesom — t.j. z majhnim številom ukazov v telesu zanke. Da smo lahko ocenili ucinkovitost našega sistema, smo razvili testni sistem, ki je temeljil na Zynq-7000. Zynq-7000 je družina sistemov na čipu podjetja Xilinx. Čipi Zynq-7000 imajo na istem siliciju združeno tako trdo intelektualno lastnino kot tudi programirljivo polje logičnih vrat. Del trde intelektualne lastnine je procesor ARM Cortex-A9, na katerem smo poganjali aplikacijo v Linuxu, ki je sprogramirala, nadzirala in spremljala na FPGA-ju emuliran PULPino. Aplikacija je tudi izvajala meritve in zbirala rezultate. Procesor ARM Cortex-A9 in PULPino smo povezali z vodilom AXI. Po tem vodilu smo v PULPino dostavljali vhodne podatke za nevronsko mrežo. PULPino je o koncu računanja obvestil procesor ARM Cortex-A9 s prekinitvijo. Sistem smo načrtovali v programu Vivado podjetja Xilinx. V sklopu naloge smo razvili tudi preprosto demonstracijsko konvolucijsko nevronsko mrežo, ki smo jo poganjali na naši strojni opremi. Izvajala je optično zaznavo znakov z vsega petimi sloji — dva konvolucijska sloja, dva polno-povezana sloja in izhodni sloj tipa Softmax. Nevronsko mrežo smo razvili s knjižnico TensorFlow podjetja Google. Ugotovili smo, da je dodana enota za računanje skalarnega produkta vektorjev povečala površino silicija za 172 %. Povečanje površine je več kot podvojilo statično porabo, medtem ko je dinamična poraba ostala na podobni ravni. Velikost naše knjižnice za globoko učenje se je glede na različico in izbrane optimizacije gibala med 1,2 KB in 4,5 KB. Ta velikost je sprejemljiva tudi za vgrajene sisteme, ki so praviloma zelo omejeni s pomnilnikom. Podali in analizirali smo rezultate za celotno demonstracijsko nevronsko mrežo in za različne tipe slojev posebej. Ugotovili smo, da je dodana enota za računanje skalarnega produkta bolj uspešna pri pospeševanju konvolucijskih kot polno-povezanih slojev. Glavni razlog za to je dejstvo, da so konvolucijski sloji manj pomnilniško požrešni — enoto za računanje skalarnega produkta smo lahko bolj izrabili. Konvolucijske sloje smo v najboljšem primeru izracunali z 78 % manj urinih ciklov, medtem ko smo polno-povezane sloje izracunali z 72 % manj urinih ciklov. Tako smo v povprečju zmanjšali število urinih ciklov za 73 %. Končni rezultat tega je bil, da se je energija, potrebna za izračun ene iteracije nevronske mreže, zmanjšala za 73 % v primerjavi z neoptimiziranimi različicami.
Ključne besede:globoko učenje, vgrajeni sistemi, nabor ukazov, RISC-V


Komentarji

Dodaj komentar

Za komentiranje se morate prijaviti.

Komentarji (0)
0 - 0 / 0
 
Ni komentarjev!

Nazaj
Logotipi partnerjev Univerza v Mariboru Univerza v Ljubljani Univerza na Primorskem Univerza v Novi Gorici