| | SLO | ENG | Cookies and privacy

Bigger font | Smaller font

Show document Help

Title:Deep Learning on Low Power Embedded Devices Using RISC-V Cores with an Extended Instruction Set : master's thesis
Authors:ID Vreča, Jure (Author)
ID Brezočnik, Zmago (Mentor) More about this mentor... New window
ID Merchant, Farhad (Comentor)
Files:.pdf MAG_Vreca_Jure_2020.pdf (2,69 MB)
MD5: 2E508CBD50BF4D1789FF869DE433BFF4
PID: 20.500.12556/dkum/7fb1b28e-0667-4b2a-bea8-0d0dd9cc8811
 
Language:English
Work type:Master's thesis/paper
Typology:2.09 - Master's Thesis
Organization:FERI - Faculty of Electrical Engineering and Computer Science
Abstract:This thesis explores the possibility of running neural networks on microcontrollers and how to optimize their performance using instruction set extensions. Microcontrollers are seen as too weak to run neural networks. We challenge this view and show that stripped-down neural networks can run and be useful for some applications. We used an open-source microcontroller called PULPino to run our neural network. The benefit of various instructions and optimizations for minimizing energy consumption to run deep learning algorithms was evaluated. Hardware loops, loop unrolling, and the dot-product unit were implemented and tested. We developed an FPGA-based testing system to evaluate our hardware. We also developed a deep learning library and a test neural network for our hardware. We wrote two versions of the deep learning library. One version is the reference code, and the other is the optimized code that uses the dot product unit. Using the testing system, we tested the performance of the two versions. The synthesis was run to determine the power and energy consumption. We also tried out various optimizations to see if the performance could be improved. Using instruction set extensions and algorithmic optimizations we reduced the clock cycle count by 72% for the convolutional layers and by 78% for fully-connected layers. This reduced power consumption by 73%. We compare our results with related research.
Keywords:deep learning, embedded system, instruction set, RISC-V
Place of publishing:Maribor
Place of performance:Maribor
Publisher:[J. Vreča]
Year of publishing:2020
Number of pages:85 f.
PID:20.500.12556/DKUM-77360 New window
UDC:004.8.021(043.2)
COBISS.SI-ID:36194051 New window
NUK URN:URN:SI:UM:DK:4LVMOO45
Publication date in DKUM:03.11.2020
Views:1556
Downloads:163
Metadata:XML DC-XML DC-RDF
Categories:KTFMB - FERI
:
VREČA, Jure, 2020, Deep Learning on Low Power Embedded Devices Using RISC-V Cores with an Extended Instruction Set : master’s thesis [online]. Master’s thesis. Maribor : J. Vreča. [Accessed 21 January 2025]. Retrieved from: https://dk.um.si/IzpisGradiva.php?lang=eng&id=77360
Copy citation
  
Average score:
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
(0 votes)
Your score:Voting is allowed only for logged in users.
Share:Bookmark and Share


Hover the mouse pointer over a document title to show the abstract or click on the title to get all document metadata.

Licences

License:CC BY-NC-ND 4.0, Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International
Link:http://creativecommons.org/licenses/by-nc-nd/4.0/
Description:The most restrictive Creative Commons license. This only allows people to download and share the work for no commercial gain and for no other purposes.
Licensing start date:27.08.2020

Secondary language

Language:Slovenian
Title:Globoko učenje na nizkoenergijskih vgrajenih napravah z uporabo jeder RISC-V z razširjenim naborom ukazov
Abstract:V magistrski nalogi smo raziskovali, kako različne razširitve nabora ukazov vplivajo na učinkovitost izvajanja algoritmov globokega učenja — predvsem v kontekstu nizkoenergijskih vgrajenih naprav. Konkretno smo pogledali uporabnost inštrukcij za strojne zanke in inštrukcij za skalarni produkt. Algoritmi globokega učenja se redko uporabljajo v vgrajenih sistemih, ker so računsko in energijsko zelo zahtevni. Zatorej je bil stranski cilj magistrske naloge pokazati, da lahko algoritme globokega učenja v okrnjeni obliki kljub temu uporabljamo v nizkoenergijskih vgrajenih napravah. Za osnovo smo vzeli odprtokodni mikrokrmilnik PULPino, ki sta ga skupaj razvila ETH Zürich in Univerza v Bologni. Procesorsko jedro mikrokrmilnika PULPino se imenuje RI5CY. RI5CY je majhno jedro s cevovodom s štirimi stopnjami. Jedro je namensko zgrajeno za nizkoenergijsko paralelno računanje. Procesorsko jedro smo nato nadgradili z enoto za računanje skalarnega produkta vektorjev velikosti štiri. Vso aritmetiko smo delali v aritmetiki s plavajočo vejico. Pomembna funkcionalnost jedra RI5CY je funkcija strojne zanke. Ta funkcija nam je omogocala učinkovitejše izvajanje zank z majhnim telesom — t.j. z majhnim številom ukazov v telesu zanke. Da smo lahko ocenili ucinkovitost našega sistema, smo razvili testni sistem, ki je temeljil na Zynq-7000. Zynq-7000 je družina sistemov na čipu podjetja Xilinx. Čipi Zynq-7000 imajo na istem siliciju združeno tako trdo intelektualno lastnino kot tudi programirljivo polje logičnih vrat. Del trde intelektualne lastnine je procesor ARM Cortex-A9, na katerem smo poganjali aplikacijo v Linuxu, ki je sprogramirala, nadzirala in spremljala na FPGA-ju emuliran PULPino. Aplikacija je tudi izvajala meritve in zbirala rezultate. Procesor ARM Cortex-A9 in PULPino smo povezali z vodilom AXI. Po tem vodilu smo v PULPino dostavljali vhodne podatke za nevronsko mrežo. PULPino je o koncu računanja obvestil procesor ARM Cortex-A9 s prekinitvijo. Sistem smo načrtovali v programu Vivado podjetja Xilinx. V sklopu naloge smo razvili tudi preprosto demonstracijsko konvolucijsko nevronsko mrežo, ki smo jo poganjali na naši strojni opremi. Izvajala je optično zaznavo znakov z vsega petimi sloji — dva konvolucijska sloja, dva polno-povezana sloja in izhodni sloj tipa Softmax. Nevronsko mrežo smo razvili s knjižnico TensorFlow podjetja Google. Ugotovili smo, da je dodana enota za računanje skalarnega produkta vektorjev povečala površino silicija za 172 %. Povečanje površine je več kot podvojilo statično porabo, medtem ko je dinamična poraba ostala na podobni ravni. Velikost naše knjižnice za globoko učenje se je glede na različico in izbrane optimizacije gibala med 1,2 KB in 4,5 KB. Ta velikost je sprejemljiva tudi za vgrajene sisteme, ki so praviloma zelo omejeni s pomnilnikom. Podali in analizirali smo rezultate za celotno demonstracijsko nevronsko mrežo in za različne tipe slojev posebej. Ugotovili smo, da je dodana enota za računanje skalarnega produkta bolj uspešna pri pospeševanju konvolucijskih kot polno-povezanih slojev. Glavni razlog za to je dejstvo, da so konvolucijski sloji manj pomnilniško požrešni — enoto za računanje skalarnega produkta smo lahko bolj izrabili. Konvolucijske sloje smo v najboljšem primeru izracunali z 78 % manj urinih ciklov, medtem ko smo polno-povezane sloje izracunali z 72 % manj urinih ciklov. Tako smo v povprečju zmanjšali število urinih ciklov za 73 %. Končni rezultat tega je bil, da se je energija, potrebna za izračun ene iteracije nevronske mreže, zmanjšala za 73 % v primerjavi z neoptimiziranimi različicami.
Keywords:globoko učenje, vgrajeni sistemi, nabor ukazov, RISC-V


Comments

Leave comment

You must log in to leave a comment.

Comments (0)
0 - 0 / 0
 
There are no comments!

Back
Logos of partners University of Maribor University of Ljubljana University of Primorska University of Nova Gorica