(二十六)通俗易懂理解——浮點與定點的計算機表示及互轉

該文主要來源於其他文章轉載整理,所以一開始也沒仔細核對篇中出現的一些低級錯誤,確實對讀者造成一定困擾,已修改部分內容,鑒於部分是附圖已無法修改,隻能將錯就錯,如發現其他問題,歡迎提出。後續將另寫文章再填補這個坑吧。

在神經網絡當中,為瞭盡快落地就需要考慮到數據存儲以及速度問題,這時候將浮點數轉為定點數就是一種比較常規的做法,也就是涉及到Binary neural networks和quantization,這部分有待下一篇繼續補充,現在就要搞定浮點與定點的計算機表示及互轉。看瞭挺多網上內容,智商有限沒有完全明白,不過最後還是找到瞭兩篇寫得比較清晰的,特此結合起來解決當前問題。

篇章1

C語言和C#語言中,對於浮點類型的數據采用單精度類型(float)和雙精度類型(double)來存儲,float數據占用32bit,double數據占用64bit,我們在聲明一個變量float f= 2.25f的時候,是如何分配內存的呢?如果胡亂分配,那世界豈不是亂套瞭麼,其實不論是float還是double在存儲方式上都是遵從IEEE的規范的,float遵從的是IEEE R32.24 ,而double 遵從的是R64.53。

無論是單精度還是雙精度在存儲中都分為三個部分:

  1. 符號位(Sign) : 0代表正,1代表為負
  2. 指數位(Exponent):用於存儲科學計數法中的指數數據,並且采用移位存儲
  3. 尾數部分(Mantissa):尾數部分

其中float的存儲方式如下圖所示:

而雙精度的存儲方式為:

R32.24和R64.53的存儲方式都是用科學計數法來存儲數據的,比如8.25用十進制的科學計數法表示就為:8.25* 10^{0} ;而120.5可以表示為:1.205* 10^{2}

而我們傻蛋計算機根本不認識十進制的數據,他隻認識0,1,所以在計算機存儲中,首先要將上面的數更改為二進制的科學計數法表示,8.25用二進制表示可表示為1000.01。

在此插播二進制小數與十進制進行互換的做法:

1、十進制轉為二進制:十進制0.125轉二進制為0.001。就是將小數部分不斷乘以2,每次取整數部分,直到為1。

再補充一個例子,將十進制0.3125轉為二進制:

ea609fe8d6179727cb26c534d60c8abf

所以十進制0.3125轉為二進制為0.0101.

2、二進制轉為十進制:二進制0.001轉為十進制為0.125。將各個位乘以2的負次方,最後將得到的結果相加,0*1/2+0*1/4+1*1/8得十進制的0.125

3f2d52e66b3293c720491550fd66ea7b

120.5用二進制表示為:1111000.1,用二進制的科學計數法表示1000.01可以表示為1.0001* 2^{3} ,1110110.1可以表示為1.1101101* 2^{6} ,任何一個數都的科學計數法表示都為1.xxx* 2^{n} ,尾數部分就可以表示為xxxx,第一位都是1嘛,幹嘛還要表示呀?可以將小數點前面的1省略,所以23bit的尾數部分,可以表示的精度卻變成瞭24bit,道理就是在這裡,那24bit能精確到小數點後幾位呢,我們知道9的二進制表示為1001,所以4bit能精確十進制中的1位小數點,24bit就能使float能精確到小數點後6位,而對於指數部分,因為指數可正可負,8位的指數位能表示的指數范圍就應該為:-127-128瞭,所以指數部分的存儲采用移位存儲,存儲的數據為元數據+127,下面就看看8.5和120.5在內存中真正的存儲方式。

首先看下8.5,用二進制的科學計數法表示為:1.0001* 2^{3}

按照上面的存儲方式,符號位為:0,表示為正,指數位為:3+127=130(尚未理解這個127的意義,數值就是 2^{7} -1) ,位數部分為,故8.25的存儲方式如下圖所示:

3d48f7fa216215441a778b82ef8b1d41

而單精度浮點數120.5的存儲方式如下圖所示:

那麼如果給出內存中一段數據,並且告訴你是單精度存儲的話,你如何知道該數據的十進制數值呢?其實就是對上面的反推過程,比如給出如下內存數據:0100001011101101000000000000,首先我們現將該數據分段,0 10000 0101 110 1101 0000 0000 0000 0000,在內存中的存儲就為下圖所示:

根據我們的計算方式,可以計算出,這樣一組數據表示為:1.1101101*2**6=120.5

而雙精度浮點數的存儲和單精度的存儲大同小異,不同的是指數部分和尾數部分的位數。所以這裡不再詳細的介紹雙精度的存儲方式瞭,隻將120.5的最後存儲方式圖給出,大傢可以仔細想想為何是這樣子的

下面我就這個基礎知識點來解決一個我們的一個疑惑,請看下面一段程序,註意觀察輸出結果

float f = 2.2f; double d = (double)f; Console.WriteLine(d.ToString("0.0000000000000")); f = 2.25f; d = (double)f; Console.WriteLine(d.ToString("0.0000000000000"));

可能輸出的結果讓大傢疑惑不解,單精度的2.2轉換為雙精度後,精確到小數點後13位後變為瞭2.2000000476837,而單精度的2.25轉換為雙精度後,變為瞭2.2500000000000,為何2.2在轉換後的數值更改瞭而2.25卻沒有更改呢?很奇怪吧?其實通過上面關於兩種存儲結果的介紹,我們已經大概能找到答案。首先我們看看2.25的單精度存儲方式,很簡單 0 1000 0001 001 0000 0000 0000 0000 0000,而2.25的雙精度表示為:0 100 0000 0001 0010 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000,這樣2.25在進行強制轉換的時候,數值是不會變的,而我們再看看2.2呢,2.2用科學計數法表示應該為:將十進制的小數轉換為二進制的小數的方法為將小數*2,取整數部分,所以0.282=0.4,所以二進制小數第一位為0.4的整數部分0,0.4×2=0.8,第二位為0,0.8*2=1.6,第三位為1,0.6×2 = 1.2,第四位為1,0.2*2=0.4,第五位為0,這樣永遠也不可能乘到=1.0,得到的二進制是一個無限循環的排列 00110011001100110011... ,對於單精度數據來說,尾數隻能表示24bit的精度,所以2.2的float存儲為:

但是這樣存儲方式,換算成十進制的值,卻不會是2.2的,應為十進制在轉換為二進制的時候可能會不準確,如2.2,而double類型的數據也存在同樣的問題,所以在浮點數表示中會產生些許的誤差,在單精度轉換為雙精度的時候,也會存在誤差的問題,對於能夠用二進制表示的十進制數據,如2.25,這個誤差就會不存在,所以會出現上面比較奇怪的輸出結果。

篇章2

1. 這篇博客將要討論什麼?

說來慚愧,作為計算機科班出身的人,計算機基礎知識掌握並不紮實,這裡的基礎指的是計算機體系結構中的內容,諸如數據的表示和處理,如float的表示和運算等。看《CSAPP》方知人傢老外把這個東西當成重中之重,大量詳細的原理介紹,並配套大量例題。當初本科學的時候,很簡單的瞭解瞭下概念而已,所以應該直接將《CSAPP》當做教材來用,裡面習題全做,這樣CS出來的基本知識將掌握的很紮實。

學藝不精的後果就在於:學而不思則罔。聖人太厲害瞭,總結得很到位。比如最近項目中涉及到浮點和定點的轉換,自己就有點蒙,邊看邊實驗,還算理解瞭,作文以記之。

一直以來,程序中接觸的數據類型都是int整型,char字符型,float單精度浮點型,double雙精度浮點型。看到浮點和定點一直不知道如何劃分這個概念的范疇。以為浮點就是float表示小數,定點就是int可表示整數而已。經過學習明白瞭顯然是錯誤的。應該是這樣劃分的:

浮點:小數點非固定的數,可表示數據范圍較廣,整數,小數都可表示。包含float,double;

定點:小數點固定,可表示整數,小數。int本質是小數點位於末尾的32位定點數而已;

有瞭這個認識,後面的討論就可以開始瞭。

3. 定點數的表示法

對於計算機來說,浮點定點的概念是看不見的,因為它隻能看到:0…00001110,至於它表示多少,是邏輯層面的設置。你如果讓它是int那就按照int表示法對每個位賦予意義,如果你讓它是float就按照float表示法賦予意義。

對於00011100 表示的定點數:

  • 如果我們設定小數點是位於最後一位的,即00011100. 則其表示28
  • 若設定小數點位於後三位的,即00011.100 則其表示3.50
  • 若設定小數點位於後四位的,即0001.1100 則其表示1.75

可以看到:

  • 小數位數越多,表示的精度越高。若小數點後有n位,則其表示的最大精度為1/(2^n)(這裡相當於將二進制切換到十進制來看精度。);
  • 整數位數越多,可表示的最大值越大。

以8位為例,最高位為符號位:

  • 若整數位占4位,小數位占3位,則其最大精度為0.125,最大值為15.875
  • 若整數位占5位,小數位占2位,則其最大精度為0.250,最大值為31.750
  • 若整數位占6位,小數位占1位,則其最大精度為0.500,最大值為63.500
  • 若整數位占7位,小數位占0位,則其最大精度為1.000,最大值為127

4. 浮點數 & 定點數

4.1 為何要把浮點數轉換為定點數呢?

這來源於項目中神經網絡的需求,網絡中大量的參數,如果全部用F32表示,一是占用空間大,二是讀取效率不高。

如果我們可以將某些浮點數轉換為定點數表示,在接受精度損失的前提下,每次就可以讀取多個進行運行,可顯著提高運算效率。

舉例來說,我們用8位定點數,1個符號位,4個整數位,3個小數位,則其可表示范圍是-16.00~15.875,最大精度0.125。

有幾個浮點數:0.145,1.231,2.364,7.512,每個需要32bit表示。

如果我們將每個量化成一個8位定點數,比如通過某種方法得到:1,10,19,60

此時每個數需要8bit表示。那麼讀一個浮點數,可以同時讀4個定點數,且計算效率可以提高。當然這樣做是有風險的:

  • 損失精度,比如再將上述定點數轉化為浮點數:0.125,1.250, 2.375,7.500;
  • 定點數表示范圍有限,加法有可能會溢出,需要拿int16或int32來暫存中間結果;

5. 總結

可以看到:

  • 浮點數和定點數的轉換是一種映射。將較為密集的數據空間(F32)映射到較為稀疏的空間(int8);
  • 定點數的小數點實際中是沒有的,這隻是我們邏輯上的一種設定。01序列是一樣的,CPU讀取都是相同的,因為我們邏輯上小數點的不同位置,我們認為它代表的值是不同的;

大神博客1:http://www.cnblogs.com/jillzhang/archive/2007/06/24/793901.html

大神博客2:http://blog.csdn.net/niaolianjiulin/article/details/82764511

发表回复

相关推荐

雁栖湖门票多少钱?

雁栖湖门票多少钱?近期慕巴士开通了到雁栖湖的直通车(公众号:慕巴士,雁栖湖直通车)越来越多的游客知道和喜爱上了这里, ...

· 10分钟前

國產“18禁”動畫《幻鏡諾德琳》無限期停更!

沒想到,最擔心的事情還是發生瞭—6月20日上午9時左右,《幻鏡諾德琳》官方微博藝畫開天宣佈全系產品無限期停更。文丨郭嘉掉線...

· 12分钟前

電磁場中的幾種阻抗

電路阻抗電路阻抗指集總參數電路中的電阻、電感和電容通過串聯和並聯所形成的阻抗,電阻形成阻抗的實部,電感和電容形成阻抗...

· 12分钟前

樣本標準差STDEV和總體標準差STDEV.P的區別和粗暴理解

記錄一下如何簡單粗暴的理解STDEV和STDEV.PSTDEV:樣本標準差的函數STDEV.P:總體標準差的函數一般沒學過統計的不知道 啥是樣...

· 16分钟前

談談我的閱讀心得

近期一直在想年後第一篇原創寫什麼題材,思來想去,決定寫寫自己的閱讀心得。選這個題材的原因有三點:1、很多人在新年伊始立...

· 18分钟前