最近,以計算吞吐量而非能量效率來衡量的性能才成為主要的計算需求,因此,人們對超導電子學的興趣是基於處理器的速度。20世紀80年代開發的快速單通量量子(RSFQ)技術使用電阻來調節約瑟夫森結的偏置電流[9] ,並已被用於演示高達770GHz 的電路[10]。在 RSFQ 中,偏置電阻的靜態功耗大約是約瑟夫森結和相關阻尼電阻的動態功耗的100倍。即使包括制冷,RSFQ 電路並不需要比傳統技術更多的功率,當性能是主要需求時,這允許一些優勢。
基於 RSFQ 的計算機由於以下問題缺乏足夠的競爭力:
SFQ 技術的最新發展包括能量效率大大提高的變體,如互惠量子邏輯(RQL)[11]-[13] ,高效 SFQ (ERSFQ,eSFQ)[14]-[16] ,LR-RSFQ [17] ,[18]和低電壓 RSFQ [19] ,[20]。與傳統的 RSFQ 相比,功率和能量的減少已經證明超過瞭100倍。
隨著結合約瑟夫森結和磁隨機存取存儲器(MRAM)特性的存儲器元件的發展,低溫存儲器的前景也得到瞭改善[21]-[27]。在寒冷的環境中同時操作邏輯和存儲器的能力,而不是在室溫下將主存儲器關閉,降低瞭對與室溫相互連接的需求,以至於可以找到工程解決方案。
Nagy 等人最近的研究表明,半導體產業的摩爾定律軌跡,即大約每兩年集成電路中的元件增加一倍,是收入指數增長的結果,而不僅僅是時間的結果。為瞭以類似的方式起飛,超導電子需要相當大的市場來為其發展提供資金。節能的大規模計算和中間產品,如路由器和網絡交換機等相關產品可能是所需的市場機會。
系統需求
性能:對標超算和數據中心,需要1-1000 PFLOP/s
能效:目前超算是2 GFLOP/J。目標是20 MW實現1000 PFLOP/s,需要達到50 GFLOP/J,理想是500 GFLOP/J
架構:主存儲器: 0.1 ~ 1 B s/FLOP主存儲器延遲(訪問時間) : < 100周期主存儲器數據訪問速率: 1B/FLOP輸入/輸出數據速率: 10^-5 ~ 10^-3 B/FLOP並行性: 較少的處理器通常更好輸入/輸出規范假設一個傳統的超級計算機架構,數據存儲系統在計算機的主要部分之外。對於這樣的系統,輸入/輸出規范包括數據存儲訪問。實現主內存延遲目標需要主內存非常接近邏輯。對於超導計算機來說,這需要主存儲器與低溫環境下的邏輯放在一起。
76accf6462af7f8677995abe36f470ce
一般來說制冷系統越大,效率越高
經典超算和量子計算機的功耗和性能。
傳統超級計算機的功耗通常在邏輯、內存和互連之間大致均勻地分配。制冷系統還需要電力,通過結構和通信鏈路的傳導、氣體和液體的對流以及熱輻射,將泄漏到低溫環境中的熱排出。制冷熱負荷預算目標設定為邏輯、存儲器和互連各為30% ,熱泄漏為10% 。每個組成部分預算的范圍可能與這些目標相差約3倍。例如,記憶目標是30% 的制冷熱負荷預算,但可以范圍從10% 至90% 。
可行性評估
邏輯
對約瑟夫森結,每個開關的切換的能量約為2 × 10-19J。通過各種優化,可以達到1.7 × 10-20J。
使用 Ic = 25μA 的 RQL 電路計算1 PFLOP/s 所需的功率的簡單估計:
根據表一,1 PFLOP/s 計算機在4.2 K 時的最大熱負荷為1.5 W,其中30% 為0.45 W,這表明 RQL 可能能夠滿足效率要求。ESFQ 等其他 SFQ 變體也可能被證明是合適的。使用可逆或絕熱計算電路,甚至可能進一步降低能量和功率,盡管這些方法尚未得到證實,而且可能要慢得多。可行性研究中使用的每個處理器的約瑟夫遜結數量為2000萬個,高於HTMT SPELL處理器[37]估計的720萬個,以實現更高的復雜性和靈活性。
(反推的話時鐘應該是1.5THz?望指正)
存儲
此處使用超導結構成的存儲器。單元面積15u*15u。通過64Kibit RSFQ存儲器芯片[38]的設計可以估計1PB存儲器的功耗,如下所示
387c93f5589e2f23af723aa9ae4e8393
基於RSFQ技術的可用超導存儲器顯然消耗瞭太多的功率,無法在PB級計算機系統的4K環境中用作存儲器。使用新的、更節能的SFQ技術和更精細的光刻技術,可能會有顯著的改進。盡管如此,將能源效率提高數百萬倍將是一個挑戰。超導存儲器似乎最有希望用於處理器芯片上的寄存器和高速緩沖存儲器,因為速度非常重要。即使在這些應用中,也需要顯著提高物理密度和能源效率
設計和制造為在4K下操作的CMOS存儲器可以與SFQ電路集成。已經開發並測試瞭高達64 Kibit的混合約瑟夫遜CMOS存儲器[40],[41]。雖然這些存儲器比迄今為止建造的純超導存儲器更大、密度更大,但功率和能量耗散太大,無法在超大型超導計算機中使用。
尋找更合適的記憶已經開始,一些概念很有希望,但沒有一個得到證實
互聯和熱泄露
超導計算機的熱部分和冷部分之間的熱泄漏是一個重要的考慮因素。將主存定位在冷空間內會大大減少,但並不能消除這個問題。
在芯片上和芯片間,超導無源傳輸線(PTL)提供瞭在計算機系統的冷部分內移動SFQ脈沖的有效手段[45],[46]。傳輸一個比特需要2個約瑟夫遜結進行切換,PTL的兩端各有一個。使用平均每比特1個脈沖的RQL,Ic=100μA,Esw=IcΦ0/3,以及表IV中給出的緩存數據訪問速率范圍的2倍,訪問高速緩沖存儲器的功率估計為每PFLOP/s 2.2至18mW。類似地,訪問主存儲器的功率估計為每PFLOP/s 0.5至9mW,使用雙SFQ脈沖,每個傳輸路徑中平均有2個中繼器,以及表IV中給出的主存儲器數據訪問速率范圍的2倍。每個范圍的高數量用於表II中的估計。
73d81332cf4371c8e5926b327ec43d04
以最小的熱泄漏為低溫環境供電是經過充分研究和開發的。最具挑戰性的是攜帶高電流或高頻率(GHz)的引線。對於具有光纖輸入的1 PFLOP/s系統,在40K下具有銅帶狀電纜的eSFQ到DC輸出驅動器到半導體放大器,以及芯片上和芯片之間的超導PTL,估計熱泄漏約為0.1W。為瞭防止額外的熱量泄漏,電源線將需要諸如RQL中使用的交流偏置或直流電流的回收等方法來避免超出功率預算。表二總結瞭由於互連造成的估計熱負荷
面積
1) 邏輯:所需的芯片面積估計為處理器數量乘以每個處理器的約瑟夫遜結(JJ)數量(2000萬)除以JJ面積密度(1×1010 m−2;見第V-B節中的討論)。因此,每個處理器的估計芯片面積為2×10−3 m2(20 cm2)。2) 存儲器:對於位單元尺寸為360 nm×360 nm的技術,估計平均密度為900 GB/m2,即4F2,特征尺寸F=180 nm。可能需要多個結層才能實現這樣的平均位密度。這種比特單元的技術尚待證明。3) 互連:邏輯芯片面積增加瞭5%,以考慮輸入/輸出驅動器和接收器。
封裝
所需的數量取決於封裝方案。ExaScale研究[32]中審查瞭非晶芯片的高密度封裝方案(見第6.6.1節和第7.1.5節)。本可行性研究的設計理念是使用基於具有超導Nb佈線的載體基板的多芯片模塊(MCM),但不使用有源電路。
表III包括所研究的計算機系統的部件和總低溫恒溫器體積。建造大型超導計算系統所需的技術尚未完全可用。
存儲需求
大量數據必須存儲在存儲器中,並在邏輯電路和存儲器之間移動。為瞭最大限度地減少所需的能量和時間,存儲器最好位於盡可能靠近邏輯的位置。最好是在與邏輯相同的溫度下工作的存儲器。信號兼容性也是非常希望的,以避免轉換信號的成本。考慮到從低溫環境中去除熱量的制冷成本,在4至10K下運行的存儲器必須消耗非常小的能量,用於:
內存功率預計與內存總量和內存訪問率成比例。
目標不能很好地用一個數字來表示,因為內存數量和訪問速率不是設定的要求,但可以用能量和功率來交換。
1) 數量和訪問速率:表IV中給出的超導計算機的內存目標是基於[32](見表7.7)和[49]中類似系統的范圍制定的。通常更需要更高的量。寄存器和高速緩沖存儲器的數量以每個處理器(B/處理器)的字節為單位指定,每種類型的總數為=(B/處理器)(FLOP/s)/[(cycle/s)(FLOP/cycle·processor)]。該公式中其他量的預期范圍為1至100 GHz時鐘速度(周期/s)和1至4 FLOP/(周期·處理器)。因此,每個PFLOP/s的處理器數量在2.5e+3到1e+6的范圍內。處理雙精度FLOP需要2次讀取和1次寫入,每次讀取64位(8字節)。因此,所需的總存儲器訪問速率約為3×8=24B/FLOP。
表V中出現的內存數量范圍的最小值(最差值)設置為SPELL處理器設計中數量的1/4,其中包括256 Kibit的緩存和8 Mibit的RAM[37]。最大值(最佳值)被設定為高出2^12倍(4096倍)。
2) 訪問能量:每次內存訪問(讀或寫)的能量在評估候選內存技術時很有用。表IV中的目標訪問速率對於高速緩沖存儲器為1到8 B/FLOP,對於主存儲器為0.05到1B/FLOP。這種約10個高速緩存與主存儲器訪問的比率要求高速緩存訪問更節能。高速緩存和主存儲器的功率范圍分別設置為總存儲器功率目標的0.1至1倍,該目標設置為表I中可用冷卻功率的1/3。然後,計算1 PFLOP/s計算機的能量邊界,高速緩存為6×10−19至5×10−17 J/位,主存儲器為5×10–18至1×10−15 J/位。請註意,這個下限並不是一個嚴格的限制,而隻是指示瞭一個點,超過這個點,提高能源效率的額外努力將不會為整個系統帶來顯著的好處。平均存儲器訪問能量取決於讀取/寫入的比率(R/W)。這個比率因存儲器體系結構和應用而異,但1到4的范圍是合理的,2是用於估計目的的常用數字。平均能量E=[(R/W)ER+EW]/[(R/W)+1]。
3) 靜態功率:可以類似地開發靜態功率耗散范圍。表IV中的高速緩沖存儲器數量為0.3至1050 GB·s/PFLOP,最多僅為主存儲器數量的1%。考慮到高速緩沖存儲器的數量相對較少,在計算靜態功率范圍時會忽略它,但靜態功率范圍預計將適用於高速緩沖存儲器和主存儲器。我們將靜態功率的上限設置為目標的一半,感興趣的下限設置為目標內存功率的1%,在這種情況下,范圍為5×10−19至2.5×10−16 W/位
4) 工作溫度:由於除非使用超導傳輸線,否則數據移動會消耗大量能量,因此可以通過將主存儲器定位在超導傳輸線可以工作的低溫環境中,將存儲器訪問能量降至最低。溫度必須低於約70K,這取決於傳輸線中使用的材料的超導特性。操作溫度越高,存儲器必須位於離邏輯越遠的位置,該邏輯使用當前可用的SFQ技術在4到5K的溫度下操作。
其他次要目標
1) 讀取或寫入時間:讀取或寫入內存元素所需的時間可能很長。對於某些技術,寫入時間要比讀取時間長得多。讀取時間更為重要,因為處理器通常必須等待數據到達。另一方面,寫入通常不需要處理器等待完成。基於當前CMOS技術的計算機的典型延遲時間是L1高速緩存:1個時鐘周期;二級緩存:10個周期;主存儲器:100個周期。正如Murphy[31]所指出的和前面討論的那樣,更快的讀時間是有益的。因此,我們將高速緩沖存儲器的目標范圍設置為讀取1到5個時鐘周期和寫入2到20個時鐘周期,將主存儲器的目標區域設置為讀取5到50個時鐘周期、寫入20到200個時鐘周期。
2) 與邏輯的距離:邏輯和內存之間物理距離的增加也會帶來延遲。顯著的延遲降低瞭計算速度,從而降低瞭計算能量效率,因為制冷功率保持大致恒定。與高速緩沖存儲器通信的延遲的有效性閾值約為0.1個時鐘周期,而與主存儲器通信的有效性門限約為10個時鐘周期。信息在超導傳輸線上以大約c/3的速度移動,因此100毫米的間隔會導致約1納秒的延遲,對於以10 GHz運行的計算機來說,這是10個時鐘周期。影響邏輯(處理器芯片)和主存儲器之間距離的因素包括操作溫度、每個的物理密度、制造工藝的兼容性以及芯片安裝技術。目標范圍將被認為在顯著性閾值的10倍以內。
3) 密度:內存成本和物理體積與可以在芯片上制造的比特密度成反比。感興趣范圍內的最小(最差)密度被設置為最小存儲器量除以10mm×10mm芯片的面積。最大值(最佳值)被設定為高出10^5倍。
表五進行瞭總結
制造技術需求
據報道,迄今為止最大的SFQ處理器隻有大約22000個結[60],遠低於估計所需的1000萬至2000萬個。增加超導集成電路密度的方法包括:
1) 特征尺寸:將F從1000 nm降低到90 nm可以使密度增加120倍。
2) 超導層:用於佈線或電感器的額外層允許堆疊組件。
3) JJ層:穩健勢壘技術的發展可以實現多個約瑟夫遜結層。
4) 增加臨界電流密度,Jc:更高的Jc允許更小的結尺寸。另一個好處是,具有更高Jc的結切換得更快,從而可以提高操作速度或時鐘頻率。處理速度的提高可用於提高性能或減少達到給定性能水平所需的處理器數量。
5) 自分流結:Jc高於約1 GA/m2(100 kA/cm2)的Nb/Al/AlOx/Nb約瑟夫遜結不需要分流電阻器,因此需要較小的芯片面積[61]。
6) 勢壘材料:需要高度均勻和可重復的勢壘來產生大量具有嚴格控制的臨界電流的約瑟夫遜結。氧化鋁屏障是薄的、精細的,並且在Jc高於約100MA/m2的情況下難以可再現地制造。其他阻擋材料可以允許制造尺寸較小的較高Jc結[62],[63]。
7) 高電感材料:超導帶狀線的電感隨著導體寬度接近導體和接地平面之間的電介質厚度而減小[64],[65]。NbN等超導體具有比超導電子電路中通常使用的Nb更高的動力學電感[66]。
8) 磁性材料:包含磁性層的約瑟夫遜結可用於提供偏置電流[67]、[68]或創建具有更少電路元件或更小面積的存儲元件[21]、[22]。
需要類似於國際半導體技術路線圖(ITRS)的路線圖。
設計工具需求
1999年,Gaj等人發表瞭超導數字電子EDA工具的調查結果[71]。根據需要確定但當時缺少的EDA工具包括:時序優化、自動邏輯合成和自動佈局合成。多年的後續工作[72]-[87]以及對大規模超導計算機開發的新興趣推動瞭對現狀的重新評估。
現有的SFQ設計流程足以進行小規模SFQ設計和實施,當前的開發活動將為中型電路提供足夠的框架。大規模邏輯設計和實現所需的支持水平不足,需要加以解決。
1) 通用標準單元庫:每個邏輯系列都需要由鑄造廠開發和維護的標準單元庫。這種門級仿真模型適用於中小型邏輯設計,但會顯著影響大規模電路設計的模擬器性能,因此需要靜態時序分析工具。無論如何,都需要門級仿真模型。
2) 自動化邏輯合成工具:需要開發自定義工具和合成算法,以有效地將行為HDL轉換為適當的SFQ邏輯。這些工具應該:•接受每個SFQ邏輯系列的技術文件或組件庫,•從硬件描述語言生成標準格式的合成網表,•利用現有的CMOS合成工具。
3) 自動化放置和佈線工具:需要探索針對SFQ優化的新型放置和佈線算法。此外,後端工具流需要更緊密地集成和完全自動化。這些工具應:•接受每個SFQ邏輯系列的技術文件或組件庫,•生成標準後放置和佈線輸出文件,•利用現有的CMOS放置和佈線工具。
4) 自動時序分析工具:SFQ設計需要靜態時序分析工具和算法。這些工具應該:•利用現有的CMOS工具功能,•接受合成網表並提供粗略的時序分析(該功能可以集成到邏輯合成工具中),•接受地點和路線輸出文件並提供準確的時序分析,•提供可供邏輯模擬器使用的精確計時文件。
5) 形式驗證工具:一旦開發出自動化合成和佈局工具,就需要等效性檢查工具和佈局與示意圖工具。該功能可能內置於SFQ合成和佈局工具中。
6) 自動內置自檢(BIST)插入工具:BIST插入功能不是中小型電路設計的要求,但在開發SFQ工具時需要考慮。例如,在開發SFQ工具和庫時,應考慮自動插入掃描鏈和存儲器的調試邏輯,這樣就不需要自定義BIST插入工具。
其他需求
A.封裝技術
表III中所示的1 PFLOP/s系統(1.3至39 m3)的體積范圍清楚地表明瞭追求先進、密集的包裝技術所能獲得的好處。MCM已經得到證明,但還需要更高水平的堆疊。
B.互連技術
最近在MCM[88]和直流引線[89]上的芯片之間的互連方面的工作是有希望的。這些領域以及室溫和低溫環境之間的I/O需要進一步開發,特別是對於需要更高I/O數據速率的應用。
Energy-Efficient Superconducting Computing—Power Budgets and Requirements. IEEE TRANSACTIONS ON APPLIED SUPERCONDUCTIVITY, VOL. 23, NO. 3, JUNE 2013
首發於關耳小獸觀察室
誠邀大佬來我小破號分享自己的工作或者review/翻譯其他大佬的工作
怎麼說也有將近五百粉
有意向後臺私我或者直接微我就行
上一篇
资源内容 今天为大家带的是评分9.6分的BBC纪录片《恐龙星球》系列。资源包括全片6集,每集30分钟左右。 怎么下载 社群 ...
文 / 桔媽育兒 整編 / 小桔子媽媽自從寶寶出生之後,媽媽們把大部分的時間也都獻給瞭寶寶,看著寶寶的一眸一笑,一點點地成長...