題目:A 65nm C64x+ Multi-Core DSP Platform for Communications Infrastructure
名稱:用於通信基礎設施的 65nm C64x+ 多核 DSP 平臺
論文:http://ieeexplore.ieee.org/document/4242365
單位:TI
會議:ISSCC 2007
多個1.1GHz DSP核心的處理能力和65納米技術集成的結合,在單個芯片上提供瞭第一個WCDMA宏基站。信號處理通信基礎設施平臺的實現如圖14.5.1所示,支持Release 99、HSDPA和HSUPA(高速下行/上行分組接入)標準,具有3個DSP內核、符號速率和芯片速率加速器。根據WCDMA調制解調器算法的復雜程度,最多可支持64個用戶。DSP MIPS可以分配給符號速率或芯片速率輔助處理,也可以分配給針對手指擴散處理的搜索和前置檢測相關性的權衡處理。片上WCDMA的上行鏈路到無線網絡控制器(RNC)和下行鏈路從RNC到天線的處理如圖14.5.2所示。軟件可編程性允許flex伽在代碼分割方面的能力,使平臺能夠有效地用於處理一系列小區大小和交通場景的應用程序。高帶寬聚焦外設,如串行千兆以太網、OBSAI(開放基站標準倡議)和CPRI(公共無線電接口)兼容的天線接口,以及32b DDR2-667,允許設備靈活連接。數據可以通過以太網和天線接口SERDES傳輸到電路板上。兩個3.125Gb/s的串行快速通道提供片對片通信,直接或通過交換結構連接多個dsp。這種架構可以經濟有效地支持多個標準,如WiMax(微波接入全球互操作性),TDSCDMA(時分同步碼分多址),EVDO和GSM。一體化的天線- na接口,軟件flex伽功能的代碼分割,多標準支持和更高的數據吞吐量的組合,使該解決方案有別於競爭產品[3]。
每個DSP核心每秒可執行高達8000 MIPS或8000 16b mmac。一個核心有8個功能單元,2個寄存器文件,2個加載/存儲數據路徑,32KB的Ll指令,32KB的數據-可配置的SRAM/緩存與ECC和內存保護。3MB的L2 RAM橫跨3個內核進行分區,並具有內存保護的ECC。DSP可以完全訪問內存映射,設備上的所有資源,並且可以通過直接信令或信號量對共享資源進行仲裁。對內存和芯片級組件的讀、寫和可執行限制是通過內存保護硬件強制執行的。芯片規格如圖14.5.3所示。
ca00f21e6a41e8284d39c453ffb1d0e2
最初的平臺實現采用高性能65nm工藝,采用16軌MET2庫架構,使用分層自動放置和路由(APR)。Cell庫具有2v,晶體管,每個具有2個通道長度變體,以實現性能與泄漏的權衡。短網上的提取不準確性和驅動器靈敏度在90nm以下顯著。為瞭滿足這些需求,豐富的庫按照[1]設計瞭6000個Cell。
在規模化過程中的一個主要實現挑戰是中繼器插入。隨著RC延遲的增加,跨芯片傳輸策略的重要性不言而喻。設備的復雜性正在增加,並導致更高的網絡計數和接近最優的結果質量需要避免額外的片上延遲。線寬度分配和中繼器插入同時進行,在n角環境中解決跨整個設計空間網絡規劃和非關鍵網絡繞行的慢/快路徑定時關閉問題是自動化的。為瞭滿足核心的目標,APR質量和全定制,手動放置之間的差距必須縮小。為此開發瞭一種新的原位正則化放置(RP)技術[2]。佈局約束是由通用結構化RTL自動生成的。細胞與非rp Cell同時有規律地放置和大小。尺寸和重新排列隨著環境的變化而不斷更新。對齊要麼維持在共同的邊緣上,要麼維持在特定的信號上,如圖14.5.4所示。此外,還采用RP技術緩解瞭目標區域的路由擁塞。
ba9df9c0d7cb5d0ddffc54c1f1f59cab
時鐘門控廣泛應用於23k時鐘門。時鐘分佈采用跨進程平衡樹,以低插入延遲降低功耗。時鐘緩沖器、時鐘門和延遲緩沖器具有經過調諧的晶體管佈局和尺寸,以最小化全局和局部變化。時鐘路由被限制為與為跟蹤和延遲匹配而選擇的路由幾何匹配。時鐘架構被設計為將時鐘發散向下推樹,以減少芯片上的變化。在時鐘上使用結構化佈局進行寄存器聚類,通過匹配每個時鐘簇內的延遲組件來減少系統偏差。
客戶板的限制對芯片施加瞭嚴格的功率預算。同時,客戶產品定位要求一流的時鐘速率。為該器件開發瞭一種自適應電壓調節技術,以抵消隨晶體管強度增加而增加的非線性泄漏功率。對於每個器件,滿足所需性能的最小工作電壓在兩個溫度下的制造測試中確定。然後使用保險絲將這兩種電壓存儲在咖p上。這些值由外部穩壓器使用,以提供最佳的電源電壓。在低電壓深亞微米cron CMOS中,電路速度隨著溫度的升高而增加。因此,在高溫下,片上熱二極管會發出如圖14.5.5所示的供電電壓下降信號。
在確定每個芯片的最佳電源電壓時,測試成本是一個主要挑戰。多核器件的片上變化為實現最大電壓縮放提出瞭挑戰。一種技術被開發出來,能夠快速確定最小芯片工作電壓。對各種環形振蕩器(ROs)和各種關鍵路徑進行瞭統計模擬。采用二階模型擬合不同RO集的時延,其中D()為各種時延,a和bu為擬合參數:
b15914a4dd3126414c6bd2a0d6bea6ed
識別出具有關鍵路徑性能非冗餘信息的ROs(圖14.5.6)。這些ROs的集合分散在關鍵路徑附近的骰子上,以解決系統的交叉骰子變化。矽後表征用於構建擬合模型,並進行持續更新以考慮長期工藝變化。這種技術可以與動態調整的電源電壓一起使用,並在芯片上計算模型。對比的顯微照片如圖14.5.7所示。
下一篇
四大“醒”,包括 wake,waken,awake 和 awaken,它們意思相近,有的時候甚至感覺它們是一樣的,那怎麼區分它們呢?一、wake1....