搬運:http://www.51wctt.com/News/45730/Detail/1
自動駕駛汽車的智慧化取決於演算法,因此有軟體定義汽車的概念出現並且大爲盛行,但是要想實現軟體定義汽車,必須要有一個可以承載高度智慧化且運算量龐大的AI演算法的硬體計算平臺或者叫域控制器,而無論是硬體計算平臺還是域控制器,都離不開晶片。自動駕駛從L0到L5,隨着功能的完善和效能的提升,帶來更好的智慧和科技體驗的同時,也對AI晶片的算力和效能提出更高的需求。
之前的文件曾提到,L2或者說ADAS需要的AI計算力<10TOPS,L3需要的AI計算力爲30~60TOPS,L4需要的AI計算力>100TOPS,L5需要的AI計算力爲500-1000TOPS。
對於域控制器而言,硬體大體可分爲三部分:承擔環境感知和深度學習等超大算力需求的AI處理晶片、負責控制決策和邏輯運算的CPU、以及負責功能安全和車輛控制的MCU。
第一部分通常是GPU或TPU,承擔大規模浮點數並行計算需求,主要用於環境感知和資訊融合,如Xavier的GPU單元、昇騰310、地平線BPU等。
第二部分大多爲ARM架構,類似於CPU,主要負責邏輯運算和決策控制,處理高精度浮點數序列計算。
第三部分主要負責可靠性和車輛控制,目前用的較多的就是Infineon的TC297或者TC397。
第三部分MCU目前大部分域控制器或者計算平臺都會選擇Infineon的TriCore系列TC397或者TC297,比如華爲、地平線、德賽西威、優控智行等。第二部分大多是ARM架構處理器,或者和第一部分AI計算模組整合到一個SoC上,而第一部分目前正處在風頭浪尖或者說行業變革和技術路線探索的階段,前面也專門整理了一篇文章講被稱爲AI晶片的各種xPU。
本文盤一下,目前可供選擇用於設計域控制器或計算平臺的AI晶片種類和廠家,雖然目前的晶片最高也僅能滿足部分L3、L4級自動駕駛AI計算所需。
華爲在2018年推出MDC智慧駕駛計算平臺以及高階自動駕駛全棧解決方案,包括MDC300和MDC600兩個平臺,分別對應L3和L4級自動駕駛。
華爲MDC300由華爲昇騰Ascend310晶片、華爲鯤鵬晶片和Infineon的TC397三部分構成,算力在64Tops 左右,滿足L3級自動駕駛算力需求。MDC600基於8顆昇騰310 AI晶片,同時還整合了CPU和相應的ISP模組,算力高達352TOPS。
華爲MDC相對於其他平臺而言,最大的優勢在於其統一的系統架構便於功能擴充套件和適配多種場景應用。並且華爲MDC智慧駕駛計算平臺已經於2020年1月16日通過了德國萊茵頒發的ISO26262功能安全管理認證,達到ASIL-D級標準。
華爲依託其ICT行業的經驗積累,目前已經建立起了完善的晶片體系,包括專爲5G提供支援的巴龍系列晶片、基於全新達芬奇架構研發的昇騰Ascend系列AI晶片、在手機上搭載的CPU處理器晶片麒麟系列,以及伺服器級處理器晶片鯤鵬系列。其中,昇騰系列AI晶片主打AI算力需求。
昇騰310使用了華爲自研的高效靈活CISC指令集,每個AI核心可以在1個週期內完成4096次MAC計算,整合了張量、向量、標量等多種運算單元,支援多種混合精度計算,支援訓練及推理兩種場景的數據精度運算。
作爲NPU,昇騰310整合了FPGA和ASIC兩款晶片的優點,包括ASIC的低功耗以及FPGA的可程式化、靈活性高等特點,從而其統一架構可以適配多種場景,功耗範圍從幾十毫瓦到幾百瓦,彈性多核堆疊,可在多種場景下提供最優能耗比。
相較而言,英偉達的Xavier 算力爲30TOPS,功耗則達30W,能效爲1 TOPS/W,相比之下,華爲昇騰310 算力爲16 TOPS,功耗僅爲8W,能效爲2 TOPS/W。
華爲自研的昇騰Ascend晶片,支援接入與實時處理更多的外部感測器數據流(如攝像頭、毫米波雷達、鐳射雷達、GPS等),爲自動駕駛提供更安全可靠的計算力支援,能夠應付處理更復雜路況。搭載昇騰晶片的MDC相比其他計算平臺具備高效能。高能效、高安全性和確定性低延時等優勢。
說到華爲,順道提一下成立於2004年的華爲海思,以及大名鼎鼎的麒麟系列晶片。
海思推出的第一款片上SoC是麒麟910,作爲智慧行動端SoC,麒麟910除了CPU還包括基頻(Baseband)、圖形處理器(GPU)、數位信號處理器(DSP)、影象信號處理器(ISP)等重要模組。
2017年9月,華爲在德國柏林國際電子消費品展覽會(IFA)上正式推出其新款AI晶片「麒麟970」(Kirin 970)。麒麟970採用TSMC10nm 工藝,內部整合了55億個電晶體,功耗降低了20%,並實現了1.2Gbps 峯值下載速率。麒麟970基於寒武紀的 NPU架構打造,創新設計了 HiAI 移動計算架構,其AI效能密度大幅優於CPU和GPU。相較於四個Cortex-A73核心,處理相同AI任務,麒麟970擁有約50倍能效和 25倍效能優勢。並且,華爲海思陸續推出麒麟980/985/990等系列SoC,全部針對AI計算做了優化設計,採用華爲自研NPU架構,效能得到大幅度提升。
近日,有訊息稱華爲已經與比亞迪簽訂了合作協議,未來的比亞迪新車將用上華爲的麒麟晶片。
但是令人驚訝的是,華爲首款上車的晶片不是成熟的麒麟970,也不是最新的990,而是比較早的一款晶片麒麟710A。麒麟710晶片發佈於2018年7月,它採用8核心設計,包括四個A73大核心和四個A53小核心,大核心的頻率爲2.2GHz;定位較低、核心較老的麒麟710A在麒麟710的基礎上發展而來,架構和核心未變,但是工藝製程從12nm變爲14nm,大核心的頻率也降低到了2.0GHz。
爲何選擇麒麟710A這款工藝水平退步的過時晶片來上車?
我們知道由於美國針對華爲的種種舉措,華爲的供應商渠道受到嚴重影響,尤其是晶片代工方面,之前的臺積電已經靠不住了,華爲的晶片只能轉爲國產代工,而國內唯一可以承擔這個重任的只有中芯國際,但是中芯國際的工藝只能到14nm,對於7nm的麒麟970等晶片有心無力,選來選去,也就是麒麟710A合適了。
但是從應用需求來說,目前麒麟710A可以滿足當前智慧汽車車機系統對於功能效能方面的要求,主要是影象和影音處理,以及互動流暢性等。其競爭對手有同級別的Intel Atom A3950、高通的驍龍820A晶片等均已開始裝車量產了,比如理想ONE、領克05、小鵬P7等。但是麒麟710A在正式量產裝車之前,也需要先通過車規級認證。
地平線成立於2015年7月,由前百度研究院副院長、百度深度學習實驗室主任餘凱創辦,致力於爲B端使用者提供涉及演算法和硬體在內完整的嵌入式人工智慧解決方案(機器人大腦)。
2017年12月底,地平線發佈了中國首款全球領先的嵌入式人工智慧晶片——面向智慧駕駛的徵程(Journey)1.0處理器和麪向智慧攝像頭的旭日(Sunrise)1.0 處理器,還有針對智慧駕駛、智慧城市和智慧商業三大應用場景的人工智慧解決方案。
2019年8月,地平線宣佈量產中國首款車規級AI晶片——徵程二代。Journey 2晶片搭載地平線自主創新研發的高效能運算架構BPU2.0(Brain Processing Unit),採用臺積電 28nm 製程工藝,每TOPS算力可達同等算力GPU的10倍以上,視覺感知可以實現識別精度>99%,延遲<100 毫秒。徵程二代主要面向ADAS市場感知方案,可提供超過4 TOPS的等效算力,典型功耗僅2W。主要用於自動駕駛中對車輛、行人和道路環境等目標的感知,類似MobileyeQ系列晶片。
CES2020上地平線發佈了Matrix2平臺,基於自研Journey徵程2晶片,算力達到16Tops。同時地平線計劃2020年底推出徵程5,96Tops算力,15W功耗,支援16路攝像頭,對標特斯拉FSD。
基於自研計算平臺與產品矩陣,目前地平線已支援 L2、L3、L4 等不同級別自動駕駛的解決方案。在智慧駕駛領域,地平線同全球四大汽車市場(美國、德國、日本和中國)的業務聯繫不斷加深,目前已賦能合作夥伴包括奧迪、博世、長安、比亞迪、上汽、廣汽等國內外的頂級Tier1s,OEMs廠商。
寒武紀科技創立於2016年3月,前身是中國科學院計算技術研究所下一個課題小組,是最早進入AI計算領域的晶片公司,其主要方向是高效能伺服器晶片、高效能終端晶片和服務機器人晶片,但寒武紀的重點在人工智慧領域,早在2016年就發佈了首款商用深度學習處理器寒武紀1A。寒武紀在2018產品發佈會上發佈了多個IP產品——採用7nm工藝的終端晶片Cambricon-1M、雲端智慧晶片MLU100等。
Cambricon-1M處理器IP屬於第三代產品,主打的是智慧駕駛領域,後將應用領域拓寬到了智慧手機、智慧音箱、攝像頭、自動駕駛等方面。Cambricon-1M的int 8(8位元運算)效能比高達達5Tops/W每瓦5萬億次運算),並且提供了2Tops、4Tops、8Tops三種尺寸的處理器內核,以滿足不同需求。1M還將支援CNN、RNN、SVM、k-NN等多種深度學習模型與機器學習演算法的加速,能夠完成視覺、語音、自然語言處理等任務。通過靈活設定1M處理器,可以實現多線和複雜自動駕駛任務的資源最大化利用。它還支援終端的訓練,以此避免敏感數據的傳輸和實現更快的響應。
寒武紀首款雲端智慧晶片Cambricon MLU100採用寒武紀最新的MLU V01架構和臺積電16nm工藝,可工作在平衡模式(主頻 1Ghz)和高效能模式(主頻1.3GHz)兩種不同模式下,等效理論峯值速度則分別可以達到128萬億次定點運算和166.4萬億次定點運算,而其功耗爲80w和110w。MLU100雲端晶片同樣具備高通用性,可支援各類深度學習和常用機器學習演算法。
2018年7月4日百度在其開發者大會上發佈百度首款AI晶片——崑崙。百度介紹崑崙是中國首款雲端全功能AI晶片,基於百度CPU,GPU和FPGA加速器,採用百度自研XPU神經處理器架構,通過長達8年的研發20多次的迭代產生。設計效能在100W以上的功耗提供260Tops算力,記憶體頻寬達到了512GB/s,核心數有數萬個。。據說崑崙晶片將由三星代工,採用14nm工藝。
2019年12月18日三星官方宣佈,百度首款 AI 晶片崑崙已經完成研發,由三星代工最早將於2020年初實現量產。這款百度自主研發的面向雲、邊緣和人工智慧的SoC目前是設計效能最高的SoC。
崑崙晶片採用了I-Cube封裝方案,通過I-Cube技術將邏輯晶片和高頻寬記憶體與插入器連線,再利用三星的差異化解決方案可以實現在最小尺寸上提供更高的密度/頻寬。
在算力方面,崑崙晶片提供512 GBps的記憶體頻寬,在150W的功率下實現260Tops算力;它支援針對自然語言處理的預訓練模型 Ernie,推理速度比傳統 GPU/FPGA 加速模型快 3 倍。
藉助崑崙,百度可以支援包括大規模人工智慧計算在內的多種功能,例如搜尋排序、語音識別、影象處理、自然語言處理、自動駕駛和 PaddlePaddle 等深度學習平臺。
5月28日,南京芯馳半導體科技有限公司SemiDrive(簡稱「芯馳科技」)正式對外發布9系列X9、V9、G9三大汽車晶片產品,提供了針對汽車的協同一體化解決方案,覆蓋了智慧座艙、智慧駕駛、中央閘道器三大核心應用。
據芯馳科技介紹,X9、V9、G9均是域控級別的大型SOC晶片,單顆晶片可以替代多個傳統ECU,可以支援QNX、 Linux、Android等多種車載OS,也可支援AutoSAR,滿足客戶對產品進行靈活適配的需求,適應未來智慧汽車發展的需求。
其中,X9系列晶片用來支援未來智慧座艙:X9中採用了Imagination的PowerVR Series9XM圖形處理器(GPU),一顆X9晶片可以同時支援多塊高清螢幕,具備語音互動、手勢識別,駕駛員狀態監控等功能。
V9系列晶片定義爲自動駕駛的核心大腦,作爲域控制器核心,V9內建高效能視覺引擎,支援多達18個攝像頭輸入,不僅能滿足ADAS應用需求,還能給未來更高級別的自動駕駛和無人駕駛留有充足的擴充套件空間。
G9系列晶片是作爲未來汽車的智慧資訊樞紐;爲智慧座艙、域控制器及其他模組起到互動連線作用,同時,G9還可連線外部網路,支援OTA線上升級。
V9系列處理器是整合了最新的高效能引擎,包括64-bitArm® Cortex®-A55內核,V8.2架構CPU;高效能PowerVR GPU;CV專用視覺處理引擎等,能夠滿足新一代智慧駕駛輔助系統應用對強大的計算能力日益增長的需求。此外,V9系列處理器整合了千兆乙太網,CAN-FD, 能夠以較低的成本與車載系統進行無縫銜接。該款處理器還支援MIPI-CSI和並口CSI,能夠支援攝像頭輸入,包括360°環視影像系統、前視攝像、後視攝像和車內攝像系統。
位於英國的Imagination爲芯馳科技提供GPU支援,針對芯馳科技的自動駕駛晶片,Imagination的最新一代神經網路加速器(NNA)PowerVR Series3NX可以提供最高達160TOPS的算力;針對其高階座艙晶片,Imagination最新發布的IMG A系列(IMG A-Series)GPU可以提供更高的效能、更快的處理速度和更低的功耗。
另外,芯馳科技號稱是中國中國第一家獲得TÜV萊茵頒發的ISO 26262:2018版功能安全管理體系證書的企業。
2020年6月15日晚,黑芝麻科技發佈了自研的車規級晶片重磅產品,華山二號A1000和華山二號A1000L,這是黑芝麻繼華山一號之後的第二代產品。兩顆晶片都採用臺積電16nm工藝,支援車規級AEC-Q100標準和支援多項感測器。
華山二號A1000對標特斯拉,具有8個CPU核,單顆可提供40 TOPS的算力,功耗8-10W。據黑芝麻智慧科技訊息,A1000是全球頂尖的包含功能安全的高效能車規級SOC晶片,也是中國目前第一顆能夠量產的,滿足自動駕駛L3/L4級別要求車規級晶片。華山二號A1000在L3級別上對標Tesla,其功耗僅有Tesla FSD的四分之一,面積只有三分之一,成本也只有四分之一,是一款高性價比落地產品。到2021年底,搭載黑芝麻華山二號晶片的車型或將正式量產。
對比而言,特斯拉FSD算力144TOPS,功耗72W,能效比2TOPS/W;英偉達Xavier算力30TOPS,功耗30W,能耗比1TOPS/W。而華山二號A1000單晶片能效比超過6TOPS/W ,雙晶片疊加組成的域控制器能效比也超過5TOPS/W。
根據黑芝麻給出的計算平臺方案,單顆A1000L晶片適用於低等級級ADAS輔助駕駛;單顆A1000晶片適用於L2+自動駕駛;雙A1000晶片互聯組成的域控制器可支援L3級別自動駕駛;四顆A1000晶片疊加可用於未來L4級別自動駕駛。
西井科技創辦於2015年,它起初是一家做類腦晶片的廠商。所謂的類腦晶片簡單來說就是以人腦的工作方式設計製造出來的晶片。
類腦晶片模仿的是大腦神經元的工作形式,馮•諾依曼結構處理器晶片不同,與大腦的處理單元是神經元,記憶體就是突觸。神經元和突觸是物理相連的,所以每個神經元計算都是原生的,而從全域性來看神經元們是分佈式在工作。類腦晶片由於具有本地計算和分佈式工作的特點,所以在工作效率和能耗上相比馮•諾依曼結構處理器晶片更有優勢。
西井科技早期開發了「DeepSouth」類腦晶片,是全球首塊可商用5000萬類腦「神經元」晶片,可以模擬5000萬個神經元,而同期的IBM的「TrueNorth」只能模擬100萬個。
基於類腦晶片技術,西井科技開發出了「DeepWell」和「VestWell」兩款人工智慧晶片,DeepWell峯值算力1.8Tops,單核功耗500mW,雙核功耗1W;VestWell晶片峯值算力4Tops,功耗小於2W。
相比NVIDIA Xavier、地平線徵程2 等幾十TOPS算力的產品,西井科技的這兩款晶片確實有點寒磣。但這兩款晶片能夠實現片上學習,可以隨時新增樣本進行增量訓練來提升推理準確率。
目前的自動駕駛演算法都是通過高效能伺服器進行模型訓練,然後將訓練好的模型再部署到車載硬體之中。西井科技的晶片的優勢在於可以自行進化,具體說來,西井科技人工智慧晶片的片上學習特性實現了模型訓練過程的在地化,即機器學習在終端晶片上就能直接完成,通過晶片端的不斷學習和完善,不斷提升計算判斷準確率,可以實現自我進化。相比於其他晶片OTA升級,西井科技的晶片屬於另闢捷徑。
深鑑科技由清華團隊創辦,成立於2016年,其產品稱作「深度學習處理單元」(DeepProcessing Unit,DPU),目標是以ASIC級別的功耗,來達到優於GPU的效能,目前第一批產品基於FPGA平臺。2018年7月17日,深鑑科技被全球最大的 FPGA 廠商賽靈思宣佈收購。
深鑑科技着力於打造基於DPU的端到端的深度學習硬體解決方案,除了承載在硬體模組(定製的PCB板)上的DPU的晶片架構外,還打造了針對該架構的DPU壓縮編譯工具鏈SDK。
自 2016 年成立以來,深鑑科技一直基於賽靈思的技術平臺開發機器學習解決方案,推出的兩個用於深度學習處理器的底層架構——亞裡士多德架構和笛卡爾架構的 DPU 產品,都是基於賽靈思 FPGA 器件。
亞裡士多德架構
笛卡爾架構
基於上述兩個硬體架構,深鑑科技也發佈了數款 DPU 硬體產品產品。在人臉識別方面,深鑑科技分別推出了 DP-1200-F01 人臉檢測識別模組和DP-2100-F16人臉分析解決方案。隨後,深鑑科技又推出了視訊結構化解決方案 DP-2100-O16,它可以做到 16 路 1080p 高清視訊的實時視訊結構化,可以做到人、車、非機動車的檢測、跟蹤和屬性分析。
在硬體的基礎之上,深鑑科技又開發出面向上述 DPU 的深度神經網路開發套件 DNNDK(Deep Neural Network Development Kit),而 DNNDK 也是國內第一款專門爲深度學習而開發的 SDK。
Xilinx賽靈思是FPGA的先行者和領導者,並創造了多項行業第一,比如全球首款FPGA、首款硬體/軟體可程式化的SoC、首款多處理器SoC(MPSoC,在FPGA上整合了ARM的CPU內核,還有Mali系列的GPU等)、首款RFSoC(將通訊級RF採樣數據轉換器、SD-FEC內核、ARM處理器以及FPGA 架構整合到單晶片器件中)。
2018年7月,賽靈思收購深鑑科技被認爲是爲了進一步加強在ADAS/自動駕駛汽車市場的佈局。
在汽車 ADAS 和自動駕駛解決方案上,賽靈思有針對自動駕駛中央控制器的Zynq UltraScale+ MPSoC、針對車載前置攝像頭的Zynq-7000 /Zynq UltraScale+ MPSoC 和針對多感測器融合系統的 Zynq UltraScale+ MPSoC。
賽靈思2019年11月宣佈推出兩款16nm汽車級晶片 Zynq UltraScale+MPSoC 7EV 和 11EG。支援L2至L4級自動駕駛系統。MPSoC採用了64位元四核ARMCortex A53和雙核ARM Cortex-R5高效能處理器,並整合了賽靈思的UltraScale架構。到目前爲止,XA系列MPSoC已經被包括戴姆勒奔馳在內的29個汽車品牌以及Aptiv、Autoliv、博世和大陸集團等頂級零部件供應商廣泛使用。
特斯拉屬於汽車行業內Bug一樣的存在,汽車、火箭、晶片等等,什麼都都可以搞,而且做的還不差,特斯拉早期也是和晶片供應商合作,專心做整車,但是陸續發現晶片供應商不給力之後,便「拋棄」了Mobileye和NVIDIA,開始自研AI晶片,特斯拉在2019年4月發佈了首款自動駕駛晶片FSD(Full Self Driving全自動駕駛),並且是直接以量產的形式發佈,FSD被馬斯克稱爲「世界上最好的晶片」, 這款晶片除了常規的CPU和GPU之外,還配備了兩個神經網路處理器(NNP),算力爲144TOPS,功耗72W,能效比2TOPS/W,就目前來說,確實是量產車最好的自動駕駛晶片。
FSD 晶片採用了 14 nm FinFET CMOS 工藝製造,尺寸爲 260 mm,具有 60 億個電晶體和2.5 億個邏輯閘,FSD有兩個神經網路加速器NNP,支援 32 位和 64 位浮點運算的圖形晶片,以及時鐘頻率爲 2.2 GHz 的十幾款 Arm A72 64 位 CPU,效能是上一代的 2.5 倍。
此外,FSD 還有一個安全晶片可確保系統僅執行由 Tesla 加密的程式碼以及專用的 H.265 視訊編碼器。
與上一代硬體相比,FSD的功耗降低了約1.25 倍,整體成本降低了 80%。馬斯克表示,FSD 每英裡的功耗約爲 250 W。
FSD晶片中自研的最重要的部分是Neural Network Processor,每顆晶片有兩個NNP,每個NNP有一個96x96個MAC的矩陣,32MB SRAM,工作頻率2GHz。所以一個NNP的處理能力是96x96x2(OPs)x2(GHz)= 36.864TOPS,單晶片算力72TOPS,FSD硬體板子算力144TOPS。
NVIDIA GTC 2020因爲疫情原因在黃教主的廚房進行,此次發佈了NVIDIA第八代架構Ampere(安培)、以及基於安培架構的第一款GPU A100。A100絕對是目前全球最大的7nm晶片,540億個電晶體,3D 堆疊技術,加上高達 826 平方毫米的晶片面積,同時支援 TF32 和 BF16 格式,擁有438 個第三代 Te那個nsor Core,支援虛擬成爲 77 個 GPU 來執行不同的任務。算力達到2000TOPS,相比Volta架構提升了高達20倍的效能,可以同時滿足AI訓練和推理的需求。
2019年12月,NVIDIA推出了面向ADAS和自動駕駛領域的新一代SOC Orin,Orin SOC擁有170億個電晶體,搭載NVDIA下一代GPU(即基於Ampere架構的GPU)和Arm Hercules CPU核心,可以提供200TOPS是運算能力,是上一代Xavier SOC的7倍,功耗45W,2022年交付,面向L2+級自動駕駛場景。
NVIDIA在2018年CES上推出了Xavier平臺,號稱是是「世界上最強大的SoC(片上系統)」,目前Xavier也確實是自動駕駛AI晶片領域絕對的首選,Xavier可處理來自車輛雷達、攝像頭、鐳射雷達和超聲波系統的L5級自主駕駛數據,是目前自動駕駛領域應用最多的AI晶片,也是最早投入量產的AI晶片。
Xavier SoC基於臺積電12nm工藝,整合90億顆電晶體,晶片面積350平方毫米,CPU採用NVIDIA自研8核ARM64架構(代號Carmel),GPU採用512顆CUDA的Volta,支援FP32/FP16/INT8,20W功耗下單精度浮點效能1.3TFLOPS,Tensor核心效能20TOPs,解鎖到30W後可達30TOPs。
Xavier 內有六種不同的處理器:Valta TensorCoreGPU,八核ARM64 CPU,雙NVDLA 深度學習加速器,影象處理器,視覺處理器和影像處理器。這些處理器使其能夠同時、且實時地處理數十種演算法,以用於感測器處理、測距、定位和繪圖、視覺和感知以及路徑規劃。
TÜVSÜD已確認NVIDIA Xavier 系統晶片符合ASIL C 等級的ISO 26262隨機硬體完整性,並達到了ASIL D等級的系統處理能力要求(最嚴格的功能安全標準)。
在自動駕駛晶片領域,Mobileye的EyeQ系列則是典型ASIC晶片的代表,隨着自動駕駛晶片領域的競爭越來越激烈以及主機廠對於AI晶片的受控性要求越來越高,Mobileye 逐漸從過去的一體式視覺晶片+演算法供應商的「黑匣子」模式轉變爲開放EyeQ5晶片(即允許第三方程式碼執行)。
Mobileye是Intel在自動駕駛領域佈局的重要一環,從處理器晶片來看,Intel的佈局已經完善,包括Mobileye的ADAS視覺處理, Altera的FPGA處理,以及英特爾自身的至強Xeon等型號的處理器,可以形成自動駕駛整個硬體部分的系統性解決方案。
Mobileye自主研發設計的EyeQ系列晶片,由ST公司生產供應。量產型號有EyeQ1至EyeQ4,佔據了全球範圍內ADAS市場的60%左右份額。目前效能最高的EyeQ4的算力爲2.5 TOPS,功耗爲3W,能效0.83 TOPS/W。EyeQ5正在開發進行中,按照Mobileye的計劃在2020年面世,目的是對標NVIDIA Xavier。EyeQ5採用7nm FinFET工藝製造。設計計算效能達到了24TOPS,功耗爲10W,晶片能效是Xavier的2.4倍。EyeQ5晶片將裝備8枚多執行緒CPU內核,同時還會搭載18枚Mobileye的下一代視覺處理器。據Mobileye訊息,EyeQ5 SOC裝備有四種異構的全程式設計加速器,分別對專有的演算法進行了優化,包括有:計算機視覺、信號處理和機器學習等。Eyeq5 SOC同時實現了兩個PCI-E埠以支援多處理器間通訊。這種架構嘗試爲每一個計算任務適配最合適的計算單元,硬體資源的多樣性使應用程式能夠節省計算時間並提高計算效能。
按照Mobileye的計劃,到2020年中會向合作夥伴提供一套完整的自動駕駛汽車子系統,包括計算機視覺套件:360度/12個攝像頭/測距300碼的視覺系統和多晶片交鑰匙解決方案等。
另外提一句,英特爾計劃將EyeQ5與Atom處理器結合起來,開發用於自動駕駛的人工智慧計算平臺。兩個EyeQ5 soc和一個英特爾Atom(凌動)處理器就足以實現5級自動駕駛。
安霸是一家高清影像晶片研發商,主要提供低功耗、高清視訊壓縮與影象處理的解決方案。致力於提供超低位元速率與極小功耗下的高畫質影像技術。
Ambarella在2018年推出了名爲CV2的車規級SoC,專用於提供深度神經網路(DNN)和立體視覺處理,瞄準ADAS和自動駕駛車市場。目標是對標Mobileye。結合VisLab的經驗和技術,Ambarella在CV2晶片中整合了先進的計算機視覺、影象處理、4Kp60視訊編碼與立體視覺技術。CV2可提供較CV1更高20倍的深度神經網路效能。
Ambarella自稱擁有兩項競爭優勢,一是Ambarella於2015年收購的歐洲計算機視覺與智慧汽車控制系統開發商VisLab開發的新型計算機視覺架構。二是Ambarella自研的低功耗、高解析(HD)與超高解析(Ultra HD)視覺處理晶片。
CV2的模組示意圖
CV2設計在晶片中支援4個立體相機和4個單眼相機,將由三星(Samsung)以10nm工藝製造。而CV1採用14nmCMOS工藝製造。
安霸的晶片是基於CVflow架構的,這是一個爲像立體處理、深度神經網路這樣的計算機視覺演算法而優化的。和DSP(數位信號處理器)或GPU相比,CVflow的設計能夠讓每核,或者說每個處理單元的效能提高不止一個層次。
2019年1月,安霸推出了CVFLOW系列最新的晶片上CV25攝像系統(SoC)。
在CES 2020上,Ambarella 演示了使用 CV2、VC22 的各種解決方案,CV2FS和 CV22FS,本質上是基於 CV2 和 CV22 功能的全新設計。
CV22FS和CV2FS的CVflow架構以每秒80幀的速度,提供8兆畫素或更高解析度的計算機視覺處理功能,用於遠距離、高精度目標識別。每個系統晶片都包括一臺用於同時定位與地圖構建(SLAM)以及估計距離和深度的稠密光流法加速器。多通道高速感測器輸入與安霸的影象信號處理(ISP)通道爲攝像頭輸入提供了必要的支援。安霸計劃於2020年上半年向客戶提供CV22FS和CV2FS樣品。
英特爾2015年收購Altera。目前Altera的自動駕駛 FPGA 晶片已經量產。Altera 的 FPGA產品共有四大系列,分別是頂配的 Stratix 系列(近萬美元)、成本與效能平衡的 Arria 系列(2000~5000 美元)、廉價的 Cyclone 系列(10~20 美元)、 以及 MAX 系列CPLD。
Waymo就是採用英特爾CPU+Altera FPGA的方案來解決自動駕駛所需要的數據融合和演算法處理。奧迪全新A8車型上搭載的zFAS域控制器就使用了Altera提供的FPGA晶片-Cyclonev Soc。
TPU,Tensor Processing Unit,全名爲張量處理單元。是 Google 專爲機器學習而定製的一款ASIC晶片。專門針對加速和擴大使用 TensorFlow 程式設計的機器學習工作負載進行了優化。Google 在 2016 年 5 月的開發者 I/O 大會上正式發佈TPU1,並在2017年推出了 TPU2,又稱Cloud TPU。TPU2 既可以用於 training,又可以用於 inference。每個 Cloud TPU 由四個定製的 ASIC 構成,單個 Cloud TPU 的浮點計算能力可以達到 180 teraflops(萬億次每秒),記憶體寬頻 64GB。
2018年TPU 3.0面世,效能相比TPU 2.0有8倍提升。並且2018年7月谷歌又發佈了Edge TPU晶片搶攻邊緣計算市場。
在2019年5月的谷歌I/O開發者大會上,Google以1000個TPUv3組成的TPUv3 Pod取代了本應出現在發佈會上的第四代TPU,目前關於TPU的新的規劃尚不得而知。
TPU經過了專門深度機器學習方面的訓練,能加速其第二代人工智慧系統TensorFlow的執行,而且效率也大大超過GPU,Google的深層神經網路就是由TensorFlow引擎驅動的。TPU執行每個操作所需的電晶體數量更少,自然效率更高。
TPU與同期的CPU和GPU相比,可以提供15-30倍的效能提升,以及30-80倍的效率(效能/瓦特)提升。
恩智浦基於自研第二代視覺專用處理晶片S32V234設計開發了一款自動駕駛開發平臺BlueBox,整合了S32V234汽車視覺和感測器融合處理器、LS2084A 嵌入式計算處理器、 S32R27 雷達微控制器。
S32V234 視覺處理器, 擁有 CPU(4顆ARM CortexA53 和 1 顆M4)、3D GPU(Vivante GC3000)和視覺加速單元(2顆APEX-2vision accelerator), 支援4 路攝像頭。可用於前視攝像頭、後視攝像頭、環視系統、感測器融合系統等, 能實時 3D建模,計算能力爲 50GFLOPs。同時, S32V234 晶片預留了支援毫米波雷達、鐳射雷達、超聲波的介面,可實現多感測器數據融合,最高可支援 ISO26262 ASIL-C 標準。
LS2088A內嵌式處理器負責行高效能運算,由8個64位元ARM Cortex-A72內核組成,配合頻率2GHz的特製加速器、高效能通訊介面和DDR4記憶體控制器,延時極低。
由於NXP S32234晶片本身設計架構問題造成算力不足,以及生態工具鏈欠缺較多,目前該晶片已經被邊緣化。
最近有訊息稱,NXP開始與臺積電合作,藉助臺積電5nm技術的增強版N5P的打造新一代汽車級晶片,預計2021年推出,NXP的這一舉措使汽車處理平臺一舉跨越到5nm,對整個行業來說都是一個質的飛躍。對NXP來說,這將是一次重新站到汽車晶片行業「制高點」的絕佳機會。
TI的自動駕駛晶片方案基於DSP,主要面向ADAS市場。主要產品是TDAx 系列,包括TDA2x、TDA3x、TDA2Eco,以及今年發佈的TDA4VM等,基於異構硬體和通用軟體架構。TDA2x於2013年10月發佈,主要面向中到中高階市場,設定了2顆ARM Cortex-A15內核與4顆 Cortex-M4內核、2顆TI定浮點C66xDSP 內核、4顆EVE視覺加速器核心,以及Imagination SGX544 GPU,主要應用於前置攝像頭資訊處理,包括車道報警、防撞檢測、自適應巡航以及自動泊車系統等。
TDA3x於2014年10月發佈,主要面向中到中低階市場,其縮減了包括雙核A15及SGX544 GPU,主要應用在後置攝像頭、2D或2.5D環視等。
在CES 2020上,TI發佈了基於Jacinto™7架構的TDA4VM處理器系列,將TI行業領先的DSP和EVE內核整合到單個高效能內核中,並增加了浮點向量計算功能,該款SoC包含通用處理CPU、C7 DSP MMA深度學習加速器、VPAC DMPAC視覺加速器、ISP和乙太網交換機以及PCIe交換機等。在功耗方面,TDA4VM處理器僅用5到20W的功率和效能效率即可執行高效能ADAS計算,無需主動冷卻。
「R-Car」是瑞薩電子株式會社專爲自動駕駛汽車計算而設計的系統級晶片(SoC)系列,主要用於汽車資訊系統。Renesas瑞薩電子在2018年推出新款R-Car V3H SoC。R-Car V3H以較低的功耗爲汽車前視視覺系統提供強大的計算效能和人工智慧處理能力,適用於L3、L4級自動駕駛。R-Car V3H主要針對立體前視攝像頭應用進行了優化,其計算機視覺效能是2017年4月推出的面向NCAP前視攝像頭的R-CarV3M SoC的5倍。
R-Car V3H SoC專注於對計算機視覺處理進行架構優化,支援從有條件自動駕駛到高度自動駕駛的所有ADAS相關功能。R-Car V3H運用瑞薩基於IMP-X5+影象識別引擎和專用硬體加速器的異構計算機視覺內核概念,用包括稠密光流注3、稠密立體視差注4和物件分類注5在內的演算法實現了先進的感知功能。整合的CNN注6IP以僅0.3W的業界領先低功耗加快了深度學習,實現了2倍於R-Car V3M的深度神經網路效能。
作爲一個移動晶片基礎技術公司,本身並不製造晶片,而是通過研究微控制器晶片的核心技術,然後授權給各大晶片廠商。
自1996年,Arm生產的通用型、實時型處理器就開始被各大車輛製造商使用。現在Arm的半導體智慧財產權(IP)已廣泛應用於ADAS系統(如防撞、巡航控制等)、連線、資訊娛樂、動力總成控制和汽車其他元件。
2018年9月,Arm推出了「安全就緒」(Safety Ready)計劃,旨在爲自動駕駛汽車提供解決方案。並推出了代號爲Cortex-A76AE的產品,作爲第一款專爲自動駕駛汽車打造的處理器。
Cortex-A76AE處理器允許晶片製造商設計具有安全功能的晶片,使自動駕駛汽車能夠滿足最嚴格的安全要求,能將自動躲避等特性應用到汽車上。AE,即「Automotive Enhanced(自動駕駛增強)」。該處理器採用臺積電7nm工藝技術製造的16核Cortex-A76AE SoC具有超過250 KDMIPS的計算效能,功耗30W,足以滿足當今應用需求。如果使用者想要更高的效能,可以構建更多內核,甚至多個SoC。該內核具備Arm v8.2微體系結構的所有功能特性,包括可靠性、可用性和可維護性,並採用了分核-鎖步(Split-Lock)模式來確保可靠性。
並且,基於Cortex-A76AE的SoC可延伸至最多64核。除了含有通用計算核外,Arm的自主計算複合體還整合了Mali-G76 GPU、ARM的ML處理器和其他必要的IP。此外,所有複合體支援Arm的記憶體虛擬化和保護技術,可以完美實現ML和NN加速器的執行。
Arm 在Cortex-A76AE之後又推出新款適應自動駕駛的處理器產品Cortex-A65AE。按照Arm公司計劃,第一批使用Cortex-A76AE處理器的汽車將於2020年上路,Cortex-A65AE也將於2020年上市。
Qualcomm高通公司此前在 2017 年披露了其研發自動駕駛汽車晶片的計劃,2018 年,因爲監管原因,高通公司收購荷蘭恩智浦公司遭到失敗。2020年1月5日,在美國拉斯維加斯舉行的消費電子展(CES)上高通發佈了全新的自動駕駛平臺Snapdragon Ride,旨在處理從車道控制、自動泊車等自動駕駛所需的各項任務,高通預計其可在2023年上路。
Snapdragon Ride平臺包含多個SOC(系統級晶片)選項,包括深度學習加速器和自動駕駛軟體Stack,能夠支援高階駕駛輔助系統ADAS功能,比如車道保持以及在自動駕駛出租車(Robotaxi)上的全自動駕駛的應用等功能。
根據高通介紹,Snapdragon Ride平臺基於一系列不同的驍龍SoC和加速器建立,採用了可延伸且模組化的高效能異構多核CPU、高能效的AI與計算機視覺引擎,以及業界領先的GPU。基於不同的SoC和加速器的組合,平臺能夠根據自動駕駛的每個細分市場的需求進行匹配,並提供業界領先的散熱效率,包括從面向L1/L2級別應用的30 TOPS等級的裝置,到面向L4/L5級別駕駛、超過700 TOPS的功耗130瓦的裝置。因此該平臺可支援被動或風冷的散熱設計,從而實現成本降低、可靠性提升,省去昂貴的液冷系統,並簡化汽車設計以及延長電動汽車的行駛裡程。Snapdragon Ride的一系列SoC和加速器專爲功能安全ASIL-D級(汽車安全完整性等級D級)系統而設計。
Snapdragon Ride將於2020年上半年交付汽車製造商和一級供應商進行前期開發。Qualcomm Technologies預計搭載Snapdragon Ride的汽車將於2023年投入生產。
中國公司在AI晶片領域的探索在近幾年呈現爆發趨勢,頭部企業有華爲、地平線、寒武紀、西井科技、百度等,另有其他國產公司在人工智慧、語音識別、視覺處理方面發力,如芯馳科技、黑芝麻、中星微電子、位元大陸、杭州中天微等等。總體來看,中國公司在AI晶片領域已經佔據不少席位,中國自動駕駛晶片在效能和功耗上和外國晶片相比並不差,但是如果想要達到世界領先水平,甚至趕超NVIDIA、Tesla、TI、Xilinx等還有很長的路要走。而從研發設計到真正上車量產,更需要深度的測試驗證和積累。
首先,國產晶片企業想要有所建樹,必須要有長期研發投入的思想準備,也就是燒錢和時間,在沒有積累的基礎上做AI晶片研發,所要攻克的難關數不勝數。這種長期投入一方面是大筆資金投入和高產出的正向回圈;另一方面則體現在晶片架構設計、底層軟體和操作系統的設計能力上,需要不斷的積累和高忍耐度。
其次,中國有句老說貪多嚼不爛,國內晶片企業如果想在AI晶片領域分食蛋糕甚至趕超國際對手,必須在一個垂直領域做精做深,真正的深耕進去,並且要真正做到全棧的方案和產品給到使用者,提供的是一個可供量產化的產品而不是一個DEMO,必須要讓它能真正應用。
第三,生態的建立,國外晶片企業基本上都有自己的一套體系和生態系統,華爲基於自身多年ICT的積累可以快速推出麒麟、昇騰、鯤鵬等系列晶片,但是在生態方面依然欠缺,體現在軟體、操作系統、體系架構、輔助件、工具鏈等等。因此國內晶片廠商必須進行AI晶片相關軟硬體生態的建立,以及使用者體系的培養。比如NXP、Intel在國內高校多年發展課程體系、認證體系等,華爲在近幾年也有意識的開展和高校和科研院所的戰略性合作,這一舉措絕對是影響深遠的。
第四,製程工藝,我們已知去年發生的中興遭遇晶片斷供,華爲在美國的黑手下也面臨晶片供應商不能供貨問題,這裏主要涉及到晶片的製程工藝,目前晶片製造工藝主流水平是7-14m,而大名鼎鼎的臺積電早就量產7nm晶片,5nm工藝也進入了量產階段,目前正在研究2nm工藝。中國晶片企業只能做到14nm,也只有中芯國際能做,因此中國缺乏生產最先進的7納米和更小晶片的能力。就目前來看華爲面臨的問題也是整個中國晶片行業面臨的問題,雖然目前華爲繞開美國製裁禁令的可能性不大,但是這裏面的關鍵問題是中國晶片企業能以多快的速度建立國內晶片世界一流工藝製造能力。
雖然我們很樂觀的對中國晶片行業的發展非常看好,但是,中國AI晶片想要達到世界一流水平甚至實現趕超,還有很長的路要走。人工智慧行業催生了這個過程,但是天賦不能與經驗,積累同樣重要,更何況國內企業一直缺課,能不能儘快補上來並且追過去,就看國內企業如何發力了。