亚洲视频欧洲视频,亚洲国产精品综合久久2007,www.性视频

如何在保證帶寬的前提下從統(tǒng)計收集中解放NPU

發(fā)布日期：2022-07-15 點擊率：33

ay: block;">作者:Jeremy Bicknell

產(chǎn)品經(jīng)理

流量控制管理部門

IDT公司

How to free up NPU for statistics gathering in the era of guaranteed bandwidth

Content: With the explosive increase of the workload for statistics and calculation, the designers of network equipments will face the crisis for the capability of the calculation. The performance bottleneck will arise if use traditional structure based on outside memory to address the issue. In the network environment with high performance, the designers find that dedicate coprocessor optimized for statistics function will be a simple and convenient choice to meet the whole performance of the network.

在不遠(yuǎn)的將來,隨著統(tǒng)計運算處理和存儲需求的爆炸性增長,網(wǎng)絡(luò)設(shè)備設(shè)計師將面臨計算危機。用依賴于外部存儲緩沖器的傳統(tǒng)架構(gòu)來解決這個問題將最終導(dǎo)致性能瓶頸。在高性能的網(wǎng)絡(luò)環(huán)境里,許多設(shè)計師將發(fā)現(xiàn)使用專用的、為統(tǒng)計功能而優(yōu)化的現(xiàn)成的協(xié)處理器將為滿足整體性能的需求提供一個簡單而方便的設(shè)計選擇。

隨著統(tǒng)計運算處理和存儲需求的爆炸性增長,網(wǎng)絡(luò)設(shè)備設(shè)計師將面臨計算危機。用依賴于外部存儲緩沖器的傳統(tǒng)架構(gòu)來解決這個問題將最終導(dǎo)致性能瓶頸。在高性能的網(wǎng)絡(luò)環(huán)境里,許多設(shè)計師將發(fā)現(xiàn)使用專用的、為統(tǒng)計功能而優(yōu)化的現(xiàn)成的協(xié)處理器將為滿足整體性能的需求提供一個簡單而方便的設(shè)計選擇。

過去幾年里,業(yè)務(wù)提供商推出了廣泛的差異化業(yè)務(wù)來創(chuàng)造新的收入來源,并滿足網(wǎng)絡(luò)應(yīng)用日益增長的業(yè)務(wù)和用戶需求。這些業(yè)務(wù)的級別從VoIP到VPN,常常需要業(yè)務(wù)提供商能滿足比過去更為苛刻的性能要求。為了支持這些新的應(yīng)用,業(yè)務(wù)提供商已經(jīng)快速轉(zhuǎn)變到使用服務(wù)水平協(xié)議(SLA)來定義各方之間的合同關(guān)系,規(guī)定提供的流量類別和發(fā)送給每個流量類別的數(shù)據(jù)總數(shù),并保證網(wǎng)絡(luò)的性能水平。

圖1:IDT統(tǒng)計引擎

這種趨勢對網(wǎng)絡(luò)設(shè)備設(shè)計有相當(dāng)大的影響。為了支持越來越多的業(yè)務(wù)分類和驗證協(xié)議,業(yè)務(wù)提供商現(xiàn)在必須計算數(shù)據(jù)包,并擴展有關(guān)網(wǎng)絡(luò)性能和使用方面不斷增加的統(tǒng)計量。在IP網(wǎng)絡(luò)中,通常是對TCP、UDP、ICMP、IPSec、IPv4、IPv6及所有聯(lián)網(wǎng)電腦或蘋果計算機的以太網(wǎng)接口的跟蹤統(tǒng)計,只要在命令提示符中鍵入“netstat-s”就很容易顯示出來。盡管用來執(zhí)行該類統(tǒng)計收集的電腦系統(tǒng)資源可以被忽略,但是匯聚了大量用戶的網(wǎng)絡(luò)設(shè)備的開銷就非常不同了(見表1)。

表1:簡化的統(tǒng)計收集情況

隨著線速率從OC-48()增加到10Gbps的匯聚速率和OC-192,超量開通(oversubscription)技術(shù)和網(wǎng)絡(luò)的使用在快速增加,而且任務(wù)的大小已經(jīng)開始超出核心數(shù)據(jù)包處理器的能力范圍。

除了滿足流量和流量參數(shù)計算方面計數(shù)器數(shù)量的要求,還要考慮對總數(shù)據(jù)率和計數(shù)器更新率的流量類型的影響。使用相同的設(shè)定,計數(shù)器更新率可以計算(見表1)。

假設(shè)快速過渡到10Gbps數(shù)據(jù)率,伴隨著從簡單文件下載過渡到基于會話層的數(shù)據(jù)流,網(wǎng)絡(luò)設(shè)備開發(fā)商就需要一種新的方法來執(zhí)行統(tǒng)計運算。長期以來,統(tǒng)計功能的大小和范圍限制了線卡核心數(shù)據(jù)包處理器處理數(shù)據(jù)包和維持網(wǎng)絡(luò)傳輸率的能力。

網(wǎng)絡(luò)設(shè)備設(shè)計師的挑戰(zhàn)就是找到一種新的、更為有效的方法,來跟蹤增量的數(shù)據(jù),而不影響數(shù)據(jù)包驅(qū)動操作。通過從主要數(shù)據(jù)包處理器卸載這項主要任務(wù),網(wǎng)絡(luò)設(shè)備設(shè)計師可釋放用來執(zhí)行深層數(shù)據(jù)包分類的這些處理器周期,以支持更高級別的封包和更長關(guān)鍵字檢索的下一代網(wǎng)絡(luò)應(yīng)用需求。

設(shè)計選擇

傳統(tǒng)來說,網(wǎng)絡(luò)設(shè)備設(shè)計師都是選擇用軟件來完成統(tǒng)計運算。這個任務(wù)常常由通用CPU或NPU核心數(shù)據(jù)包處理器來管理,并由外部SRAM支持。

只要數(shù)據(jù)率保持相對慢一些,該方法就可很好地執(zhí)行。但是,隨著網(wǎng)絡(luò)線速率的提高,傳統(tǒng)的加載/儲存架構(gòu)的局限性也顯著增加了。在這個拓?fù)浣Y(jié)構(gòu)中,核心數(shù)據(jù)包處理器必須從片外存儲器找取數(shù)據(jù),執(zhí)行包括增量、減量或添加一個計數(shù)器等適當(dāng)?shù)乃阈g(shù)運算,然后將數(shù)據(jù)回寫到外部存儲器。這個復(fù)雜的過程占用了數(shù)據(jù)包處理器周期,并使CPU和外部存儲器之間的整個存儲器總線帶寬緊張。隨著線速率的增加,統(tǒng)計運算的數(shù)量和存儲器總線的使用可能超過上下文或數(shù)據(jù)處理器核心的負(fù)荷,導(dǎo)致處理器停止運行并降低線卡性能。

網(wǎng)絡(luò)設(shè)備設(shè)計師試圖通過從核心數(shù)據(jù)包處理器卸載所有或部分統(tǒng)計任務(wù)來解決這個問題。例如,一些設(shè)計師把統(tǒng)計功能轉(zhuǎn)移到FPGA的專用邏輯中,或?qū)⒃摴δ芗傻紸SIC中。但是,這兩種解決方案都帶來了許多不利影響。FPGA不能滿足當(dāng)今的線速率下高速統(tǒng)計運算所需的片上存儲密度。而且,設(shè)計師還必須用一個外部SRAM支持FPGA,同時也面臨與傳統(tǒng)尋址和SRAM配置相關(guān)的讀/改/寫延遲的問題。專用ASIC雖然可以提供高性能,并增加大量片上存儲能力,但是,由于ASIC平均NRE費用超過百萬美元,對專門完成統(tǒng)計計算的ASIC進(jìn)行設(shè)計、驗證和確認(rèn)的任務(wù)昂貴得令人難以接受。

網(wǎng)絡(luò)設(shè)備設(shè)計師所面臨的問題已經(jīng)成為:如何以一種具有成本效益的方式解決這個問題？如何“解放”核心數(shù)據(jù)包處理器,不論是NPU、ASIC還是FPGA,使其專注于解決最初設(shè)計時打算解決的數(shù)據(jù)包分類功能的問題？

理想的情況是,該解決方案由現(xiàn)成的低成本協(xié)處理器組成,這種協(xié)處理器是特別為此功能而優(yōu)化的,可消除上面提到的阻塞問題。作為一個解決方案,還要求具有高性能和行業(yè)標(biāo)準(zhǔn)的接口,以簡化線卡的設(shè)計和支持不斷增加的NPU陣列以及目前流行的專用數(shù)據(jù)包處理器。最后,任何解決方案都應(yīng)具有高度的軟件可配置性,以滿足各種不同的應(yīng)用需求。

會話邊界控制器(SBC)

一種可說明統(tǒng)計引擎是如何幫助解決統(tǒng)計運算卸載的方法就是觀察它在一個SBC里的實現(xiàn)方法。隨著VoIP部署的不斷增加,當(dāng)數(shù)據(jù)穿過網(wǎng)絡(luò)和網(wǎng)絡(luò)段之間的邊界時,通過信令層、呼叫控制層和數(shù)據(jù)包層里的實時會話,SBC在這些網(wǎng)絡(luò)中扮演非常重要的角色。這些設(shè)備通常設(shè)置在可信任私有網(wǎng)絡(luò)(像私營公司LAN)與非信任公共網(wǎng)絡(luò)(像互聯(lián)網(wǎng))之間,或者兩個業(yè)務(wù)提供商網(wǎng)絡(luò)之間。這些設(shè)備可提供對發(fā)送到網(wǎng)絡(luò)核心的VoIP信令信息的訪問,并通過控制到網(wǎng)絡(luò)的媒體數(shù)據(jù)包的存取,支持不同媒體流的差異化業(yè)務(wù),例如計費和服務(wù)質(zhì)量。用來保護(hù)網(wǎng)絡(luò)邊界的SBC在穿越網(wǎng)絡(luò)之間的防火墻方面扮演了至關(guān)重要的角色,而且有助于實施對數(shù)據(jù)包化語音進(jìn)行合法偵聽這類的常規(guī)命令。

SBC開發(fā)者面對的主要挑戰(zhàn)之一就是簡單且有效地升級網(wǎng)絡(luò)來緩解快速攀升的運營商之間VoIP流量的巨大壓力。目前大部分的設(shè)備都設(shè)計支持1Gbps的線速率,但許多網(wǎng)絡(luò)都在升級,以支持10Gbps的以太網(wǎng)線速率。隨著線速率的提高,與計費、負(fù)載平衡、防火墻保護(hù)和其它業(yè)務(wù)需要的統(tǒng)計運算相關(guān)的處理開銷將呈指數(shù)增長。

一個SBC設(shè)計以高達(dá)5Gbps的速率、3微秒的延遲來過濾數(shù)據(jù)包,可支持多達(dá)32,000個同時會話。安裝在一個緊湊的1U板上的控制器可支持多種安全和地址保存特性,包括具有只為授權(quán)的媒體流而創(chuàng)建的防火墻針孔,以及經(jīng)過雙重網(wǎng)絡(luò)地址和端口轉(zhuǎn)換而隱藏在3層和5層下的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的網(wǎng)絡(luò)存取控制。

在SLA性能方面,控制器可支持建立在存取或轉(zhuǎn)接鏈路上可用的實時帶寬上的會話許可控制。信號媒體的2層和3層服務(wù)質(zhì)量數(shù)據(jù)包標(biāo)記可優(yōu)化網(wǎng)絡(luò)內(nèi)的流量段和優(yōu)先權(quán),并可防止服務(wù)質(zhì)量的盜取。SBC也為SLA報告、問題警告、隔離及會話許可控制提供每個會話的服務(wù)質(zhì)量統(tǒng)計。

隨著線速率的增加,統(tǒng)計運算將從核心SBC數(shù)據(jù)包處理器中“竊取”更多的處理周期百分比。設(shè)計師可以解決這個問題,并通過把統(tǒng)計運算卸載到一個統(tǒng)計引擎協(xié)處理器的方式來延長目前設(shè)計的生命周期。

統(tǒng)計引擎接口是經(jīng)過一個行業(yè)標(biāo)準(zhǔn)網(wǎng)絡(luò)處理器論壇(NPF)LA-1接口(兼容QDR-II)接入到核心數(shù)據(jù)包處理器的。這個基于標(biāo)準(zhǔn)的總線縮短了開發(fā)時間,并通過與各種NPU、FPGA和ASIC的無縫連接簡化了線卡設(shè)計。目前LA-1標(biāo)準(zhǔn)的規(guī)定速率為167MHz,但是接口統(tǒng)計引擎可支持超過200MHz的時鐘速率。

與支持標(biāo)準(zhǔn)QDR-II接口的其它芯片一樣,統(tǒng)計引擎也使用獨立的端口進(jìn)行讀寫數(shù)據(jù)存取。總線是單向的,而且是以高總線速度為信號完整性而優(yōu)化的,并可利用具有多讀寫地址的單DDR地址總線。讀取地址可在時鐘周期的前半期接收,寫入地址則在時鐘周期的后半期接收。當(dāng)字節(jié)寫入信號與其在數(shù)據(jù)輸入總線上所控制的數(shù)據(jù)在時鐘周期的兩個半期同時接收時,讀寫使能在時鐘周期的前半期進(jìn)行接收。

回聲時鐘輸出可作為數(shù)據(jù)的下行時鐘輸出。HSTL外部接口可支持高于SRAM使用的傳統(tǒng)TTL接口的速度。統(tǒng)計處理器可同時保持輸入和輸出端口的全帶寬。所有的數(shù)據(jù)都是具有突發(fā)級尋址能力的兩字脈沖格式。

不同的是,地址線不是用來支持平面地址映射的,而是用作統(tǒng)計引擎的控制輸入,把算術(shù)運算代碼(OPCODES)和指針轉(zhuǎn)移到位于統(tǒng)計引擎的計數(shù)器中。

作為從頭設(shè)計電路板的一種替代方法,線卡使用的硬件可以是現(xiàn)有的設(shè)計或基于模塊的、現(xiàn)成的板卡,如ATCA板卡(見圖2)。

圖2:線卡的硬件可以是現(xiàn)有設(shè)計或包括ATCA載波卡的基于模塊的現(xiàn)成板卡

統(tǒng)計引擎快速執(zhí)行統(tǒng)計運算的大部分能力可歸因于其“即發(fā)即棄”(Fire and Forget)模式。該功能允許設(shè)備以一個命令在多達(dá)4個計數(shù)器上執(zhí)行自動的讀-改-寫操作,并以QDR-II速度維持更新。該性能增強的關(guān)鍵在于它能同時傳輸32位的數(shù)據(jù)和地址,以及在ALU的36位總線上傳輸4行操作代碼的能力。

操作代碼可以包括一個增量、添加一個補償或指令集中的任何一個指令。例如,對典型的計費應(yīng)用來說,一組4位OPCODES可能包括:

1. Set Register(設(shè)置寄存器)；

2. INC/SUM(操作數(shù):+1/32位輸入)；

3. SUM/SUM(操作數(shù):16位輸入/16位輸入)；

4. SUM/SUM缺省(操作數(shù):32位輸入/32位缺省)；

5. DEC/SUB(操作數(shù):-1/32位輸入)；

6. SUB/SUB缺省(操作數(shù):32位輸入/32位缺省)；

7. NOP/SUB(操作數(shù):0/32位輸入)；

8. SUB/NOP(操作數(shù):32位輸入/0)。

當(dāng)設(shè)備接收一個伴隨有統(tǒng)計使能(STEN)位啟動和適當(dāng)?shù)慕y(tǒng)計OPCODE以及數(shù)據(jù)的寫入命令時,統(tǒng)計運算開始執(zhí)行。對于一個通用數(shù)據(jù)包處理器/SRAM配置,必須先從SRAM讀取數(shù)據(jù),完成一次運算后,再用一個傳統(tǒng)的讀-改-寫周期將數(shù)據(jù)回寫到SRAM中,這就需要4次QDR-II操作。而“即發(fā)即棄”功能則允許處理器向統(tǒng)計引擎發(fā)送一個命令,僅在一個周期里就能對全部4個計數(shù)器完成更新。

通過把這些所有的操作壓縮為一個命令,“即發(fā)即棄”模式可釋放QDR-II帶寬并顯著改善SBC的性能。圖3顯示了前面所討論的計數(shù)器更新例子在經(jīng)過統(tǒng)計引擎卸載后所用的處理器周期(表示為線速率的函數(shù))。

圖3:在接收50%的最小長度數(shù)據(jù)包及每個數(shù)據(jù)流有4個計數(shù)器的情況下,用于計數(shù)器更新的NPU利用百分比

在這個簡單的例子中,接收到的50%的數(shù)據(jù)包是64字節(jié)長度的最小以太網(wǎng)數(shù)據(jù)包,50%的數(shù)據(jù)包長度為1,518字節(jié)。NPU使用的計數(shù)器可同時跟蹤所有接收到的數(shù)據(jù)包和字節(jié)。在這個例子中,接收到的字節(jié)最初由NPU分成256字節(jié)一組,并由計數(shù)器更新運算SUM把這個值加到一個字節(jié)計數(shù)器的當(dāng)前存儲值上。當(dāng)NPU接收到一個完整的數(shù)據(jù)包時,就可以遞增相關(guān)數(shù)據(jù)包計數(shù)器的數(shù)值。

這種用于統(tǒng)計引擎中的技術(shù)可使QDR-II帶寬提高87%,使線卡數(shù)據(jù)包處理器周期縮短90%。在SBC應(yīng)用中,專用統(tǒng)計引擎的增加可使數(shù)據(jù)通道處理器比其它架構(gòu)的統(tǒng)計收集更為有效。效率的提高使得可用處理能力可被重新配置,從而提供額外的網(wǎng)絡(luò)特性(如更高的總吞吐量或更多的會話)。這些額外的收益,可有效地為更多用戶提供更豐富的業(yè)務(wù),從而增加業(yè)務(wù)提供商的收入。

下一篇：包轉(zhuǎn)發(fā)引擎面向3G無線

上一篇：網(wǎng)絡(luò)設(shè)備業(yè)流行“抱團

工業(yè)電氣產(chǎn)品

工業(yè)控制產(chǎn)品

傳感測量產(chǎn)品

儀表工具產(chǎn)品

工業(yè)電子產(chǎn)品

機械設(shè)備產(chǎn)品

如何在保證帶寬的前提下從統(tǒng)計收集中解放NPU

按分類瀏覽

推薦資訊

點擊排行

新手指南

業(yè)務(wù)合作

物流配送

支付方式

售后服務(wù)

關(guān)于我們