NVIDIA 發布 CUDA 5 平行運算平台

分類: PC零組件 新品報導   10/17/2012   NVIDIA


NVIDIA(輝達)今日正式發布最新NVIDIA CUDA 5平行運算平台。這個全球最普及的平行運算平台,以及專為運用繪圖處理器運算加速科學和研發應用程式編程模式帶來強勁效能的最新版本現已在NVIDIA開發者專區網站供免費下載。CUDA 已有越過150萬下載次數,並可支援180種以上先進的研發、科學和商業應用軟體,為開發人員提供了一個最容易運用GPU加速運算優點的方法。

CUDA已成功獲得廣泛的用戶和應用基礎,而CUDA 5全新的編程功能可讓眾多運用GPU加速應用之開發比從前更快、更容易,其中有支持動態平行運算(dynamic parallelism)、GPU指令(GPU-callable)函式庫、DRMA(遠端直接記憶體存取)的GPUDirect支援,以及NVIDIA Nsight Eclipse Edition的整合式開發環境。

CUDA 5大受開發者青睞
已對CUDA 5預覽版作評估的軟體開發商都指出,CUDA 5可大幅加速應用程式的運算效能,並提供更好的可編程能力。

國防與航太產業深深了解CUDA GPU加速帶給影像、影音和雷達等感測器資料處理作業的好處。來自美國夏洛茨維爾的GE Intelligent Platforms的GPGPU應用工程師Dustin Franklin表示:「CUDA 5 對我們來說是一項非常重大的技術。許多我們正在使用的應用程式都需要直接用GPU運算串流式的感測器資料,而且延遲率要低;因此,新的Kepler GPU 針對RDMA提供GPUDirect支援,這對我們的客戶而言十分重要。我們已針對我們客製化的感測器整合了許多支援功能,而且也對成果感到非常滿意。」

法國里昂大學醫院一位生物化學研究員Guillaume Belz已在複雜的訊號分析和資料開採方面運用動態平行運算和GPU指令函式庫。Belz指出:「以往我們的系統只用CPU,所以資料分析工作都要花上數週,甚至是幾個月的時間。現在藉由GPU加速功能,我們可以在幾小時內就可以得出分析結果。如果沒有GPU加速功能,資料分析不可能像現在那麼快。」

在紐約羅徹斯特理工學院攻讀成影科學學位的Weihua (Wayne) Sun博士對NVIDIA Nsight Eclipse Edition所作的分析結果極為讚賞。Weihua Sun博士表示:「當我知道CUDA 5會包括全新的Nsight Eclipse Edition整合式開發環境時,我就知道我馬上需要一套。一個單一的整合式開發環境具備了所有我需要的編程、除錯和最佳化開發工具,必可協助我大幅提升研究工作的生產力。」

CUDA 5的全新功能

CUDA 5可讓開發人員盡情運用NVIDIA GPU的效能優勢,其中包括以NVIDIA Kepler運算架構打造的GPU加速器。Kepler架構是有史以來最快、最有效率,以及可提供最高效能的運算架構。CUDA 5主要功能包括:

•動態平行運算-為GPU加速功能注入全新的演算法

GPU執行緒可以靈活地大量產生全新的執行緒,讓該GPU可針對資料進行運算。 動態平行運算可將與CPU之間資料傳輸次數降到最少,因而可大幅簡化平行運算 的編程作業。同時,這項功能可讓GPU加速功能適用於更多的熱門演算法,例如 那些適用於自動適應網格精緻化(adaptive mesh refinement)和運算型液態動力學 (computational fluid dynamics)等應用軟體。

•GPU指令函式庫-促成第三方廠商之供應體系

一個全新的CUDA BLAS函式庫可讓開發人員為他們自己的GPU指令函式庫進行 動態平行運算。他們可以設計外掛的API,這可讓其他開發人員延伸其軟體核心 (kernel)的功能,並可讓其他開發人員在GPU上建置回傳函數指標,以便將第三方 提供的GPU指令函式庫功能進行客製化。而「物件連結」(object linking)功能則可 讓開發人員將多個CUDA原始檔編譯到單獨的物件檔案中,並將它們連結至更大 型的應用或函式庫,為開發大型GPU應用提供一個有效且熟悉的程序,

•RDMA的GPUDirect支援-將系統的記憶體瓶頸降到最低

GPUDirect可促進GPU與其他PCI-E元件進行直接溝通,同時可支援網路介面卡和 GPU之間的直接記憶體存取。這項功能更可在一個叢集中大幅減少GPU節點之間 的MPISendRecv延遲問題,而且可提升應用程式的整體效能。

•NVIDIA Nsight Eclipse Edition-可快速、簡易地產出CUDA原始碼

這項功能可讓程式設計人員在Linux和Mac OSX平台上,用熟悉的Eclipse整合式 開發環境進行開發、除錯,以及為GPU應用程式建立設定檔。一個整合式的CUDA 編輯器和各種CUDA範例有助加速CUDA原始碼之產生,而自動程式碼重構(code refactoring)可讓CPU loop匯入CUDA核心的過程變得容易。一個整合式的專家分 析系統提供自動化的效能分析,並有修正各種原始碼效能瓶頸的按步就班式指引, 而且語法高亮度顯示(syntax highlighting)功能可輕易區分GPU原始碼和CPU原始 碼。