亚洲手机中文字幕_少妇久久久久久久久人妻无码_国产成 人 综合 亚洲专区_国产欧美日产高清欧美一区二区_综合中文字幕无码亚洲

您的位置:首頁 > 國(guó)內(nèi) >

全球熱頭條丨NVIDIA RTX 40系列顯卡Ai測(cè)評(píng)

2023-07-04 12:21:27 來源:PConline太平洋科技

在Ai繪畫領(lǐng)域火熱的前夕,我們針對(duì)15款NVIDIA顯卡進(jìn)行了一次針對(duì)StableDiffusion模型的生成時(shí)間測(cè)試


(資料圖片)

Ai生成

通過使用多模態(tài)的StableDiffusion測(cè)試,我們將充分挖掘這些顯卡的算力性能。并且,從個(gè)人玩家的角度出發(fā),我們將為你揭示哪款顯卡是你在Ai領(lǐng)域的最優(yōu)選擇。在接下來的評(píng)測(cè)中,我們將對(duì)40系顯卡家族的各成員進(jìn)行詳細(xì)介紹和性能測(cè)試,包括RTX4090、RTX4080、RTX4070、RTX4070Ti、RTX4060Ti和RTX4060,以及RTX3060。通過對(duì)比他們?cè)赟tableDiffusion模型上的表現(xiàn),將為你提供關(guān)于顯卡性能和價(jià)格的綜合考量。

首先介紹一下測(cè)試背景與條件:隨著StableDiffusion上的模型與圖片生成算法的不斷豐富,我們采用了4個(gè)測(cè)試環(huán)節(jié)來進(jìn)行全面且多角度的顯卡Ai算力測(cè)試:

1.利用NVIDIA官方提供的“Ai房屋”測(cè)試,來生成符合官方數(shù)據(jù)的測(cè)試結(jié)果。

2.利用civitAi(一個(gè)Ai模型聚合網(wǎng)站)上火熱的Ai人像模型與圖片生成算法進(jìn)行一組模擬真實(shí)小姐姐的測(cè)試。

3.利用civitAi(一個(gè)Ai模型聚合網(wǎng)站)上火熱的Ai人像模型與圖片生成算法進(jìn)行一組模擬魔幻怪物小姐姐的測(cè)試。

4.針對(duì)第2個(gè)測(cè)試環(huán)節(jié)增加生成圖像的分辨率,盡量占用每一張顯卡的顯存,來觀察在極限顯存占用的情況下,各顯卡之間的表現(xiàn)。

首先還是先來看一下參賽選手們的“個(gè)人信息”匯總:

其中與Ai繪圖會(huì)高度相關(guān)的參數(shù),我們總結(jié)出了這幾點(diǎn),Ai生成圖像主要依賴于顯卡的并行計(jì)算能力。以下是幾個(gè)顯卡核心參數(shù)及其與Ai生成圖像之間的關(guān)系:

1. 顯卡流處理器數(shù)量(SM): 流處理器數(shù)量是顯卡內(nèi)部處理單元的數(shù)量。每個(gè)流處理器包含一定數(shù)量的CUDA核心、Tensor核心和其他處理資源。流處理器數(shù)量越多,顯卡并行處理任務(wù)的能力越強(qiáng),對(duì)Ai生成圖像的性能提高更明顯。

2. 顯卡CUDA內(nèi)核數(shù)量(CUDACores): CUDA核心是NVIDIA顯卡的基本處理單元,用于執(zhí)行并行計(jì)算任務(wù)。CUDA核心數(shù)量越多,顯卡的并行計(jì)算能力越強(qiáng),Ai生成圖像的速度也會(huì)相應(yīng)提高。

3. 顯卡Tensor內(nèi)核(TensorCores): Tensor核心是NVIDIA顯卡特有的處理單元,專為深度學(xué)習(xí)和Ai任務(wù)設(shè)計(jì)。它們可以高效地執(zhí)行矩陣乘法和累加運(yùn)算,這是深度學(xué)習(xí)中的核心計(jì)算操作。Tensor核心數(shù)量越多,顯卡在Ai生成圖像任務(wù)中的性能越優(yōu)秀。

*3060的Tensor核心為第三代,40系顯卡為第四代

4. 顯卡顯存容量、顯存位寬、顯存帶寬: 顯存容量對(duì)Ai生成圖像的影響取決于模型的大小和復(fù)雜度。顯存容量越大,可以處理的模型和數(shù)據(jù)越多。顯存位寬和顯存帶寬影響數(shù)據(jù)在顯卡內(nèi)部的傳輸速度。顯存位寬越寬、顯存帶寬越高,顯卡處理大型Ai任務(wù)的能力越強(qiáng)。

顯存容量

顯存位寬

5. L1緩存(MB): L1緩存位于每個(gè)流處理器(SM)內(nèi)部,離CUDA核心和Tensor核心非常近。它的訪問速度非??欤萘肯鄬?duì)較小。L1緩存主要用于存儲(chǔ)局部變量和線程間共享的數(shù)據(jù)。在Ai生成圖像任務(wù)中,高效的L1緩存可以提高處理速度,降低內(nèi)部數(shù)據(jù)傳輸延遲。

6. L2緩存(MB): L2緩存位于顯卡的全局內(nèi)部,所有SM共享。它的容量比L1緩存更大,但訪問速度相對(duì)較慢。L2緩存主要用于緩存全局內(nèi)存中的數(shù)據(jù),以減少顯存訪問延遲。對(duì)Ai生成圖像任務(wù)來說,高效的L2緩存可以提高數(shù)據(jù)處理速度,特別是在處理大型模型和數(shù)據(jù)集時(shí)。

L2緩存(MB)

不多說,我們進(jìn)入測(cè)試環(huán)節(jié),首先來個(gè)官方的開胃菜,畫圖的參數(shù)是:使用v2-1768-emapruned模型;768*768的尺寸;Steps:50;CFGscale:7.5,一組10張圖,每次繪畫3組,該測(cè)試能夠反應(yīng)絕大多數(shù)Ai繪圖的生成效果成績(jī),尤其是在做一些工業(yè)Ai、實(shí)物生成的用途時(shí)。

第二組就是我們可愛的Ai小姐姐,我們使用了majicmixRealistic_v6模型,搭配FilmVelvia2Lora與修復(fù)眼睛、姿態(tài)的插件進(jìn)行了生成式繪圖。Steps:50,采集器:Euler,CFG:7.5,Seed:172450070,Size:1024x768,共生成1組,6張圖片,代表了絕大場(chǎng)景下的Ai模特(女友(誤))的生成場(chǎng)景。

第三組是體現(xiàn)Ai創(chuàng)意與耦合生成能力的魔女小姐姐,在關(guān)鍵詞中,我們使用了“龍角、血跡、邪惡、猙獰”等,生成效果非常令人滿意。使用了majicmixRealistic_v6模型,搭配FilmVelvia2Lora與修復(fù)眼睛、姿態(tài)的插件進(jìn)行了生成式繪圖。Steps:32,采樣器:DPM++2MKarras,CFG:7.5,Seed:2316746276,Size:1200x675,測(cè)試意義為更加普遍的DPM++2M采樣器(常用于復(fù)雜的人物模型生成)時(shí)的成績(jī),共生成1組,6張圖片,與第二組相互對(duì)照。

第四組測(cè)試便是針對(duì)第2個(gè)測(cè)試環(huán)節(jié)增加生成圖像的分辨率,盡量占用每一張顯卡的顯存,來觀察在極限顯存占用的情況下,各顯卡之間的表現(xiàn)。同樣使用了majicmixRealistic_v6模型,搭配FilmVelvia2Lora與修復(fù)眼睛、姿態(tài)的插件進(jìn)行了生成式繪圖。Steps:50,采集器:Euler,CFG:7.5,Seed:172450070,Size:1800x1800,共生成1組,6張圖片。此測(cè)試主要驗(yàn)證顯存與Ai生成圖像效率之間的關(guān)系,是否顯存越大必然越快。

由于大多數(shù)Ai模型訓(xùn)練使用512x512圖像,生成超高分辨率圖像時(shí),Ai模型對(duì)資源的需求會(huì)呈指數(shù)級(jí)增長(zhǎng),需要消耗大量顯卡資源,特別是顯存資源。同時(shí),圖像會(huì)大量失真,產(chǎn)生怪異效果,因此不建議生成超高分辨率Ai圖像。

在占滿了每一張顯卡的顯存情況下(包括擁有24GB顯存的RTX4090),這6張圖片的生成時(shí)間如下:

從測(cè)試結(jié)果可以解答許多網(wǎng)友的誤解,即Ai生成僅與顯存相關(guān)(挖礦的想法)。測(cè)試結(jié)果顯示,盡管RTX3060的顯存(12GB/192位)明顯高于RTX4060(8GB/128位),但在顯存飽和后的生成時(shí)間上,兩者之間仍有約35%的差距??梢姡?jí)Tensor核心的RTX40系列顯卡,盡管顯存上處于劣勢(shì),性能表現(xiàn)仍遠(yuǎn)超前代。

測(cè)試結(jié)果顯示,在真實(shí)場(chǎng)景下的Ai生成圖像任務(wù)中,40系顯卡表現(xiàn)出明顯的階梯式成績(jī)分布,與各卡的CUDA內(nèi)核數(shù)及Tensor內(nèi)核數(shù)密切相關(guān)。尤其是高端且價(jià)格相對(duì)友好的RTX4070及RTX4070Ti,其性能表現(xiàn)令人印象深刻。

看到此處,相信大家已對(duì)40系顯卡在Ai繪圖算力方面有初步判斷。那么,作為普通用戶,我們會(huì)推薦哪款卡?哪款最具“Ai性價(jià)比”?我們選擇了某知名顯卡品牌的40系全系列定價(jià),并結(jié)合常規(guī)Ai人像繪圖的成績(jī),計(jì)算“Ai算力定價(jià)”。由于RTX3060僅作為對(duì)照組,我們不會(huì)進(jìn)行推薦,僅參考40系列的成績(jī)與價(jià)格。

我們假設(shè)RTX4090在短發(fā)小姐姐Ai繪圖中的35.46秒為100%,來看其他顯卡在Ai繪畫時(shí)需要RTX4090的多少倍:

我們可以通過比較顯卡的性價(jià)比來衡量它們?cè)贏i繪圖任務(wù)上的表現(xiàn)。為了計(jì)算性價(jià)比,我們可以使用以下公式:Ai性價(jià)比=顯卡算力指數(shù)x顯卡價(jià)格。以RTX4090為基準(zhǔn),我們可以計(jì)算其他顯卡在相同算力下的性價(jià)比。在這個(gè)例子中,RTX4090算力性價(jià)比=100%算力指數(shù)x13999元。接下來,我們可以將其他顯卡的性價(jià)比與RTX4090的性價(jià)比進(jìn)行比較。這樣,我們就可以得出一個(gè)各個(gè)顯卡相對(duì)于RTX4090性價(jià)比的結(jié)論,從而可以更好地判斷哪款顯卡在Ai繪圖任務(wù)上性價(jià)比更高。

可見,相對(duì)于RTX4090來說, RTX4070Ti的純算力性價(jià)比 是較高的,也是在算力轉(zhuǎn)化后最為接近RTX4090的一張顯卡,那單純從算力的性價(jià)比角度出發(fā),這張卡是除了RTX4090外的最佳選擇,而如果屏幕面前的你只是想要在游戲之余,偶爾跑跑Ai,那么我認(rèn)為RTX4070會(huì)是你的最佳選擇,一組6張的精致人像圖片75秒的運(yùn)算時(shí)間在大多數(shù)人的可忍耐范圍之內(nèi),而RTX4060這樣超過2分鐘的選手,可能在等待的過程中會(huì)有些無聊了。

總的來說,考慮Ai繪圖場(chǎng)景下的應(yīng)用, 我們推薦RTX4070或RTX4070Ti這兩款顯卡 。

如今顯卡的多功能性是由于技術(shù)發(fā)展和市場(chǎng)需求共同推動(dòng)的。在過去的幾十年里,計(jì)算機(jī)圖形學(xué)的研究取得了重要突破,顯卡硬件的性能也得到了顯著提升。隨著GPU的計(jì)算能力越來越強(qiáng)大,顯卡逐漸從單純的渲染圖形發(fā)展為具備廣泛計(jì)算能力的硬件平臺(tái)。此外,各行各業(yè)對(duì)高性能計(jì)算、Ai等領(lǐng)域的需求不斷增長(zhǎng),顯卡廠商也紛紛投入研發(fā),使顯卡更好地適應(yīng)這些需求。

顯卡之所以具有多功能性,關(guān)鍵在于GPU具備強(qiáng)大的并行計(jì)算能力和通用計(jì)算能力。GPU最初設(shè)計(jì)用于處理計(jì)算機(jī)圖形,需要同時(shí)處理大量像素和頂點(diǎn)。為了高效執(zhí)行這些任務(wù),GPU采用了高度并行的架構(gòu)。這使得GPU在處理其他涉及大量并行計(jì)算的任務(wù)時(shí),也能發(fā)揮出強(qiáng)大的性能。

在未來,隨著GPU計(jì)算能力破繭成蝶般的蛻變,顯卡在各個(gè)領(lǐng)域的應(yīng)用將猶如波濤般洶涌澎湃。短短的數(shù)年內(nèi)我們就可以預(yù)見顯卡將在高性能計(jì)算、Ai繪圖、Ai生成計(jì)算等多重功能的舞臺(tái)上,如繁星閃爍般綻放越來越耀眼的光芒。

關(guān)鍵詞:

參與評(píng)論