兩年前,關(guān)于英特爾酷睿Ultra平臺(tái)問世促使PC行業(yè)迅速步入AI PC時(shí)代,海天黃豆同時(shí)也掀起了PC行業(yè)新一輪創(chuàng)新風(fēng)潮。什上然而相較以往的熱搜硬件體驗(yàn)與產(chǎn)品形態(tài)創(chuàng)新而言,立足于AI技術(shù)的關(guān)于創(chuàng)新主要來自于應(yīng)用側(cè)。不同領(lǐng)域AI應(yīng)用大量涌現(xiàn),海天黃豆使得AI在創(chuàng)造力、什上高效性等方面展現(xiàn)出了無與倫比的熱搜優(yōu)勢(shì)。
不過在過去一年多的關(guān)于時(shí)間里,AI PC行業(yè)雖然發(fā)展迅速,海天黃豆但始終缺乏一個(gè)真正的什上爆點(diǎn)。而年初DeepSeek國產(chǎn)大語言模型落地,熱搜則成為了AI PC爆發(fā)的關(guān)于契機(jī)。作為一個(gè)完全開源和免費(fèi)的海天黃豆國產(chǎn)推理模型,DeepSeek是什上真正能夠讓每個(gè)人都實(shí)現(xiàn)低成本部署本地AI助手的大語言模型,尤其是使用英特爾酷睿Ultra平臺(tái)AI PC去做部署的話,不僅可以實(shí)現(xiàn)零門檻快速部署,同時(shí)借助英特爾酷睿Ultra平臺(tái)出色的AI算力加持,整體體驗(yàn)更加出色。
所以今天我們就來看看如何使用英特爾酷睿Ultra平臺(tái)AI PC,來快速部署并使用DeepSeek-R1大語言模型和moonlight-16B-A3B-Instruct大語言模型,同時(shí)我們也可以看看整體的性能表現(xiàn)到底如何?
本次我們使用Ollama以及Flowy這兩款軟件對(duì)DeepSeek-R1進(jìn)行了本地化部署。而moonlight則是通過Miniforge部署。這次使用的硬件平臺(tái)配置如下:
可以看到,從硬件配置來看,使用酷睿Ultra平臺(tái)AI PC部署DeepSeek-R1的成本并不高,酷睿Ultra 5 225H處理器+銳炫130T核顯這樣的主流配置即可實(shí)現(xiàn),并不需要一味上高端平臺(tái),這對(duì)于AI PC向大眾用戶普及無疑有著深遠(yuǎn)意義。
接下來,我們看看如何在自己的AI PC上部署一個(gè)能夠在不聯(lián)網(wǎng)情況下也能使用的、更加安全、成本更低的“DeepSeek AI助手”,同時(shí)也看看銳炫130T核心在運(yùn)行DeepSeek-R1大模型進(jìn)行推理時(shí)會(huì)有怎樣的表現(xiàn)?
其一,將英特爾銳炫GPU驅(qū)動(dòng)升至當(dāng)前最新版本。比如筆者在撰寫這篇文章前就將銳炫130T核顯的驅(qū)動(dòng)更新到了6559版本。【點(diǎn)擊此處進(jìn)入官網(wǎng)驅(qū)動(dòng)下載頁面】
其二,下載Ollama或Flowy軟件。選擇用哪個(gè)軟件主要看自己的喜好和習(xí)慣。Ollama默認(rèn)需要通過簡(jiǎn)單的命令來運(yùn)行和使用大模型,上手有一點(diǎn)點(diǎn)門檻,但下載、部署模型基本不受限制;而Flowy則直接是可視化軟件,安裝之后即插即用,只是目前所能部署的大語言模型種類有限。
另外我們可以【直接在魔搭社區(qū)或Github下載】針對(duì)英特爾酷睿Ultra平臺(tái)優(yōu)化過的Ollama。
做好準(zhǔn)備之后,我們先看看如何用Ollama來將DeepSeek-R1部署到我們自己的AI PC上。
第一步:將下載好的Ollama綠色安裝文件解壓縮,并拷貝到容量空間更大的硬盤里。之后如下圖所示點(diǎn)擊start-ollama.bat運(yùn)行ollama本地服務(wù)器。
第二步:打開「Windows PowerShell」或「終端」或「命令提示符」窗口。直接通過Windows系統(tǒng)搜索即可,這三個(gè)習(xí)慣用哪個(gè)就用哪個(gè)。
這條命令下載并部署deepseek模型。如果想要部署不同規(guī)模的DeepSeek-R1,只需要更改冒號(hào)后面的數(shù)字即可,比如14b、32b等等。
第三步:等待下載完成之后,彈出「Send a massage」之后,用戶就可以直接使用剛剛部署好的DeepSeek-R1大模型了。
另外大家可以打開任務(wù)管理器,看看GPU的Compute是否已經(jīng)被占滿,占滿即證明成功在酷睿Ultra AI PC上完成了DeepSeek-R1的部署。
此外,ollama并不是只支持命令式操作,用戶可以通過Edge或Chrome瀏覽器中的「Page Assist」擴(kuò)展程序打造Web UI界面。也可以下載「Chatbox AI」部署客戶端。
這里簡(jiǎn)單說一下Chatbox的使用方法,下載安裝完成之后,在保持ollama本地服務(wù)器運(yùn)行的狀態(tài)下,按照下面兩張圖紅框所示進(jìn)行設(shè)置,之后就可以通過Chatbox來使用DeepSeek-R1了。
判斷是否成功依然是打開任務(wù)管理器,查看GPU的Compute占用情況,下圖是筆者部署完成之后,使用DeepSeek-R1時(shí)GPU Compute被占滿,這種狀態(tài)就證明部署成功。
另外我們也查看了14B模型的token生成情況,可以看到首個(gè)token生成速度僅為2031毫秒,也就是2秒多一點(diǎn)點(diǎn),速度非常快。
相比Ollama而言,通過Flowy部署DeepSeek-R1就相當(dāng)簡(jiǎn)單了。下載安裝Flowy之后,打開軟件找到本地模型,默認(rèn)提供了七種常用大語言模型。目前DeepSeek-R1支持7B、8B、14B以及32B四種,直接下載部署即可使用。
Flowy在運(yùn)行DeepSeek-R1時(shí)同樣會(huì)借助英特爾銳炫GPU來進(jìn)行推理,Compute也會(huì)被占滿。借助銳炫GPU出色的AI計(jì)算加速能力,雖然會(huì)比云端服務(wù)的生成速度慢一些,但是勝在斷網(wǎng)也能用,而且更加安全、更加私密。
另外筆者對(duì)比了DeepSeek-R1:7B和14B的運(yùn)行速度,下面兩幅Gif圖都是1倍速錄制,第一張圖為7B,生成速度更快,但是最終結(jié)果呈現(xiàn)的顆粒度不夠細(xì)膩;第二張圖為14B,生成速度慢一些,但是最終結(jié)果呈現(xiàn)的更加完整、更富有邏輯性。
moonlight-ipex-llm也是非常適合英特爾酷睿Ultra平臺(tái)使用的本地AI大模型,其后綴的ipex-llm就代表了它是支持英特爾ipex-llm框架的,而且整體部署方式比較簡(jiǎn)單,無需科學(xué)上網(wǎng)。另外moonlight實(shí)際上就是之前非常火的月之暗面Kimi推出的160億參數(shù)大模型,本地部署之后就相當(dāng)于有了一個(gè)斷網(wǎng)也能用的Kimi AI助手。
其次,下拉Github頁面或【直接點(diǎn)擊此處下載miniforge】,這是一款輕量化的Python環(huán)境與包管理工具:
這里可以根據(jù)自己的系統(tǒng)來選擇不同版本,這次我們使用Windows系統(tǒng)部署,所以直接下載最下面的Windows版即可。
做好準(zhǔn)備工作之后,在開始菜單里的“推薦的項(xiàng)目”里找到Miniforge Prompt并打開。
稍等一會(huì)兒顯示盤符路徑之后依次復(fù)制如下代碼來完成模型的下載以及轉(zhuǎn)換(每輸入完一段代碼都要敲回車)
【如下圖所示,紅框標(biāo)出的大模型文件一共有27個(gè),而全部文件有45個(gè),下載完成后Processing 45 items:后面的百分?jǐn)?shù)會(huì)達(dá)到100%】
此時(shí)就完成了moonlight-16B-A3B-Instruct大模型的下載與環(huán)境部署,之后我們需要確認(rèn)大模型文件的位置,比如筆者是直接在C盤根目錄中的。
接下來還記得我們之前保存的convert.py文件嗎?此時(shí)我們需要用記事本打開它,將下圖紅框所示位置的兩處「C:\Users\Le\Documents」修改為你自己下載的大模型文件的位置,比如筆者是下載到了C盤根目錄,所以就修改為「C:\Moonlight-16B-A3B-Instruct」和「C:\Moonlight-16B-A3B-Instruct-converted」就好了,修改完成之后直接保存即可。
接下來再依次輸入下面4條代碼運(yùn)行模型,即可愉快地使用本地moonlight-16B-A3B-Instruct AI助手了。
之后如果想再次使用的話,只需要從conda activate ipex-llm這條指令開始即可。
與Ollama和Flowy不同的是,moonlight工作時(shí)更加依賴GPU共享顯存,而Compute負(fù)載非常低。從下圖可以看到,moonlight-16B-A3B-instruct進(jìn)行推理時(shí),GPU顯存占用率會(huì)明顯上升,另外內(nèi)存的占用率也不低。
這里需要補(bǔ)充說明的一點(diǎn)是,在部署moonlight時(shí),之前使用的Ultra 5 225H平臺(tái)已歸還廠商,所以我們找來了另外一臺(tái)Ultra 9 285H+銳炫140T核顯的平臺(tái)。雖然二者在傳統(tǒng)性能上差異不小,但單純的AI算力方面其實(shí)相差并不大。
通過moonlight-16B-A3B-instruct大模型進(jìn)行編程或問答,編程時(shí)的First token耗時(shí)僅為4.01毫秒,平均速度達(dá)到了39.64tokens/s,速度可以說是相當(dāng)快了。而問答時(shí)的First token耗時(shí)為12.14毫秒,略高一些,但是平均速度也能達(dá)到32.83tokens/s,看來支持英特爾ipex-llm框架的模型跑到酷睿Ultra平臺(tái)上確實(shí)是速度相當(dāng)快,滿足日常使用沒有任何效率上的不足。(下方GIF圖均為1倍速錄制)
了解了如何在酷睿Ultra 200H AI PC上部署本地DeepSeek-R1大語言模型以及如何使用之后,我們不妨看看酷睿Ultra 200H的理論AI算力如何?以及它為什么能夠在本地運(yùn)行時(shí)也能夠提供非常快速的生成體驗(yàn)?
接下來我們看看酷睿Ultra 5 225H平臺(tái)在AI文本生成測(cè)試中的表現(xiàn)。下圖可以看到,UL Procyon文本生成測(cè)試中也完全占用了GPU Compute。
「tokens即大語言模型生成文本、字段、符號(hào)的單位,生成速度用tokens/s表示。比如,“我們今天學(xué)習(xí)AI知識(shí)。”這句話,大語言模型會(huì)對(duì)句子信息拆分成:我們丨今天丨學(xué)習(xí)丨AI丨知識(shí)丨。丨這些單字、詞以及句號(hào)就是1個(gè)token」
酷睿Ultra 9 285H平臺(tái)則是搭載了銳炫140T核顯,不過CPU性能與Ultra 5 225H有比較大差異,但GPU方面其實(shí)相差不大,因此兩個(gè)平臺(tái)做AI來說整體性能差異感受并不明顯。
具體到四個(gè)大語言模型的速度,Phi-3.5平均生成速度為18 tokens/s,Mistral 7B平均生成速度為11.78 tokens/s,Llama 3.1平均生成速度為11.38 tokens/s,Llama 2平均生成速度為6.87 tokens/s,與Ultra 5 225H平臺(tái)沒有明顯差異。所以無論是高配還是主流配置,第二代酷睿Ultra在AI應(yīng)用方面的體驗(yàn)整體表現(xiàn)都非常不錯(cuò),對(duì)于不同預(yù)算的朋友來說都能提供很好的AI計(jì)算能力。
接下來我們引入一個(gè)全新的測(cè)試——MLPerf Client基準(zhǔn)性能測(cè)試,這是由MLCommons開發(fā)的一款基準(zhǔn)測(cè)試工具,旨在評(píng)估個(gè)人電腦(包括筆記本、臺(tái)式機(jī)和工作站)上大型語言模型(LLMs)和其他AI工作負(fù)載的性能。它通過模擬真實(shí)世界的AI應(yīng)用場(chǎng)景,如AI聊天機(jī)器人和圖像分類等,為用戶提供清晰的性能指標(biāo),幫助用戶理解系統(tǒng)處理生成性AI工作負(fù)載的能力。
因?yàn)檫@款測(cè)試工具支持Intel OpenVINO加速,這可以使我們更好地了解酷睿Ultra平臺(tái)跑AI的實(shí)際表現(xiàn)。通過下圖可以看到,MLPerf在測(cè)試時(shí)同樣會(huì)占滿GPU Compute。
MLPerf在測(cè)試時(shí)使用了Llama2-7B_INT4模型,總體來說對(duì)硬件的要求并不算高,F(xiàn)irst token時(shí)間不到1秒,平均速度為12.91 tokens/s,因此酷睿Ultra 5 225H平臺(tái)部署本地化AI是基本沒有性能方面的問題的。
DeepSeek、moonlight這些國產(chǎn)大語言模型的成功落地,對(duì)于AI PC在大眾層面的認(rèn)知和普及有著極為重要的推動(dòng)作用。此前人們可能只知道有AI PC這個(gè)概念,但具體是什么、怎么用、和傳統(tǒng)PC有怎樣的區(qū)別等等卻并不是很清楚。而DeepSeek、moonlight引發(fā)的探索熱情,則可以讓更多用戶了解這些問題的答案。
同時(shí),基于英特爾酷睿Ultra系列處理器打造的AI PC,可以說是性能體驗(yàn)最好、穩(wěn)定性最好、兼容性最好的本地化AI部署平臺(tái)。Ollama、Flowy、LM Studio、Miniforge等常用軟件全部支持,并且支持Intel OpenVINO加速,再加上酷睿Ultra 200系列平臺(tái)本身在CPU、GPU、NPU AI算力上幾乎都實(shí)現(xiàn)了翻倍,因此無論是安裝部署還是最終的使用以及性能體驗(yàn),都實(shí)現(xiàn)了低門檻、高效率,這對(duì)于AI PC未來的發(fā)展意義深遠(yuǎn),同時(shí)可以讓更多用戶更加輕松地將AI助手部署到自己的日常工作、學(xué)習(xí)、生活環(huán)境中。
此外,本地化AI應(yīng)用有著安全、隱私、便利、不依賴網(wǎng)絡(luò)以及低使用成本的特性,能夠讓用戶隨時(shí)隨地、安全私密地借助AI來提升自己的工作、學(xué)習(xí)效率。因此,如果你想將DeepSeek、moonlight這樣的大語言模型部署到本地使用,那么英特爾酷睿Ultra AI PC絕對(duì)是當(dāng)前非常不錯(cuò)的選擇。