黄色网站入口国产美女,精品国产欧美另类一区,国产一区二区美女自慰,日日摸夜夜添无码国产

選擇你喜歡的標(biāo)簽
我們會為你匹配適合你的網(wǎng)址導(dǎo)航

    確認(rèn) 跳過

    跳過將刪除所有初始化信息

    您的位置:0XUCN > 資訊 > 智能
    新聞分類

    xLLM – 京東開源的智能推理框架

    智能 PRO 稿源:AI工具集 2025-10-05 09:44

    xLLM是什么

    xLLM 是京東開源的高效智能推理框架,專為國產(chǎn)芯片優(yōu)化,支持端云一體部署??蚣苡梅?wù)-引擎分離架構(gòu),服務(wù)層負(fù)責(zé)請求調(diào)度與容錯,引擎層專注運(yùn)算優(yōu)化,具備多流并行、圖融合、動態(tài)負(fù)載均衡等特性。xLLM 支持大模型、多模態(tài)模型及生成式推薦等多種場景,提供高性能、低成本的推理服務(wù),助力智能客服、實(shí)時推薦、內(nèi)容生成等業(yè)務(wù)高效落地,推動大語言模型在國產(chǎn)芯片上的規(guī)?;瘧?yīng)用。

    xLLM的主要功能

    • 全圖化 / 多層流水線執(zhí)行編排:通過框架層異步解耦調(diào)度、模型圖層計(jì)算通信異步并行及算子內(nèi)核層深度流水優(yōu)化,實(shí)現(xiàn)多層流水線執(zhí)行編排,減少計(jì)算空泡并提升整體推理效率。

    • 動態(tài) Shape 的圖執(zhí)行優(yōu)化:用參數(shù)化與多圖緩存方法實(shí)現(xiàn)動態(tài)尺寸適配,結(jié)合受管控的顯存池和自定義算子集成,提升靜態(tài)圖靈活性并保障顯存安全復(fù)用,優(yōu)化動態(tài)輸入處理性能。

    • MoE 算子優(yōu)化:針對 MoE 模型,實(shí)現(xiàn) GroupMatmul 和 Chunked Prefill 算子優(yōu)化,分別提升計(jì)算效率和長序列輸入的處理能力,增強(qiáng)模型推理性能。

    • 高效顯存優(yōu)化:采用離散物理內(nèi)存與連續(xù)虛擬內(nèi)存的映射管理,按需分配內(nèi)存空間,智能調(diào)度內(nèi)存頁復(fù)用,減少內(nèi)存碎片與分配延遲,適配國產(chǎn)芯片算子,提升顯存利用效率。

    • 全局多級 KV Cache 管理:實(shí)現(xiàn)多級緩存的 KV 智能卸載與預(yù)取,構(gòu)建以 KV Cache 為中心的分布式存儲架構(gòu),優(yōu)化多節(jié)點(diǎn)間 KV 的智能傳輸路由,提升緩存效率和數(shù)據(jù)傳輸性能。

    • 算法優(yōu)化:通過投機(jī)推理優(yōu)化和 MoE 專家動態(tài)負(fù)載均衡,實(shí)現(xiàn)多核并行提升效率,動態(tài)調(diào)整專家分布,優(yōu)化算法性能,提升推理吞吐量和負(fù)載均衡能力。

    如何使用xLLM

    • 環(huán)境準(zhǔn)備

      • 下載鏡像:根據(jù)硬件設(shè)備(如 A2、A3 等)和架構(gòu)(x86 或 arm),選擇合適的 Docker 鏡像。例如,對于 A2 設(shè)備(x86 架構(gòu)),可以下載 xllm/xllm-ai:0.6.0-dev-hb-rc2-x86 鏡像。如果下載失敗,嘗試備用源 quay.io/jd_xllm/xllm-ai:0.6.0-dev-hb-rc2-x86。

      • 創(chuàng)建容器:創(chuàng)建啟動容器時,需要掛載必要的設(shè)備和目錄,確保容器能訪問硬件資源和數(shù)據(jù)。包括設(shè)備文件(如 /dev/davinci0、/dev/davinci_manager 等)、模型文件路徑、驅(qū)動路徑等。

    • 安裝編譯

      • 編譯生成可執(zhí)行文件:運(yùn)行編譯命令,生成可執(zhí)行文件。默認(rèn)情況下,編譯目標(biāo)是 A2 設(shè)備。如果需要編譯為其他設(shè)備(如 A3 或 MLU),通過添加參數(shù)指定設(shè)備類型。

      • 生成 whl 包:如果需要生成 Python 的 whl 包,運(yùn)行相應(yīng)的編譯命令,生成的 whl 包將保存在 dist/ 目錄下。

      • 克隆倉庫:進(jìn)入容器后,克隆 xLLM 的官方倉庫,初始化子模塊。

      • 配置 vcpkg:如果鏡像中沒有預(yù)裝 vcpkg,手動克隆 vcpkg 倉庫,設(shè)置環(huán)境變量 VCPKG_ROOT 指向 vcpkg 的安裝路徑。

      • 安裝 Python 依賴:用清華大學(xué)的 Python 鏡像源安裝 xLLM 所需的 Python 依賴,升級 setuptools 和 wheel。

      • 安裝依賴

      • 編譯

    • 模型加載

      • 準(zhǔn)備模型文件:將模型文件準(zhǔn)備好,放置在容器可以訪問的路徑中,例如 /mnt/cfs/9n-das-admin/llm_models。

      • 加載模型:使用 xLLM 提供的接口加載模型。模型加載后,即可進(jìn)行推理任務(wù)。

    • 推理調(diào)用:通過 xLLM 提供的推理接口,輸入文本或其他數(shù)據(jù),即可獲得推理結(jié)果。推理接口根據(jù)加載的模型進(jìn)行計(jì)算,返回結(jié)果。

    xLLM的項(xiàng)目地址

    • 項(xiàng)目官網(wǎng):https://xllm.readthedocs.io/

    • GitHub倉庫:https://github.com/jd-opensource

    xLLM的應(yīng)用場景

    • 智能客服:快速響應(yīng)用戶咨詢,提供準(zhǔn)確的解答和建議,提升客戶滿意度和客服效率。

    • 實(shí)時推薦:基于用戶行為數(shù)據(jù),實(shí)時生成個性化推薦內(nèi)容,提高用戶參與度和轉(zhuǎn)化率。

    • 內(nèi)容生成:xLLM 能生成高質(zhì)量的文本內(nèi)容,如新聞、文章、創(chuàng)意文案等,助力內(nèi)容創(chuàng)作。

    • 多模態(tài)應(yīng)用:支持多模態(tài)模型(如文本 + 圖像),用在圖像描述生成、視覺問答等場景。

    • 生成式推薦:結(jié)合生成式技術(shù),生成更豐富、更個性化的推薦結(jié)果,提升用戶體驗(yàn)。

    0XU.CN

    [超站]友情鏈接:

    四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
    關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/

    圖庫
    公眾號 關(guān)注網(wǎng)絡(luò)尖刀微信公眾號
    隨時掌握互聯(lián)網(wǎng)精彩
    贊助鏈接