本文分類:news發(fā)布日期:2026/2/28 19:13:20
相關文章
LLM推理加速方法-2025年終總結,非常詳細收藏我這一篇就夠了
模型分為prefill和decoding兩個階段,因為特性不同,因此加速方式不同。prefill的加速方式主要是少算、而decoding的加速方式主要是少傳輸。
推理優(yōu)化的方式主要有如下幾種方式:
1、減少token輸入(少算)。
2、量化&#…
建站知識
2026/2/28 9:30:59
第一章—Linux新手入門:從零開始的初始化配置指南
第一章—Linux新手入門:從零開始的初始化配置指南初學linux得一些初始化配置詳細步驟
1. 配置SSH(遠程連接)
CentOS/Rocky Linux
① 編輯SSH配置文件
vim /etc/ssh/sshd_config② 配置SSH登錄方式
# 允許root登錄(…
建站知識
2026/2/22 17:51:20
JAX性能優(yōu)化實戰(zhàn):7個變換讓TPU/GPU吃滿算力
JAX跑得快的技巧其實很簡單:通過組合變換讓XLA能看到大塊連續(xù)的計算,比如說批處理、融合、分片,讓每一步在單設備或多設備同步時都像一個干凈的kernel。
我們今天就來總結7個能夠提高運行速度的JAX變換組合
1、 jit 優(yōu)先,形狀穩(wěn)…
建站知識
2026/2/28 6:26:01
導師嚴選2026 AI論文軟件TOP9:研究生開題報告必備測評
導師嚴選2026 AI論文軟件TOP9:研究生開題報告必備測評
2026年AI論文軟件測評:為何需要一份精準的榜單?
在學術研究日益數(shù)字化的今天,AI論文軟件已成為研究生撰寫開題報告、文獻綜述乃至整篇論文的重要工具。然而,市面上…
建站知識
2026/2/22 17:55:02
大模型技術演進:從Chatbot到Agent的范式轉移與實戰(zhàn)指南(建議收藏)
文章探討了從Chatbot到Agent的范式轉移,指出2025-2026年大模型技術將進入預訓練"存量精耕"階段,后訓練全面走向RL時代。Agent通過調用工具實現(xiàn)自主循環(huán),將人類從重復勞動中解放。未來Agent需實現(xiàn)并行化思考,并構建"…
建站知識
2026/2/22 17:54:48
深度長文 | 什么是 AI 智能體的“上下文工程”?(從原理到 6 大支柱全解析)!
大多數(shù)大語言模型(LLM)的演示一開始都讓人感覺很有意思。它們可以起草郵件、重寫代碼,甚至規(guī)劃假期行程。在最初的幾分鐘里,模型似乎真的“理解”了你扔給它的所有東西。但是,當任務變得混亂且真實時,這種濾…
建站知識
2026/2/27 13:17:24
華為OD機考雙機位C卷 - 微服務的集成測試 (Java Python JS C/C++ GO )
最新華為OD機試
真題目錄:點擊查看目錄 華為OD面試真題精選:點擊立即查看
題目描述
現(xiàn)在有n個容器服務,服務的啟動可能有一定的依賴性(有些服務啟動沒有依賴),其次服務自身啟動加載會消耗一些時間。
…
建站知識
2026/2/22 17:55:52
收藏必讀:大模型架構演進全解析——從GPT-4到智能體的三大技術支柱
文章分析了2023-2025年大模型技術的演進,從GPT-4的"唯參數(shù)規(guī)模論"到效率、推理和智能體三大新支柱的確立。技術演進包括MoE稀疏架構、線性注意力機制、推理時計算(Thinking)以及智能體工具使用。未來趨勢指向具身智能、世界模型和后Transformer架構探索&a…
建站知識
2026/2/24 9:38:49

