威健實業股份有限公司

Go List

[Molex] 大型語言模型的工作原理：人工智慧的隱性硬體需求

2026-03-12

大型語言模型的工作原理：人工智慧的隱性硬體需求

大型語言模型（LLM）不僅需要架構和演算法，還要強大的物理硬體才能發揮真正威力；任何關鍵演算法選擇都會在硬體中引發巨大的電流衝激，將互連架構推向極限

大型語言模型（LLM）的核心任務看似簡單：預測序列中最可能出現的下一個詞元（token）。詞元是 LLM 的基本資料單元，代表一個單詞或單詞的一部分。然而，大規模執行這一過程需要複雜的軟體架構，該架構能夠從海量的文本和代碼資料集中學習。這種方法為人工智慧領域帶來了顯著的新功能，但也對支撐這些功能的硬體系統提出了更為嚴峻的要求。事實上，隨著這些模型中的參數數量從數十億增長到數萬億，相應的硬體需求也呈指數級增長。

LLM 的強大功能源於其軟體設計，但正是這種設計也帶來了根本性的物理挑戰。模型內部機制對硬體提出了極高的要求，可能會使 AI 集群的物理基礎設施不堪重負，形成難解的糾結。這些演算法賦予 LLM 強大功能，也造成了當前硬體無法應對的物理資料擁堵。

解構語言學習模型：從軟體到信號

瞭解語言學習模型的硬體需求，首先要考察其軟體流程。語言學習模型基於龐大的資料集進行訓練，這些資料集通常包含數十億個網頁、書籍和文章，使其能夠學習詞語和短語之間的統計關係。將人類語言準備給機器的過程始於分詞，即將文本分割成稱為詞元的更小單元，並為其分配數字 ID。

每個詞元的數值 ID 都會被映射到一個 “詞嵌入”，這是一個多維向量，用於捕捉詞元的語義含義。相應的詞嵌入表可能非常龐大，需要消耗大量的高速記憶體來進行存儲和訪問。

大多數現代語言學習模型（LLM）都基於變換器（Transformer）神經網路架構構建，這種架構專為在數千個處理器上進行並行處理而設計。與只能連續處理資料的舊式迴圈神經網路（RNN）架構相比，這是一個突破。變換器架構的關鍵元件是自注意力機制，它能夠衡量序列中不同詞語的重要性。這個模型本身是一個深度神經網路，擁有數十億甚至數萬億個參數，這些參數是訓練過程中不斷調整的內部權重和偏差。

自注意力機制會產生一個 N 平方的計算問題，並且對於生成的每個詞元，都會在處理器之間產生大量的資料混洗。詞嵌入的記憶體需求和自注意力機制產生的資料流程量，共同決定了 LLM 的核心硬體要求。

自注意力機制：LLM 的硬體瓶頸

自注意力機制既是 LLM 強大功能的來源，也是其硬體需求巨大的原因。該機制使模型能夠理解上下文，這對於識別文本中的長程依賴關係至關重要，它使模型能夠理解一個詞的含義如何受到序列中更早出現的詞的影響。為了實現這一點，模型必須在處理過程的每個步驟中，將上下文視窗內的每個詞元與其他所有詞元進行比較。N 平方的計算需求會在 GPU 集群內部造成巨大的東西向資料流程量爆炸。這種處理器之間的通信是整個 AI 集群中最耗費資源的工作負載。如果連接處理器的物理互連無法處理如此龐大的資料洪流，GPU 將會因為缺乏資料而處於空閒狀態，從而造成嚴重的性能瓶頸，而僅靠軟體無法解決。

由此產生的硬體難題主要體現在兩個方面：

一是如何在數千個並行連接中高速保持信號完整性；
二是實現集群中每個處理器物理連接所需的極高連接密度。

解決這兩個難題是目前設計下一代人工智慧硬體的工程師們的首要任務。

核心 LLM 硬體要求

應對自注意力機制產生的內部資料流程量，關鍵在於新一代高速、高密度互連技術。這就要求從系統層面著手實體層，以解決由這種高強度資料流程量帶來的兩大主要工程難題：連接密度和信號完整性。

首要挑戰在於實現極高的連接密度。為了最大限度地降低延遲，AI 伺服器必須將數量龐大的 GPU 和加速器盡可能緊密地集成在一塊電路板上，通常使用夾層卡進行垂直構建。這帶來了巨大的物理挑戰，因為必須在極其狹小的空間內建立數千個高速並行連接，將傳統連接器的設計推向了極限。
保持信號完整性是第二個同樣至關重要的問題。在下一代傳送速率下，通過傳統印刷電路板（PCB）上長而損耗大的走線傳輸高速信號會顯著降低信號品質。這種信號劣化會導致比特錯誤，並限制連接的有效頻寬，結果造成性能瓶頸，甚至在資料離開電路板之前就可能削弱處理器的性能。

如果無法同時解決密度和信號完整性問題，人工智慧集群的可擴展性將受到根本限制，無法訓練更大型和更強大的模型。

滿足 LLM 硬體需求的互連解決方案

LLM 的性能最終取決於其硬體。軟體架構定義了任務，而物理互連則決定了任務的執行速度和效率。Molex 莫仕憑藉深厚的工程技術專長，致力於解決 LLM 面臨的核心信號完整性和密度挑戰。

這種專業技術體現在一系列專為滿足人工智慧集群特定需求而設計的解決方案中。為了應對密度挑戰，Mirror Mezz Pro 連接器提供了超高密度、高速的板對板解決方案，能夠在最大限度節省空間的同時，處理下一代速度。為了克服信號完整性挑戰，CX2 雙速連接器和線纜元件提供從處理器到其他元件的直接旁路連接，從而保持信號完整性並降低延遲。這些解決方案共同構成了一套全面的板載實體層策略。它們能夠同時應對密度和信號完整性方面的挑戰，從而支援人工智慧集群龐大的內部資料流程，並提供滿足 LLM 硬體要求和構建面向未來的強大人工智慧集群所必需的物理硬體。如需深入瞭解，請探索 Molex 莫仕面向人工智慧和機器學習基礎設施的解決方案。

瞭解更多內容，請點擊“閱讀原文”

閱讀原文