Cover photo

LLM Inference

Năng lực tính toán chủ quyền thực sự cho các mô hình ngôn ngữ ở mọi kích thước và kiến trúc.

Bối cảnh

Bức tranh AI đã chứng kiến một sự chuyển đổi sâu sắc trong các mô hình ngôn ngữ. Từ chỗ là một lĩnh vực do một số ít công ty mã nguồn đóng thống trị, hệ sinh thái này đã phát triển thành một hệ sinh thái mã nguồn mở sôi động, không chỉ bắt kịp mà còn dẫn dắt đổi mới.

Sự chuyển dịch này thể hiện rõ nhất qua các benchmark gần đây:

  1. Grok 2, khi được lượng tử hóa xuống độ chính xác 4-bit, đã cho thấy khả năng đạt hoặc rất gần với GPT-4 trong các tác vụ lập trình, chứng minh rằng ngay cả các mô hình nhỏ hơn cũng có thể đạt hiệu năng cao thông qua kỹ thuật lượng tử hóa.

  2. DeepSeek-R1 đã được chứng minh là ngang bằng hoặc vượt OpenAI o1 trong các benchmark về suy luận toán học, cho thấy lợi thế cạnh tranh của các mô hình mã nguồn mở trong các lĩnh vực chuyên biệt.

  3. Họ mô hình R1 của DeepSeek tiếp tục chứng minh rằng các mô hình chuyên dụng có thể đạt hiệu năng vượt trội trong các tác vụ mục tiêu, đồng thời duy trì tính minh bạch trong quy trình huấn luyện.


Trạng thái hiện tại

Hệ sinh thái LLM hiện nay được đặc trưng bởi ba xu hướng chính:

Open Source Dominance - Sự thống trị của nguồn mở

Khoảng cách giữa các mô hình mã nguồn đóng và mã nguồn mở đã đảo chiều:

  • Các mô hình mã nguồn mở đã được lượng tử hóa như Grok 2 đạt hiệu năng ở mức GPT-4

  • Họ mô hình R1 của DeepSeek vượt trội các mô hình độc quyền trong các miền chuyên biệt

  • Quy trình huấn luyện minh bạch cho phép tối ưu hóa có mục tiêu


Democratized Deployment - Triển khai dân chủ hóa

Các Mô hình ngôn ngữ nhỏ Small Language Models (SLMs) đã tạo ra cuộc cách mạng trong triển khai ở biên (edge):

  • Các mô hình 3B tham số đạt hiệu năng sẵn sàng cho môi trường production

  • Mức suy giảm đánh giá (eval degradation) trên toàn dải lượng tử hóa là tối thiểu

  • Các kiến trúc tối ưu cho edge cho phép các thiết bị IoT tham gia


Inference Diversity - Đa dạng suy luận

Hiện nay đã hỗ trợ nhiều mô hình suy luận khác nhau:

  • Text-Generation-Inference (TGI) cho thông lượng cao

  • llama.cpp cho triển khai ở edge

  • ONNX cho suy luận chuẩn hóa

  • Các engine tùy chỉnh cho phần cứng chuyên biệt


Key limitations - Hạn chế chính

Mặc dù đạt được nhiều tiến bộ, vẫn còn tồn tại những thách thức đáng kể:

Centralized Infrastructure - Cơ sở hạ tầng tập trung

  • Hầu hết các tác vụ suy luận hiện nay chạy trên hạ tầng đám mây tập trung.

  • Phụ thuộc phần cứng tạo ra sự khóa chặt với nhà cung cấp (vendor lock-in).

  • Những lo ngại về quyền riêng tư khi xử lý dữ liệu nhạy cảm trên các hệ thống tập trung.

Deployment Complexity - Độ phức tạp triển khai

  • Các mô hình khác nhau yêu cầu các engine riêng biệt, khác nhau

  • Cần các tối ưu hóa chuyên biệt theo từng loại phần cứng

  • Yêu cầu mở rộng (scaling) phức tạp, khác nhau cho từng mô hình

Trust Requirements - Các yêu cầu tin cậy

  • Không có bất kỳ đảm bảo nào về việc thực thi mô hình

  • Có khả năng xảy ra việc sửa đổi mô hình một cách âm thầm

  • Thiếu khả năng xác minh kết quả suy luận


Ritual’s Innovation - Sự đổi mới của Ritual

Ritual giới thiệu tính toán chủ quyền (sovereign compute) cho LLM thông qua ba đổi mới cốt lõi:


1. Universal Inference Layer - Lớp suy luận phổ quát

Các execution sidecar của chúng tôi trừu tượng hóa toàn bộ độ phức tạp của hạ tầng, với hỗ trợ:

  • Bất kỳ kiến trúc mô hình nào

  • Bất kỳ engine suy luận nào (TGI, llama.cpp, ONNX)

  • Bất kỳ cấu hình phần cứng nào (CPU, GPU, NPU, bao gồm Apple Silicon)


2. Verifiable Execution - Thực thi có thể kiểm chứng

Tận dụng cơ chế dual proof sharding của Symphony, chúng tôi cung cấp:

  • Đảm bảo tính xác thực của mô hình

  • Kết quả suy luận có thể xác minh

  • Thực thi bảo toàn quyền riêng tư thông qua TEE


3. Sovereign Deployment - Triển khai chủ quyền

Quyền sở hữu thực sự đối với toàn bộ ngăn xếp AI của bạn:

  • Chạy mô hình ở bất kỳ đâu, từ edge đến cloud

  • Không phụ thuộc vào hạ tầng tập trung

  • Toàn quyền kiểm soát mô hình và quyền riêng tư dữ liệu


Beyond Inference - Suy luận ngoài

Mặc dù bắt đầu từ suy luận, nền tảng của chúng tôi được thiết kế cho toàn bộ vòng đời AI.
Framework vTune của chúng tôi cho phép:

  • Fine-tuning mô hình

  • Điều chỉnh kiến trúc

  • Tối ưu hóa hiệu năng

  • Huấn luyện chuyên biệt

Thông qua các execution sidecar của Ritual, chúng tôi không chỉ triển khai mô hình, mà còn mở ra một mô hình mới của tính toán AI chủ quyền, có thể xác minh, hoạt động với bất kỳ mô hình, engine và phần cứng nào.

Nguồn: https://www.ritualfoundation.org/docs/whats-new/evm++-sidecars/ai-inference/llm-inference#trust-requirements