# ความสำคัญของระบบ LLM ที่ตรวจสอบได้

By [Tung_Connext](https://paragraph.com/@tung99) · 2024-03-31

---

**ความสำคัญของระบบ LLM ที่ตรวจสอบได้**

เนื้อหาต่อไปนี้จะพูดถึงแนวคิดของ **Large Language Model (LLM) ที่ตรวจสอบได้** ซึ่งมีความสำคัญมากขึ้นสำหรับองค์กรต่างๆ

### **บริบท**

*   ในปี 2024 องค์กรต่างๆ เริ่มเปลี่ยนจากความตื่นเต้นกับเทคโนโลยี ChatGPT ในช่วงปลายปี 2022 มาสู่การใช้งานจริง
    
*   ปัจจุบัน องค์กรธุรกิจมุ่งเน้นการสร้างแอปพลิเคชัน AI ระดับการผลิต ที่ใช้ประโยชน์จากข้อมูลภายในองค์กรสำหรับงานต่างๆ เช่น การดึงข้อมูลมาช่วยสร้างเนื้อหา (RAG) หรือแม้แต่การฝึกหรือปรับแต่ง LLM เอง
    
*   การเปลี่ยนแปลงนี้สะท้อนถึงการบูรณาการ AI เข้ากับกระบวนการทำงานหลักขององค์กรอย่างลึกซึ้งมากขึ้น ซึ่งก้าวข้าม "จุดสูงสุดของความคาดหวังที่ไม่สมจริง" (Peak of Inflated Expectations) ตามที่ระบุไว้ในกราฟแนวโน้มเทคโนโลยีที่กำลังเกิดใหม่ประจำปี 2023 (2023 Hype Cycle for Emerging Technologies)
    

![กราฟ 0: Gartner Hype Cycle for Emerging Technologies](https://storage.googleapis.com/papyrus_images/3d94e67f3653c5c18a3920f2c9a1dbcfa05a4935c2ff541cd7a59ac6cedfe08a.png)

กราฟ 0: Gartner Hype Cycle for Emerging Technologies

ในกราฟนี้ ช่วงที่ความคาดหวังสูงสุด เราจะเริ่มเห็นผลกระทบเชิงลบจากการทดลองอย่างรวดเร็วขององค์กรต่างๆ ในกรณีของ LLM และ AI สร้างสรรค์ มีคดีความฟ้องร้องบริษัท AI ขนาดใหญ่ในอุตสาหกรรมฟ้องร้องกันเองเกิดขึ้นหลายคดี แค่แบรนด์น่าเชื่อถือ (Brand Trust) อย่างเดียวไม่พอแล้ว ผู้ฟ้องร้องเรียกร้องคำตอบเกี่ยวกับกระบวนการที่สนับสนุนการสร้างและใช้งาน LLM ที่เป็นกรรมสิทธิ์ในปัจจุบัน:

*   ชุดข้อมูลอะไรที่ใช้ในการฝึกหรือปรับแต่ง LLM ใดชุดหนึ่ง? ชุดข้อมูลเหล่านี้มีเนื้อหาที่มีลิขสิทธิ์หรือทรัพย์สินทางปัญญา (IP) ที่ได้รับการคุ้มครองหรือไม่?
    
*   มีการนำข้อมูลที่ละเอียดอ่อน เช่น ข้อมูลประจำตัวบุคคล (PII) ออกก่อนการฝึกหรือก่อนการสร้างฐานข้อมูลค้นหาแบบเวกเตอร์เพื่อดึงข้อมูลมาใช้ในคำสั่งป้อนข้อมูลหรือไม่?
    
*   คำขอของผู้ใช้ถูกประมวลผลด้วยชุดคำสั่ง (Binaries) และน้ำหนัก (Weights) ของ LLM ที่ถูกต้องหรือไม่?
    
*   เมื่อใช้บริการ LLM ที่โฮสต์โดยบุคคลภายนอก เราสามารถไว้วางใจได้หรือไม่ว่าบุคคลภายนอกไม่ได้ดัดแปลงคำตอบแต่อย่างใด?
    
*   มีการส่งข้อมูลที่ละเอียดอ่อนที่เป็นกรรมสิทธิ์โดยไม่ตั้งใจไปยังบริการ LLM ของบุคคลภายนอกเนื่องจากกระบวนการ RAG หรือไม่?
    
*   เราจะกำหนดกระบวนการจัดการเพื่อควบคุมและอนุมัติคำสั่งป้อนข้อมูลในฐานข้อมูลโค้ดหรือกระบวนการของเอเจนต์ AI ที่ใช้ชุดข้อมูลภายในองค์กรได้อย่างไร?
    
*   เราจะรับรองเนื้อหาชิ้นหนึ่งว่าเป็นของแท้ที่มาจากแหล่งที่มาขององค์กรและตรวจสอบที่มา (เช่น สำนักพิมพ์ข่าว รายงานทางการเงิน หรือประวัติสุขภาพส่วนบุคคล) ได้อย่างไร? ลายน้ำ (Watermark) ทางเข้ารหัสแบบใดที่สามารถใช้ประโยชน์กับเนื้อหาตั้งแต่ต้นกำเนิดได้?
    

**ผลของการแข่งขันและแนวคิด LLM ที่ตรวจสอบได้**
----------------------------------------------

**ผลกระทบจากการแข่งขัน**

บริษัทต่างๆ มุ่งเน้นที่การลดขั้นตอนการตรวจสอบเพื่อให้ผลิตภัณฑ์หรือแนวคิดออกสู่ตลาดได้เร็วขึ้น (Time-to-POC) ส่งผลให้หลายครั้ง บริษัทเองก็ไม่ทราบคำตอบของคำถามเกี่ยวกับความน่าเชื่อถือของข้อมูล ในขณะเดียวกัน คดีความที่เกิดขึ้นจะทำให้สาธารณชนตระหนักถึงความสำคัญของการตรวจสอบ/ประเมินผล (Verifiability/Auditability) เพื่อแก้ไขปัญหาเกี่ยวกับคำถามที่ยังไม่ได้รับคำตอบเกี่ยวกับ LLM ที่เป็นกรรมสิทธิ์

**แนวคิด LLM ที่ตรวจสอบได้**

แนวคิดนี้เป็นหัวใจสำคัญในการใช้งาน LLM ขององค์กรขนาดใหญ่ในอนาคต **LLM ที่ตรวจสอบได้** หมายถึง ระบบ LLM ที่กระบวนการสร้างและใช้งาน สามารถพิสูจน์ทางคณิตศาสตร์หรือทำซ้ำได้

**ข้อดีของ LLM ที่ตรวจสอบได้**

*   **ความน่าเชื่อถือ:** ผู้ใช้และหน่วยงานกำกับดูแล สามารถเข้าใจแหล่งที่มาและวิธีการที่ LLM ใช้ในการสร้างคำตอบได้ดียิ่งขึ้น ช่วยให้องค์กรสามารถนำ LLM ไปใช้ในกรณีการใช้งานใหม่ๆ ที่เคยหลีกเลี่ยงเนื่องจากความเสี่ยงด้านความน่าเชื่อถือ
    
*   **ความแม่นยำและความน่าเชื่อถือที่เพิ่มขึ้น:** ด้วยความสามารถในการตรวจสอบ ผู้ใช้สามารถตรวจสอบข้อมูลที่ LLM ให้กับแหล่งที่มาหรือข้อมูลอ้างอิงเดิมได้ ซึ่งจะช่วยเพิ่มความแม่นยำและความน่าเชื่อถือของข้อมูลที่ได้รับ เนื่องจากผลลัพธ์ของโมเดลมาจากเส้นทางข้อมูลที่ติดตามได้ แทนที่จะเป็นข้อมูลที่ปิดบัง
    
*   **การปรับแต่งและการปรับปรุง:** การเข้าใจกระบวนการที่ LLM ใช้ในการสรุปผลลัพธ์ ช่วยให้นักพัฒนาและนักวิจัยสามารถปรับปรุงโมเดลได้ดียิ่งขึ้น นอกจากนี้ ยังช่วยให้เข้าใจกระบวนการคิดของโมเดล ซึ่งเป็นสิ่งสำคัญสำหรับการแก้ไขจุดบกพร่องและยกระดับประสิทธิภาพ
    
*   **ความแท้จริงของเนื้อหา:** การพิสูจน์ว่าเนื้อหาถูกสร้างขึ้นโดยมนุษย์ หรือได้รับการรับรองความแท้จริงจากแหล่งที่มาที่เชื่อถือได้
    

![รูปที่ 1: การสร้างระบบ LLM ที่ตรวจสอบได้แบบครบวงจร: เริ่มต้นด้วยชุดข้อมูลฝึกที่ปลอดภัยและผ่านการตรวจสอบ ไปจนถึงการพิสูจน์การใช้งานโมเดลที่ถูกต้องและการใส่ลายน้ำในเนื้อหาที่สร้างขึ้น](https://storage.googleapis.com/papyrus_images/5f0491f62fd949d92b5a1434c3c1b5402138e828fffcfdfda7c4053c5ce979d1.png)

รูปที่ 1: การสร้างระบบ LLM ที่ตรวจสอบได้แบบครบวงจร: เริ่มต้นด้วยชุดข้อมูลฝึกที่ปลอดภัยและผ่านการตรวจสอบ ไปจนถึงการพิสูจน์การใช้งานโมเดลที่ถูกต้องและการใส่ลายน้ำในเนื้อหาที่สร้างขึ้น

เนื้อหาที่เหลือในรายงานนี้จะมุ่งเน้นไปที่การทำความเข้าใจกระบวนการเหล่านี้และโซลูชันที่มีอยู่เพื่อให้สามารถตรวจสอบได้ในปัจจุบัน

**การใช้งาน LLM แบบปิดเทียบกับเฟรมเวิร์กโอเพ่นซอร์ส**
-----------------------------------------------------

ในช่วงไม่กี่ปีที่ผ่านมา ความก้าวหน้าส่วนใหญ่ของปัญญาประดิษฐ์ (AI) สร้างสรรค์ มาจาก LLM แบบปิดที่พัฒนาโดยองค์กรเฉพาะทาง เช่น OpenAI, Anthropic เป็นต้น LLM เหล่านี้ได้รับการออกแบบให้มีความสามารถหลากหลาย เพื่อรองรับผู้ใช้จำนวนมากที่สุดเท่าที่จะเป็นไปได้ ผู้ใช้สามารถใช้ LLM เหล่านี้สำหรับกรณีการใช้งานเกือบทุกประเภท

อย่างไรก็ตาม ลักษณะทั่วไปนี้ทำให้ต้นทุนการพัฒนาโมเดลเหล่านี้สูงมาก (Sam Altman ซีอีโอของ OpenAI ประมาณการว่ารุ่น GPT-4 มีค่าใช้จ่ายในการพัฒนากว่า 100 ล้านดอลลาร์สหรัฐ) ด้วยการ委託 (wēi tuō - การมอบหมาย) การพัฒนาให้กับบุคคลภายนอกที่เป็นผู้เชี่ยวชาญ องค์กรต่างๆ สามารถหลีกเลี่ยงค่าใช้จ่ายด้านการวิจัยและพัฒนา (R&D) ที่สูงเหล่านี้ และชำระเงินเฉพาะค่าใช้จ่ายในการใช้งาน LLM (เรียกใช้งาน) แม้ว่าแนวทางนี้จะน่าดึงดูดสำหรับกรณีการใช้งานส่วนใหญ่ในปัจจุบัน แต่ก็ยังคงต้องอาศัยความไว้วางใจใน "แบรนด์" ของผู้ให้บริการ LLM และเชื่อใจว่าพวกเขาพัฒนาโมเดลอย่างรับผิดชอบ

ทางเลือกแทนการใช้โมเดล LLM แบบปิดคือ การใช้ประโยชน์จากเฟรมเวิร์กโอเพ่นซอร์สที่มีอยู่แล้วและปรับแต่งให้เหมาะสมกับความต้องการเฉพาะขององค์กร แม้ว่าจะสามารถใช้งานโมเดลโอเพ่นซอร์สได้ฟรี แต่การใช้วิธีนี้ต้องใช้เวลานานและต้องมีทีมวิศวกรผู้เชี่ยวชาญ นอกจากนี้ ประสิทธิภาพของโมเดลโอเพ่นซอร์สโดยทั่วไปมักจะต่ำกว่ารุ่นแบบปิด แต่ช่องว่างด้านประสิทธิภาพนี้อาจจะลดลงเรื่อยๆ

องค์กรที่เลือกปรับแต่ง LLM โอเพ่นซอร์สจะมีการควบคุมการใช้งานทั้งหมด องค์กรสามารถดูแลชุดข้อมูลสำหรับการฝึกหรือปรับแต่งได้อย่างเต็มที่ การไม่มีบุคคลภายนอกเข้ามาเกี่ยวข้อง ยังช่วยให้มั่นใจว่าองค์กรสามารถควบคุมข้อมูลทั้งหมดบนเซิร์ฟเวอร์ของตนเองได้ตลอดเวลา และสามารถกำหนดการควบคุมใดๆ เพื่อป้องกันการชุดข้อมูล เมื่อดำเนินการตามคำขอของ LLM องค์กรสามารถมั่นใจได้ว่าคำขอเหล่านั้นทำงานอย่างถูกต้อง เนื่องจากองค์กรควบคุมทุกส่วนของระบบ LLM

**การตรวจสอบชุดข้อมูล การฝึก และการปรับแต่ง**
---------------------------------------------

### **ความสมบูรณ์ของชุดข้อมูล**

ผู้ใช้งาน LLM ภายในองค์กร มีความต้องการที่แตกต่างจากผู้ใช้งานทั่วไปที่เพียงแค่ต้องการถาม LLM เพื่อสร้างสูตรอาหารเย็นหรือตอบคำถามเกี่ยวกับประวัติศาสตร์ยุคกลาง ผู้ใช้งานองค์กรมีคำขอที่ซับซ้อนกว่า โดยอาศัยแหล่งข้อมูลภายนอกที่หลากหลาย เช่น วารสารวิชาการ รายงานทางการเงิน (เช่น จาก Goldman Sachs) หรือการเชื่อมต่อข้อมูลต้นทางจากคลังข้อมูลขององค์กร เพื่อให้บริบทเพิ่มเติมแก่ LLM ที่เป็นกรรมสิทธิ์

องค์กรอาจทำข้อตกลงส่วนตัวกับผู้ให้บริการ LLM เพื่อปรับแต่งโมเดลด้วยข้อมูลที่เป็นกรรมสิทธิ์ ในทำนองเดียวกัน เทคนิคที่ได้รับความนิยมมากขึ้นคือ การใช้ RAG (Response at a Glance) เมื่อทำการขอใช้ข้อมูล (inference request) วิธีนี้ช่วยให้องค์กรสามารถเตรียมข้อมูลเบื้องต้น (Prime) ให้กับ LLM ทั่วไปด้วยข้อมูลเพิ่มเติมเมื่อส่งคำขอ

ภายใต้สถานการณ์ทั้งสองนี้ องค์กรจำเป็นต้องไว้วางใจผู้ให้บริการ LLM บุคคลภายนอกในการรักษาความปลอดภัยของชุดข้อมูลเสริม ซึ่งรวมถึงการรับรองว่า:

*   บุคคลภายนอกไม่ได้เพิ่มหรือลบรายการใดๆ ออกจากชุดข้อมูลบนเซิร์ฟเวอร์ของตน
    
*   ชุดข้อมูลไม่ได้ถูกดัดแปลงระหว่างการส่งจากเซิร์ฟเวอร์ขององค์กรไปยังเซิร์ฟเวอร์ของบุคคลภายนอก
    
*   ชุดข้อมูลเสริมยังคงเป็นข้อมูลส่วนตัวและแยกจากผู้ใช้รายอื่นของผู้ให้บริการ LLM
    

### **การฝึกและการปรับแต่ง**

สำหรับการปรับแต่ง สิ่งสำคัญที่ควรทราบคือ ความสนใจในการปรับแต่งภายในองค์กรลดลง และไม่น่าแปลกใจที่ผู้คนให้ความสนใจกับ RAG กับฐานข้อมูลค้นหาแบบเวกเตอร์มากขึ้น หนึ่งในเหตุผลที่เป็นไปได้คือ อุตสาหกรรมนี้พัฒนาอย่างรวดเร็ว บ่อยครั้งที่องค์กรปรับแต่งโมเดลที่เป็นกรรมสิทธิ์หรือโอเพ่นซอร์สเสร็จสิ้น ก็จะมีรุ่นโมเดลใหม่หรือทางเลือกที่ดีกว่าออกวางจำหน่าย

ภูมิทัศน์ของการฝึก LLM แบบปิดกำลังเผชิญกับความท้าทายทางกฎหมายมากขึ้น ดังที่เห็นได้จากการฟ้องร้องมูลค่าหลายพันล้านดอลลาร์เมื่อเร็วๆ นี้ องค์กรหนึ่งฟ้องร้องผู้ให้บริการ LLM ชั้นนำ โดยอ้างว่าผู้ให้บริการนำทรัพย์สินทางปัญญา (IP) ที่ได้รับการคุ้มครองขององค์กรไปใช้ในโมเดลของผู้ให้บริการ คดีความดังกล่าวเน้นย้ำถึงความจำเป็นที่เกิดขึ้นใหม่ที่อุตสาหกรรมจะต้องกำหนดมาตรฐานเพื่อให้แน่ใจว่า LLM ถูกพัฒนาอย่างรับผิดชอบ ทั้งเพื่อรับมือกับความซับซ้อนทางกฎหมายและเพื่อรักษาความไว้วางใจของผู้บริโภค

เพื่อตอบสนองต่อความท้าทายเหล่านี้ โซลูชันที่สร้างสรรค์อย่าง Space and Time กำลังได้รับความสนใจ

Space and Time เป็นฐานข้อมูลประเภทใหม่ที่ใช้ประโยชน์จากการพิสูจน์แบบความรู้เป็นศูนย์ (ZK) เพื่อรับประกันทางคณิตศาสตร์ว่าชุดข้อมูลขนาดใหญ่ไม่ได้ถูกเปลี่ยนแปลง นอกจากนี้ยังยืนยันว่าคิวรีที่ดึงข้อมูลย่อยชุดนี้ออกมาไม่ได้ถูกดัดแปลง ด้วยการใช้การรับรองทางคณิตศาสตร์ของ Space and Time กับชุดข้อมูลภายในโมเดลเองระหว่างการฝึก องค์กรสามารถพิสูจน์ได้ว่าชุดข้อมูลที่ป้องกันการเปลี่ยนแปลงใน Space and Time คือชุดข้อมูลเดียวกันที่ใช้ในการฝึกโมเดลจริง และไม่มีเนื้อหาใดถูกเพิ่มหรือลบออกไปตั้งแต่ตอนนั้น เทคโนโลยีนี้ช่วยให้นักกฎหมายหรือผู้ตรวจสอบสามารถดำเนินการตรวจสอบเนื้อหาที่ใช้ในการฝึก โดยใช้ทั้งการดึงข้อมูลแบบ SQL และการค้นหาแบบเวกเตอร์ ผู้ตรวจสอบสามารถเรียกใช้คิวรีที่พิสูจน์ด้วย ZK เพื่อดึงเพื่อนบ้านที่ใกล้เคียงที่สุดของการฝังแบบเวกเตอร์ซึ่งอาจตรงกับ IP ที่เป็นกรรมสิทธิ์ที่อ้างในคดีความ หากการฝังดังกล่าวไม่มีอยู่หรือไม่ตรงกับคำกล่าวอ้าง ย่อมช่วยเสริมการป้องกันของผู้

**ผลลัพธ์ของโมเดล**
-------------------

การโต้ตอบกับ LLM แบบปิด มีลักษณะคล้ายกับการโต้ตอบกับ "กล่องดำ" ส่วนประกอบสำคัญต่างๆ เช่น ชุดข้อมูลฝึก ไบนารีของโมเดล น้ำหนัก และอัลกอริทึม จะถูกปิดบังเพื่อปกป้องทรัพย์สินทางปัญญาและรักษาความลับทางการค้า ความคลุมเครือนี้ทำให้ผู้ใช้ไม่สามารถยืนยันได้ว่า ผลลัพธ์ที่ได้รับนั้น เกิดขึ้นจากข้อมูลป้อนของพวกเขาจริงๆ นอกจากนี้ ยังมีความเสี่ยงที่ผู้ให้บริการแบบปิดอาจเลือกใช้โมเดลที่ราคาถูกกว่าเพื่อประมวลผลคำขอ ซึ่งอาจส่งผลต่อคุณภาพของประสบการณ์ผู้ใช้

ปัจจุบัน ยังไม่มีวิธีการเข้ารหัสที่ใช้งานได้จริงเพื่อตรวจสอบความถูกต้องของผลลัพธ์ของ LLM อย่างแม่นยำ แม้ว่าจะมีบริษัทสตาร์ทอัปจำนวนหนึ่งกำลังเริ่มต้นวิจัยและพัฒนาในด้านนี้ (โดยเฉพาะอย่างยิ่งในแวดวง Web3) แม้ว่าความก้าวหน้าในอนาคตของการเข้ารหัสจะช่วยให้สามารถตรวจสอบผลลัพธ์ของ LLM ได้โดยไม่ต้องใช้เวลาพิสูจน์นานหนึ่งสัปดาห์ (ตามเกณฑ์มาตรฐานของเครื่องมือการเรียนรู้ของเครื่องแบบความรู้เป็นศูนย์ (zkML) ในปัจจุบัน) การนำเทคโนโลยีดังกล่าวไปใช้อาจมีราคาแพงเกินไป ทำให้การใช้งานของมันถูกจำกัดไว้สำหรับกรณีพิเศษ للغاية ( tè bพิเศษ qī lái - พิเศษ للغاية - สำหรับกรณีพิเศษมากๆ) ที่มีเวลาพิสูจน์แบบออฟไลน์

ดังนั้น องค์กรที่ใช้ประโยชน์จาก LLM แบบปิดของบุคคลภายนอกจำเป็นต้องไว้วางใจผู้ให้บริการของตนเองเป็นอย่างมาก โดยอาศัยผู้ให้บริการในการประมวลผลคำขอโดยใช้โมเดลที่ถูกต้อง (ไม่ใช่รุ่นที่เล็กกว่าและราคาถูกกว่า) ด้วยน้ำหนัก/พารามิเตอร์ที่ถูกต้องและชุดข้อมูลฝึกที่ถูกต้อง

![](https://storage.googleapis.com/papyrus_images/87725c8930b4d34e6539a44f592a7b62276eee3ff876ecb02c66b1abc9e96938.png)

**การทำความสะอาดกระบวนการ RAG**
-------------------------------

เมื่อองค์กรต่างๆ นำฐานข้อมูลค้นหาแบบเวกเตอร์และ LLM เข้ามาผสานรวมกับการดำเนินงานมากขึ้น นักพัฒนาจำนวนมากพบว่าตัวเองกำลังเผชิญกับสิ่งที่ไม่คุ้นเคย ซึ่งการขาดประสบการณ์เหล่านี้นำไปสู่การละเลยด้านความปลอดภัย ตัวอย่างข้อผิดพลาดทั่วไปที่นักพัฒนาทำโดยไม่ได้ตั้งใจ คือ การถ่ายโอนข้อมูลที่เป็นกรรมสิทธิ์หรือข้อมูลประจำตัวบุคคล (PII) ที่ละเอียดอ่อนจากคลังข้อมูลหรือที่เก็บข้อมูลแบบอ็อบเจ็กต์ที่ปลอดภัยและผ่านมาตรฐาน SOC2 ไปยังฐานข้อมูลค้นหาแบบเวกเตอร์เพื่อใช้กับกระบวนการ RAG

อุบัติเหตุเช่นนี้อาจส่งผลให้มีการแชร์ IP ที่ได้รับการคุ้มครองหรือข้อมูลประจำตัวบุคคล (PII) ของลูกค้ากับผู้ให้บริการ LLM บุคคลภายนอกโดยไม่ได้ตั้งใจผ่านทางอินเทอร์เน็ต ซึ่งถือเป็นการละเมิดข้อกำหนด SOC2 และก่อให้เกิดความเสี่ยงด้านความปลอดภัยที่สำคัญ

เพื่อรับมือกับความท้าทายเหล่านี้ เป็นสิ่งสำคัญที่องค์กรต่างๆ จะต้องกำหนดกระบวนการที่เข้มงวดเพื่อรับรองว่านักพัฒนาได้ลบข้อมูล IP และ PII ใดๆ ออกจากชุดข้อมูลก่อนที่จะนำไปผสานเข้ากับฐานข้อมูลค้นหาแบบเวกเตอร์สำหรับกระบวนการ RAG

สำหรับอนาคต เราคาดการณ์ว่าจะมีความจำเป็นสำหรับเครื่องมือเข้ารหัสที่สร้างสรรค์ ซึ่งสามารถตรวจสอบและ "พิสูจน์" ว่าไม่มีเนื้อหาที่ละเอียดอ่อนภายในฐานข้อมูลค้นหาแบบเวกเตอร์ หรือตรวจจับและทำความสะอาดเนื้อหาเหล่านั้นโดยอัตโนมัติ กลไกดังกล่าวจะมีบทบาทสำคัญในการป้องกันการละเมิดข้อมูลที่เกิดขึ้นโดยไม่ได้ตั้งใจ ป้องกันผู้ให้บริการบุคคลภายนอกไม่ให้เข้าถึงเนื้อหาที่ไม่ควรเข้าถึง และส่งเสริมสภาพแวดล้อมที่ปลอดภัยสำหรับการใช้ประโยชน์จาก LLM ในองค์กร

![](https://storage.googleapis.com/papyrus_images/7820e52f959229c5d1de45cc82d27a3b5fa70a3fd65787532774b9d8feab281e.png)

**พิสูจน์ที่มาและความแท้จริงของเนื้อหา**
----------------------------------------

ในที่สุด เมื่อมีการพัฒนา LLM ที่ตรวจสอบได้และใช้งานอย่างปลอดภัย พร้อมทั้งมีการทำความสะอาดเนื้อหาที่ละเอียดอ่อนหรือดัดแปลงแล้ว ความต้องการในการฝังลายน้ำทางเข้ารหัส (cryptographic watermarking) ในเนื้อหาที่สร้างขึ้น ซึ่งเป็นผลลัพธ์ของ LLM และโมเดล generative อื่นๆ จะเพิ่มมากขึ้น ในยุคที่อินเทอร์เน็ตเต็มไปด้วยเนื้อหาที่สร้างโดย AI การแยกแยะระหว่างของจริงกับของปลอมกลายเป็นความท้าทายที่สำคัญสำหรับผู้บริโภค ปัญหานี้ขยายไปสู่อีกหลายโดเมน เช่น บทความข่าว ธุรกรรมบล็อกเชนหรือ NFT ข้อมูลเซ็นเซอร์ IoT และภาพที่ถ่ายด้วยกล้อง ซึ่งเป็นเพียงไม่กี่ตัวอย่างในพื้นที่ที่โมเดล generative สร้างความเสี่ยงต่อการปลอมแปลงเนื้อหาโดยผู้ไม่หวังดี

การถือกำเนิดของ LLM และเทคโนโลยี generative อื่นๆ ทำให้กระบวนการสร้างของปลอมที่น่าเชื่อถือบนเว็บไซต์สำหรับผู้ไม่หวังดีเหล่านี้ง่ายขึ้น เพื่อเป็นการตอบโต้ มีวิสัยทัศน์สำหรับอนาคตที่เว็บเบราว์เซอร์เองสามารถบูรณาการกับมาตรฐานใหม่สำหรับการฝังลายน้ำเนื้อหา การบูรณาการดังกล่าวจะช่วยปกป้องผู้บริโภคโดยการแยกแยะอย่างชัดเจนระหว่างเนื้อหาที่สามารถตรวจสอบได้ว่าเป็นของแท้หรือสร้างโดยมนุษย์ กับเนื้อหาที่สร้างโดย AI อย่างไรก็ตาม การนำวิสัยทศาสตร์นี้ไปปฏิบัติจริงนั้นไม่ง่ายเลย แม้ว่าผู้ให้บริการ LLM คุณภาพสูงจะฝังลายน้ำในผลลัพธ์ของตนเอง ผู้ไม่หวังดีก็สามารถหลีกเลี่ยงปัญหานี้ได้ด้วยการรันโมเดลของตนเองในเครื่อง สร้างเนื้อหาโดยไม่ต้องมีลายน้ำ ข้อเสนอแนะให้เบราว์เซอร์เตือนผู้ใช้เกี่ยวกับเนื้อหาที่ไม่มีลายน้ำว่าอาจไม่น่าเชื่อถือ นั้นเผชิญกับความท้าทายอันยิ่งใหญ่ในการตั้งธงแดงกับเนื้อหาส่วนใหญ่บนอินเทอร์เน็ต เนื่องจากปัจจุบันการฝังลายน้ำยังมีน้อย

**การสร้างอนาคตที่ขับเคลื่อนด้วย AI อย่างปลอดภัยและรับผิดชอบ**
--------------------------------------------------------------

ขณะที่องค์กรต่างๆ ยังคงผสานรวม LLM ทั้งแบบปิดและโอเพ่นซอร์สเข้าไว้ในกระบวนการทางธุรกิจ ความสามารถในการตรวจสอบความสมบูรณ์ของชุดข้อมูลฝึก กระบวนการฝึกและปรับแต่ง และผลลัพธ์ของโมเดล ยิ่งมีความสำคัญมากขึ้นในการลดความเสี่ยง ปกป้อง IP และ PII และรับรองการใช้งานอย่างรับผิดชอบ แม้ว่าโซลูชันที่เสนอข้างต้นจะมีข้อจำกัดของตัวเอง (เช่น ค่าใช้จ่ายและความซับซ้อนในการดำเนินการ) เรามั่นใจว่าการวิจัยด้านการเข้ารหัสล่วงหน้าจะนำไปสู่อินเทอร์เน็ตที่ปลอดภัยยิ่งขึ้น ซึ่งเป็นอินเทอร์เน็ตที่ปกป้องผู้บริโภคจากเนื้อหาที่เป็นการฉ้อโกง และปกป้ององค์กรจากคดีความหรือความเสี่ยงด้านความปลอดภัยที่固有 (gù yǒu - inherent - inherent) อยู่กับการใช้ LLM ของบุคคลภายนอก การเปลี่ยนแปลงจาก LLM แบบทดลองไปเป็นแบบตรวจสอบได้ นับเป็นการเปลี่ยนแปลงที่สำคัญไปสู่ อนาคตของ AI ที่มีความรับผิดชอบและโปร่งใสมากขึ้น ซึ่งความถูกต้องตามหลักฐานของเนื้อหาดิจิทัลนั้นมีความสำคัญสูงสุด และความน่าเชื่อถือของระบบ AI ไม่เพียงแค่ถูกสันนิษฐาน แต่ยังได้รับการพิสูจน์อีกด้วย

---

*Originally published on [Tung_Connext](https://paragraph.com/@tung99/llm)*