ความสำคัญของระบบ LLM ที่ตรวจสอบได้

ความสำคัญของระบบ LLM ที่ตรวจสอบได้

เนื้อหาต่อไปนี้จะพูดถึงแนวคิดของ Large Language Model (LLM) ที่ตรวจสอบได้ ซึ่งมีความสำคัญมากขึ้นสำหรับองค์กรต่างๆ

บริบท

ในปี 2024 องค์กรต่างๆ เริ่มเปลี่ยนจากความตื่นเต้นกับเทคโนโลยี ChatGPT ในช่วงปลายปี 2022 มาสู่การใช้งานจริง
ปัจจุบัน องค์กรธุรกิจมุ่งเน้นการสร้างแอปพลิเคชัน AI ระดับการผลิต ที่ใช้ประโยชน์จากข้อมูลภายในองค์กรสำหรับงานต่างๆ เช่น การดึงข้อมูลมาช่วยสร้างเนื้อหา (RAG) หรือแม้แต่การฝึกหรือปรับแต่ง LLM เอง
การเปลี่ยนแปลงนี้สะท้อนถึงการบูรณาการ AI เข้ากับกระบวนการทำงานหลักขององค์กรอย่างลึกซึ้งมากขึ้น ซึ่งก้าวข้าม "จุดสูงสุดของความคาดหวังที่ไม่สมจริง" (Peak of Inflated Expectations) ตามที่ระบุไว้ในกราฟแนวโน้มเทคโนโลยีที่กำลังเกิดใหม่ประจำปี 2023 (2023 Hype Cycle for Emerging Technologies)

กราฟ 0: Gartner Hype Cycle for Emerging Technologies

ในกราฟนี้ ช่วงที่ความคาดหวังสูงสุด เราจะเริ่มเห็นผลกระทบเชิงลบจากการทดลองอย่างรวดเร็วขององค์กรต่างๆ ในกรณีของ LLM และ AI สร้างสรรค์ มีคดีความฟ้องร้องบริษัท AI ขนาดใหญ่ในอุตสาหกรรมฟ้องร้องกันเองเกิดขึ้นหลายคดี แค่แบรนด์น่าเชื่อถือ (Brand Trust) อย่างเดียวไม่พอแล้ว ผู้ฟ้องร้องเรียกร้องคำตอบเกี่ยวกับกระบวนการที่สนับสนุนการสร้างและใช้งาน LLM ที่เป็นกรรมสิทธิ์ในปัจจุบัน:

ชุดข้อมูลอะไรที่ใช้ในการฝึกหรือปรับแต่ง LLM ใดชุดหนึ่ง? ชุดข้อมูลเหล่านี้มีเนื้อหาที่มีลิขสิทธิ์หรือทรัพย์สินทางปัญญา (IP) ที่ได้รับการคุ้มครองหรือไม่?
มีการนำข้อมูลที่ละเอียดอ่อน เช่น ข้อมูลประจำตัวบุคคล (PII) ออกก่อนการฝึกหรือก่อนการสร้างฐานข้อมูลค้นหาแบบเวกเตอร์เพื่อดึงข้อมูลมาใช้ในคำสั่งป้อนข้อมูลหรือไม่?
คำขอของผู้ใช้ถูกประมวลผลด้วยชุดคำสั่ง (Binaries) และน้ำหนัก (Weights) ของ LLM ที่ถูกต้องหรือไม่?
เมื่อใช้บริการ LLM ที่โฮสต์โดยบุคคลภายนอก เราสามารถไว้วางใจได้หรือไม่ว่าบุคคลภายนอกไม่ได้ดัดแปลงคำตอบแต่อย่างใด?
มีการส่งข้อมูลที่ละเอียดอ่อนที่เป็นกรรมสิทธิ์โดยไม่ตั้งใจไปยังบริการ LLM ของบุคคลภายนอกเนื่องจากกระบวนการ RAG หรือไม่?
เราจะกำหนดกระบวนการจัดการเพื่อควบคุมและอนุมัติคำสั่งป้อนข้อมูลในฐานข้อมูลโค้ดหรือกระบวนการของเอเจนต์ AI ที่ใช้ชุดข้อมูลภายในองค์กรได้อย่างไร?
เราจะรับรองเนื้อหาชิ้นหนึ่งว่าเป็นของแท้ที่มาจากแหล่งที่มาขององค์กรและตรวจสอบที่มา (เช่น สำนักพิมพ์ข่าว รายงานทางการเงิน หรือประวัติสุขภาพส่วนบุคคล) ได้อย่างไร? ลายน้ำ (Watermark) ทางเข้ารหัสแบบใดที่สามารถใช้ประโยชน์กับเนื้อหาตั้งแต่ต้นกำเนิดได้?

ผลของการแข่งขันและแนวคิด LLM ที่ตรวจสอบได้

ผลกระทบจากการแข่งขัน

บริษัทต่างๆ มุ่งเน้นที่การลดขั้นตอนการตรวจสอบเพื่อให้ผลิตภัณฑ์หรือแนวคิดออกสู่ตลาดได้เร็วขึ้น (Time-to-POC) ส่งผลให้หลายครั้ง บริษัทเองก็ไม่ทราบคำตอบของคำถามเกี่ยวกับความน่าเชื่อถือของข้อมูล ในขณะเดียวกัน คดีความที่เกิดขึ้นจะทำให้สาธารณชนตระหนักถึงความสำคัญของการตรวจสอบ/ประเมินผล (Verifiability/Auditability) เพื่อแก้ไขปัญหาเกี่ยวกับคำถามที่ยังไม่ได้รับคำตอบเกี่ยวกับ LLM ที่เป็นกรรมสิทธิ์

แนวคิด LLM ที่ตรวจสอบได้

แนวคิดนี้เป็นหัวใจสำคัญในการใช้งาน LLM ขององค์กรขนาดใหญ่ในอนาคต LLM ที่ตรวจสอบได้ หมายถึง ระบบ LLM ที่กระบวนการสร้างและใช้งาน สามารถพิสูจน์ทางคณิตศาสตร์หรือทำซ้ำได้

ข้อดีของ LLM ที่ตรวจสอบได้

ความน่าเชื่อถือ: ผู้ใช้และหน่วยงานกำกับดูแล สามารถเข้าใจแหล่งที่มาและวิธีการที่ LLM ใช้ในการสร้างคำตอบได้ดียิ่งขึ้น ช่วยให้องค์กรสามารถนำ LLM ไปใช้ในกรณีการใช้งานใหม่ๆ ที่เคยหลีกเลี่ยงเนื่องจากความเสี่ยงด้านความน่าเชื่อถือ
ความแม่นยำและความน่าเชื่อถือที่เพิ่มขึ้น: ด้วยความสามารถในการตรวจสอบ ผู้ใช้สามารถตรวจสอบข้อมูลที่ LLM ให้กับแหล่งที่มาหรือข้อมูลอ้างอิงเดิมได้ ซึ่งจะช่วยเพิ่มความแม่นยำและความน่าเชื่อถือของข้อมูลที่ได้รับ เนื่องจากผลลัพธ์ของโมเดลมาจากเส้นทางข้อมูลที่ติดตามได้ แทนที่จะเป็นข้อมูลที่ปิดบัง
การปรับแต่งและการปรับปรุง: การเข้าใจกระบวนการที่ LLM ใช้ในการสรุปผลลัพธ์ ช่วยให้นักพัฒนาและนักวิจัยสามารถปรับปรุงโมเดลได้ดียิ่งขึ้น นอกจากนี้ ยังช่วยให้เข้าใจกระบวนการคิดของโมเดล ซึ่งเป็นสิ่งสำคัญสำหรับการแก้ไขจุดบกพร่องและยกระดับประสิทธิภาพ
ความแท้จริงของเนื้อหา: การพิสูจน์ว่าเนื้อหาถูกสร้างขึ้นโดยมนุษย์ หรือได้รับการรับรองความแท้จริงจากแหล่งที่มาที่เชื่อถือได้

รูปที่ 1: การสร้างระบบ LLM ที่ตรวจสอบได้แบบครบวงจร: เริ่มต้นด้วยชุดข้อมูลฝึกที่ปลอดภัยและผ่านการตรวจสอบ ไปจนถึงการพิสูจน์การใช้งานโมเดลที่ถูกต้องและการใส่ลายน้ำในเนื้อหาที่สร้างขึ้น

เนื้อหาที่เหลือในรายงานนี้จะมุ่งเน้นไปที่การทำความเข้าใจกระบวนการเหล่านี้และโซลูชันที่มีอยู่เพื่อให้สามารถตรวจสอบได้ในปัจจุบัน

การใช้งาน LLM แบบปิดเทียบกับเฟรมเวิร์กโอเพ่นซอร์ส

ในช่วงไม่กี่ปีที่ผ่านมา ความก้าวหน้าส่วนใหญ่ของปัญญาประดิษฐ์ (AI) สร้างสรรค์ มาจาก LLM แบบปิดที่พัฒนาโดยองค์กรเฉพาะทาง เช่น OpenAI, Anthropic เป็นต้น LLM เหล่านี้ได้รับการออกแบบให้มีความสามารถหลากหลาย เพื่อรองรับผู้ใช้จำนวนมากที่สุดเท่าที่จะเป็นไปได้ ผู้ใช้สามารถใช้ LLM เหล่านี้สำหรับกรณีการใช้งานเกือบทุกประเภท

อย่างไรก็ตาม ลักษณะทั่วไปนี้ทำให้ต้นทุนการพัฒนาโมเดลเหล่านี้สูงมาก (Sam Altman ซีอีโอของ OpenAI ประมาณการว่ารุ่น GPT-4 มีค่าใช้จ่ายในการพัฒนากว่า 100 ล้านดอลลาร์สหรัฐ) ด้วยการ委託 (wēi tuō - การมอบหมาย) การพัฒนาให้กับบุคคลภายนอกที่เป็นผู้เชี่ยวชาญ องค์กรต่างๆ สามารถหลีกเลี่ยงค่าใช้จ่ายด้านการวิจัยและพัฒนา (R&D) ที่สูงเหล่านี้ และชำระเงินเฉพาะค่าใช้จ่ายในการใช้งาน LLM (เรียกใช้งาน) แม้ว่าแนวทางนี้จะน่าดึงดูดสำหรับกรณีการใช้งานส่วนใหญ่ในปัจจุบัน แต่ก็ยังคงต้องอาศัยความไว้วางใจใน "แบรนด์" ของผู้ให้บริการ LLM และเชื่อใจว่าพวกเขาพัฒนาโมเดลอย่างรับผิดชอบ

ทางเลือกแทนการใช้โมเดล LLM แบบปิดคือ การใช้ประโยชน์จากเฟรมเวิร์กโอเพ่นซอร์สที่มีอยู่แล้วและปรับแต่งให้เหมาะสมกับความต้องการเฉพาะขององค์กร แม้ว่าจะสามารถใช้งานโมเดลโอเพ่นซอร์สได้ฟรี แต่การใช้วิธีนี้ต้องใช้เวลานานและต้องมีทีมวิศวกรผู้เชี่ยวชาญ นอกจากนี้ ประสิทธิภาพของโมเดลโอเพ่นซอร์สโดยทั่วไปมักจะต่ำกว่ารุ่นแบบปิด แต่ช่องว่างด้านประสิทธิภาพนี้อาจจะลดลงเรื่อยๆ

องค์กรที่เลือกปรับแต่ง LLM โอเพ่นซอร์สจะมีการควบคุมการใช้งานทั้งหมด องค์กรสามารถดูแลชุดข้อมูลสำหรับการฝึกหรือปรับแต่งได้อย่างเต็มที่ การไม่มีบุคคลภายนอกเข้ามาเกี่ยวข้อง ยังช่วยให้มั่นใจว่าองค์กรสามารถควบคุมข้อมูลทั้งหมดบนเซิร์ฟเวอร์ของตนเองได้ตลอดเวลา และสามารถกำหนดการควบคุมใดๆ เพื่อป้องกันการชุดข้อมูล เมื่อดำเนินการตามคำขอของ LLM องค์กรสามารถมั่นใจได้ว่าคำขอเหล่านั้นทำงานอย่างถูกต้อง เนื่องจากองค์กรควบคุมทุกส่วนของระบบ LLM

การตรวจสอบชุดข้อมูล การฝึก และการปรับแต่ง

ความสมบูรณ์ของชุดข้อมูล

ผู้ใช้งาน LLM ภายในองค์กร มีความต้องการที่แตกต่างจากผู้ใช้งานทั่วไปที่เพียงแค่ต้องการถาม LLM เพื่อสร้างสูตรอาหารเย็นหรือตอบคำถามเกี่ยวกับประวัติศาสตร์ยุคกลาง ผู้ใช้งานองค์กรมีคำขอที่ซับซ้อนกว่า โดยอาศัยแหล่งข้อมูลภายนอกที่หลากหลาย เช่น วารสารวิชาการ รายงานทางการเงิน (เช่น จาก Goldman Sachs) หรือการเชื่อมต่อข้อมูลต้นทางจากคลังข้อมูลขององค์กร เพื่อให้บริบทเพิ่มเติมแก่ LLM ที่เป็นกรรมสิทธิ์

องค์กรอาจทำข้อตกลงส่วนตัวกับผู้ให้บริการ LLM เพื่อปรับแต่งโมเดลด้วยข้อมูลที่เป็นกรรมสิทธิ์ ในทำนองเดียวกัน เทคนิคที่ได้รับความนิยมมากขึ้นคือ การใช้ RAG (Response at a Glance) เมื่อทำการขอใช้ข้อมูล (inference request) วิธีนี้ช่วยให้องค์กรสามารถเตรียมข้อมูลเบื้องต้น (Prime) ให้กับ LLM ทั่วไปด้วยข้อมูลเพิ่มเติมเมื่อส่งคำขอ

ภายใต้สถานการณ์ทั้งสองนี้ องค์กรจำเป็นต้องไว้วางใจผู้ให้บริการ LLM บุคคลภายนอกในการรักษาความปลอดภัยของชุดข้อมูลเสริม ซึ่งรวมถึงการรับรองว่า:

บุคคลภายนอกไม่ได้เพิ่มหรือลบรายการใดๆ ออกจากชุดข้อมูลบนเซิร์ฟเวอร์ของตน
ชุดข้อมูลไม่ได้ถูกดัดแปลงระหว่างการส่งจากเซิร์ฟเวอร์ขององค์กรไปยังเซิร์ฟเวอร์ของบุคคลภายนอก
ชุดข้อมูลเสริมยังคงเป็นข้อมูลส่วนตัวและแยกจากผู้ใช้รายอื่นของผู้ให้บริการ LLM

การฝึกและการปรับแต่ง

สำหรับการปรับแต่ง สิ่งสำคัญที่ควรทราบคือ ความสนใจในการปรับแต่งภายในองค์กรลดลง และไม่น่าแปลกใจที่ผู้คนให้ความสนใจกับ RAG กับฐานข้อมูลค้นหาแบบเวกเตอร์มากขึ้น หนึ่งในเหตุผลที่เป็นไปได้คือ อุตสาหกรรมนี้พัฒนาอย่างรวดเร็ว บ่อยครั้งที่องค์กรปรับแต่งโมเดลที่เป็นกรรมสิทธิ์หรือโอเพ่นซอร์สเสร็จสิ้น ก็จะมีรุ่นโมเดลใหม่หรือทางเลือกที่ดีกว่าออกวางจำหน่าย

ภูมิทัศน์ของการฝึก LLM แบบปิดกำลังเผชิญกับความท้าทายทางกฎหมายมากขึ้น ดังที่เห็นได้จากการฟ้องร้องมูลค่าหลายพันล้านดอลลาร์เมื่อเร็วๆ นี้ องค์กรหนึ่งฟ้องร้องผู้ให้บริการ LLM ชั้นนำ โดยอ้างว่าผู้ให้บริการนำทรัพย์สินทางปัญญา (IP) ที่ได้รับการคุ้มครองขององค์กรไปใช้ในโมเดลของผู้ให้บริการ คดีความดังกล่าวเน้นย้ำถึงความจำเป็นที่เกิดขึ้นใหม่ที่อุตสาหกรรมจะต้องกำหนดมาตรฐานเพื่อให้แน่ใจว่า LLM ถูกพัฒนาอย่างรับผิดชอบ ทั้งเพื่อรับมือกับความซับซ้อนทางกฎหมายและเพื่อรักษาความไว้วางใจของผู้บริโภค

เพื่อตอบสนองต่อความท้าทายเหล่านี้ โซลูชันที่สร้างสรรค์อย่าง Space and Time กำลังได้รับความสนใจ

Space and Time เป็นฐานข้อมูลประเภทใหม่ที่ใช้ประโยชน์จากการพิสูจน์แบบความรู้เป็นศูนย์ (ZK) เพื่อรับประกันทางคณิตศาสตร์ว่าชุดข้อมูลขนาดใหญ่ไม่ได้ถูกเปลี่ยนแปลง นอกจากนี้ยังยืนยันว่าคิวรีที่ดึงข้อมูลย่อยชุดนี้ออกมาไม่ได้ถูกดัดแปลง ด้วยการใช้การรับรองทางคณิตศาสตร์ของ Space and Time กับชุดข้อมูลภายในโมเดลเองระหว่างการฝึก องค์กรสามารถพิสูจน์ได้ว่าชุดข้อมูลที่ป้องกันการเปลี่ยนแปลงใน Space and Time คือชุดข้อมูลเดียวกันที่ใช้ในการฝึกโมเดลจริง และไม่มีเนื้อหาใดถูกเพิ่มหรือลบออกไปตั้งแต่ตอนนั้น เทคโนโลยีนี้ช่วยให้นักกฎหมายหรือผู้ตรวจสอบสามารถดำเนินการตรวจสอบเนื้อหาที่ใช้ในการฝึก โดยใช้ทั้งการดึงข้อมูลแบบ SQL และการค้นหาแบบเวกเตอร์ ผู้ตรวจสอบสามารถเรียกใช้คิวรีที่พิสูจน์ด้วย ZK เพื่อดึงเพื่อนบ้านที่ใกล้เคียงที่สุดของการฝังแบบเวกเตอร์ซึ่งอาจตรงกับ IP ที่เป็นกรรมสิทธิ์ที่อ้างในคดีความ หากการฝังดังกล่าวไม่มีอยู่หรือไม่ตรงกับคำกล่าวอ้าง ย่อมช่วยเสริมการป้องกันของผู้

ผลลัพธ์ของโมเดล

การโต้ตอบกับ LLM แบบปิด มีลักษณะคล้ายกับการโต้ตอบกับ "กล่องดำ" ส่วนประกอบสำคัญต่างๆ เช่น ชุดข้อมูลฝึก ไบนารีของโมเดล น้ำหนัก และอัลกอริทึม จะถูกปิดบังเพื่อปกป้องทรัพย์สินทางปัญญาและรักษาความลับทางการค้า ความคลุมเครือนี้ทำให้ผู้ใช้ไม่สามารถยืนยันได้ว่า ผลลัพธ์ที่ได้รับนั้น เกิดขึ้นจากข้อมูลป้อนของพวกเขาจริงๆ นอกจากนี้ ยังมีความเสี่ยงที่ผู้ให้บริการแบบปิดอาจเลือกใช้โมเดลที่ราคาถูกกว่าเพื่อประมวลผลคำขอ ซึ่งอาจส่งผลต่อคุณภาพของประสบการณ์ผู้ใช้

ปัจจุบัน ยังไม่มีวิธีการเข้ารหัสที่ใช้งานได้จริงเพื่อตรวจสอบความถูกต้องของผลลัพธ์ของ LLM อย่างแม่นยำ แม้ว่าจะมีบริษัทสตาร์ทอัปจำนวนหนึ่งกำลังเริ่มต้นวิจัยและพัฒนาในด้านนี้ (โดยเฉพาะอย่างยิ่งในแวดวง Web3) แม้ว่าความก้าวหน้าในอนาคตของการเข้ารหัสจะช่วยให้สามารถตรวจสอบผลลัพธ์ของ LLM ได้โดยไม่ต้องใช้เวลาพิสูจน์นานหนึ่งสัปดาห์ (ตามเกณฑ์มาตรฐานของเครื่องมือการเรียนรู้ของเครื่องแบบความรู้เป็นศูนย์ (zkML) ในปัจจุบัน) การนำเทคโนโลยีดังกล่าวไปใช้อาจมีราคาแพงเกินไป ทำให้การใช้งานของมันถูกจำกัดไว้สำหรับกรณีพิเศษ للغاية ( tè bพิเศษ qī lái - พิเศษ للغاية - สำหรับกรณีพิเศษมากๆ) ที่มีเวลาพิสูจน์แบบออฟไลน์

ดังนั้น องค์กรที่ใช้ประโยชน์จาก LLM แบบปิดของบุคคลภายนอกจำเป็นต้องไว้วางใจผู้ให้บริการของตนเองเป็นอย่างมาก โดยอาศัยผู้ให้บริการในการประมวลผลคำขอโดยใช้โมเดลที่ถูกต้อง (ไม่ใช่รุ่นที่เล็กกว่าและราคาถูกกว่า) ด้วยน้ำหนัก/พารามิเตอร์ที่ถูกต้องและชุดข้อมูลฝึกที่ถูกต้อง

การทำความสะอาดกระบวนการ RAG

เมื่อองค์กรต่างๆ นำฐานข้อมูลค้นหาแบบเวกเตอร์และ LLM เข้ามาผสานรวมกับการดำเนินงานมากขึ้น นักพัฒนาจำนวนมากพบว่าตัวเองกำลังเผชิญกับสิ่งที่ไม่คุ้นเคย ซึ่งการขาดประสบการณ์เหล่านี้นำไปสู่การละเลยด้านความปลอดภัย ตัวอย่างข้อผิดพลาดทั่วไปที่นักพัฒนาทำโดยไม่ได้ตั้งใจ คือ การถ่ายโอนข้อมูลที่เป็นกรรมสิทธิ์หรือข้อมูลประจำตัวบุคคล (PII) ที่ละเอียดอ่อนจากคลังข้อมูลหรือที่เก็บข้อมูลแบบอ็อบเจ็กต์ที่ปลอดภัยและผ่านมาตรฐาน SOC2 ไปยังฐานข้อมูลค้นหาแบบเวกเตอร์เพื่อใช้กับกระบวนการ RAG

อุบัติเหตุเช่นนี้อาจส่งผลให้มีการแชร์ IP ที่ได้รับการคุ้มครองหรือข้อมูลประจำตัวบุคคล (PII) ของลูกค้ากับผู้ให้บริการ LLM บุคคลภายนอกโดยไม่ได้ตั้งใจผ่านทางอินเทอร์เน็ต ซึ่งถือเป็นการละเมิดข้อกำหนด SOC2 และก่อให้เกิดความเสี่ยงด้านความปลอดภัยที่สำคัญ

เพื่อรับมือกับความท้าทายเหล่านี้ เป็นสิ่งสำคัญที่องค์กรต่างๆ จะต้องกำหนดกระบวนการที่เข้มงวดเพื่อรับรองว่านักพัฒนาได้ลบข้อมูล IP และ PII ใดๆ ออกจากชุดข้อมูลก่อนที่จะนำไปผสานเข้ากับฐานข้อมูลค้นหาแบบเวกเตอร์สำหรับกระบวนการ RAG

สำหรับอนาคต เราคาดการณ์ว่าจะมีความจำเป็นสำหรับเครื่องมือเข้ารหัสที่สร้างสรรค์ ซึ่งสามารถตรวจสอบและ "พิสูจน์" ว่าไม่มีเนื้อหาที่ละเอียดอ่อนภายในฐานข้อมูลค้นหาแบบเวกเตอร์ หรือตรวจจับและทำความสะอาดเนื้อหาเหล่านั้นโดยอัตโนมัติ กลไกดังกล่าวจะมีบทบาทสำคัญในการป้องกันการละเมิดข้อมูลที่เกิดขึ้นโดยไม่ได้ตั้งใจ ป้องกันผู้ให้บริการบุคคลภายนอกไม่ให้เข้าถึงเนื้อหาที่ไม่ควรเข้าถึง และส่งเสริมสภาพแวดล้อมที่ปลอดภัยสำหรับการใช้ประโยชน์จาก LLM ในองค์กร

พิสูจน์ที่มาและความแท้จริงของเนื้อหา

ในที่สุด เมื่อมีการพัฒนา LLM ที่ตรวจสอบได้และใช้งานอย่างปลอดภัย พร้อมทั้งมีการทำความสะอาดเนื้อหาที่ละเอียดอ่อนหรือดัดแปลงแล้ว ความต้องการในการฝังลายน้ำทางเข้ารหัส (cryptographic watermarking) ในเนื้อหาที่สร้างขึ้น ซึ่งเป็นผลลัพธ์ของ LLM และโมเดล generative อื่นๆ จะเพิ่มมากขึ้น ในยุคที่อินเทอร์เน็ตเต็มไปด้วยเนื้อหาที่สร้างโดย AI การแยกแยะระหว่างของจริงกับของปลอมกลายเป็นความท้าทายที่สำคัญสำหรับผู้บริโภค ปัญหานี้ขยายไปสู่อีกหลายโดเมน เช่น บทความข่าว ธุรกรรมบล็อกเชนหรือ NFT ข้อมูลเซ็นเซอร์ IoT และภาพที่ถ่ายด้วยกล้อง ซึ่งเป็นเพียงไม่กี่ตัวอย่างในพื้นที่ที่โมเดล generative สร้างความเสี่ยงต่อการปลอมแปลงเนื้อหาโดยผู้ไม่หวังดี

การถือกำเนิดของ LLM และเทคโนโลยี generative อื่นๆ ทำให้กระบวนการสร้างของปลอมที่น่าเชื่อถือบนเว็บไซต์สำหรับผู้ไม่หวังดีเหล่านี้ง่ายขึ้น เพื่อเป็นการตอบโต้ มีวิสัยทัศน์สำหรับอนาคตที่เว็บเบราว์เซอร์เองสามารถบูรณาการกับมาตรฐานใหม่สำหรับการฝังลายน้ำเนื้อหา การบูรณาการดังกล่าวจะช่วยปกป้องผู้บริโภคโดยการแยกแยะอย่างชัดเจนระหว่างเนื้อหาที่สามารถตรวจสอบได้ว่าเป็นของแท้หรือสร้างโดยมนุษย์ กับเนื้อหาที่สร้างโดย AI อย่างไรก็ตาม การนำวิสัยทศาสตร์นี้ไปปฏิบัติจริงนั้นไม่ง่ายเลย แม้ว่าผู้ให้บริการ LLM คุณภาพสูงจะฝังลายน้ำในผลลัพธ์ของตนเอง ผู้ไม่หวังดีก็สามารถหลีกเลี่ยงปัญหานี้ได้ด้วยการรันโมเดลของตนเองในเครื่อง สร้างเนื้อหาโดยไม่ต้องมีลายน้ำ ข้อเสนอแนะให้เบราว์เซอร์เตือนผู้ใช้เกี่ยวกับเนื้อหาที่ไม่มีลายน้ำว่าอาจไม่น่าเชื่อถือ นั้นเผชิญกับความท้าทายอันยิ่งใหญ่ในการตั้งธงแดงกับเนื้อหาส่วนใหญ่บนอินเทอร์เน็ต เนื่องจากปัจจุบันการฝังลายน้ำยังมีน้อย

การสร้างอนาคตที่ขับเคลื่อนด้วย AI อย่างปลอดภัยและรับผิดชอบ

ขณะที่องค์กรต่างๆ ยังคงผสานรวม LLM ทั้งแบบปิดและโอเพ่นซอร์สเข้าไว้ในกระบวนการทางธุรกิจ ความสามารถในการตรวจสอบความสมบูรณ์ของชุดข้อมูลฝึก กระบวนการฝึกและปรับแต่ง และผลลัพธ์ของโมเดล ยิ่งมีความสำคัญมากขึ้นในการลดความเสี่ยง ปกป้อง IP และ PII และรับรองการใช้งานอย่างรับผิดชอบ แม้ว่าโซลูชันที่เสนอข้างต้นจะมีข้อจำกัดของตัวเอง (เช่น ค่าใช้จ่ายและความซับซ้อนในการดำเนินการ) เรามั่นใจว่าการวิจัยด้านการเข้ารหัสล่วงหน้าจะนำไปสู่อินเทอร์เน็ตที่ปลอดภัยยิ่งขึ้น ซึ่งเป็นอินเทอร์เน็ตที่ปกป้องผู้บริโภคจากเนื้อหาที่เป็นการฉ้อโกง และปกป้ององค์กรจากคดีความหรือความเสี่ยงด้านความปลอดภัยที่固有 (gù yǒu - inherent - inherent) อยู่กับการใช้ LLM ของบุคคลภายนอก การเปลี่ยนแปลงจาก LLM แบบทดลองไปเป็นแบบตรวจสอบได้ นับเป็นการเปลี่ยนแปลงที่สำคัญไปสู่ อนาคตของ AI ที่มีความรับผิดชอบและโปร่งใสมากขึ้น ซึ่งความถูกต้องตามหลักฐานของเนื้อหาดิจิทัลนั้นมีความสำคัญสูงสุด และความน่าเชื่อถือของระบบ AI ไม่เพียงแค่ถูกสันนิษฐาน แต่ยังได้รับการพิสูจน์อีกด้วย

Tung_Connext