คุณเคยสั่ง Siri หรือ Alexa ให้เปิดเพลงโปรด หรือตั้งเตือนไหม? ถ้าเคย นั่นแปลว่าคุณเคยใช้งานเอเจนต์ภาษาธรรมชาติมาแล้ว เอเจนต์ประเภทนี้คือผู้ช่วยเสมือนที่เข้าใจและโต้ตอบกับภาษามนุษย์ได้ จนกลายเป็นส่วนหนึ่งของชีวิตประจำวันตั้งแต่ในโทรศัพท์ไปจนถึงในบ้าน และยังพัฒนาอย่างต่อเนื่องเพื่อให้ตอบโจทย์ได้ลึกขึ้นและเฉพาะบุคคลมากขึ้น
บทความนี้สะท้อนภาพรวมของโลก AI ในช่วงกลางปี 2023 หลังจากนั้นระบบแบบ agentic และ multi-modal ได้ก้าวหน้าไปมาก แต่แก่นของข้อสังเกตในบทความนี้ยังใช้มองแนวโน้มระยะยาวได้อยู่
ในช่วงไม่กี่ปีที่ผ่านมา generative models และ transformers ได้ยกระดับเอเจนต์ภาษาไปอีกขั้น ChatGPT กลายเป็นปรากฏการณ์ระดับโลก ขณะที่บริษัทใหญ่แทบทุกแห่งเร่งส่งผลิตภัณฑ์ในแนวทางเดียวกันออกมา ไม่ว่าจะเป็น Google Bard หรือ Microsoft Bing ในยุคนั้น โมเดลเหล่านี้ตอบกลับได้คล้ายมนุษย์มากขึ้น เข้าใจบริบทได้ดีขึ้น และทำให้การโต้ตอบกับระบบคอมพิวเตอร์เป็นธรรมชาติขึ้นอย่างชัดเจน
บทความนี้จึงอยากชวนมองเส้นทางของเอเจนต์ภาษาธรรมชาติ ตั้งแต่จุดที่มันเป็นเพียงผู้ช่วย ไปจนถึงอนาคตที่มันอาจทำงานร่วมกับมนุษย์ในฐานะผู้ร่วมงานที่มีบทบาทจริงมากขึ้น
generative models อย่าง GPT-4 เปิดพื้นที่ใหม่ให้กับเอเจนต์ภาษาอย่างมาก เพราะมันถูกฝึกจากข้อมูลขนาดใหญ่และสามารถสร้างคำตอบที่ลื่นไหลและต่อเนื่องทางความคิดได้ดีขึ้น จึงเหมาะกับงานที่ต้องอาศัยความยืดหยุ่น เช่น การตอบคำถามลูกค้า การสรุปข้อมูล หรือการช่วยเขียนเนื้อหาเฉพาะบุคคล

ส่วน transformers นั้นคือสถาปัตยกรรม neural network ที่เปลี่ยนเกมของ natural language processing ไปโดยสิ้นเชิง มันออกแบบมาเพื่อประมวลผลข้อมูลที่เป็นลำดับ เช่น คำในประโยค และพิสูจน์ตัวเองแล้วว่ามีประสิทธิภาพมากกับงานอย่างการแปลภาษา การสรุปความ และการทำความเข้าใจข้อความในบริบทกว้าง ๆ สิ่งที่เอเจนต์ภาษาทำได้ในวันนี้ แทบทั้งหมดมีรากสำคัญมาจากความก้าวหน้าของ transformers
เมื่อสองสิ่งนี้มาบรรจบกัน เราจึงเริ่มเห็นทิศทางที่เอเจนต์ภาษาไม่ได้เป็นแค่ระบบถามตอบอีกต่อไป แต่กำลังขยับไปสู่เครื่องมือที่ทำงานเคียงข้างมนุษย์ มันเข้าใจภาษาได้ดีขึ้น สร้างคำตอบได้มีเหตุผลขึ้น และเรียนรู้จากบริบทของการใช้งานได้มากขึ้น
ก้าวถัดไปที่สำคัญคือ multi-modal agents หรือเอเจนต์ที่ไม่ได้รับรู้แค่ข้อความ แต่ยังมองเห็น ได้ยิน หรือโต้ตอบกับโลกจริงได้ด้วย ลองนึกภาพระบบที่ไม่เพียงฟังคำสั่งของเรา แต่ยังอ่านภาพจากกล้อง ข้อมูลจากเซ็นเซอร์ หรือสถานะของอุปกรณ์รอบตัวได้ด้วย แบบนั้นมันจะช่วยงานที่ก่อนหน้านี้ต้องอาศัยคนเข้าไปทำเอง ไม่ว่าจะเป็นงานบ้าน งานผู้ช่วยส่วนตัว หรือการประสานงานในชีวิตประจำวัน
ในด้านสาธารณสุข ศักยภาพของเอเจนต์หลายโมดัลนั้นน่าสนใจมาก มันอาจช่วยติดตามสัญญาณชีพ แจ้งเตือนแพทย์เมื่อเกิดเหตุฉุกเฉิน หรือช่วยงานตรวจติดตามอาการทั่วไปเพื่อให้บุคลากรทางการแพทย์มีเวลาทุ่มกับเคสที่ซับซ้อนกว่าเดิมได้มากขึ้น ในงานช่วยเหลือผู้ประสบภัย มันอาจใช้เพื่อประสานการช่วยเหลือ คัดกรองความเร่งด่วน หรือจัดการทรัพยากรพื้นฐาน เช่น อาหาร น้ำ หรือที่พักพิง
แต่เมื่อระบบมีอำนาจในการรับรู้และกระทำได้มากขึ้น ความเสี่ยงก็เพิ่มขึ้นตามไปด้วย หากเอเจนต์เข้าถึงอุปกรณ์หรือโครงสร้างพื้นฐานจริงได้ มันก็อาจถูกนำไปใช้ในทางที่ผิด เช่น เข้าควบคุมอุปกรณ์ในบ้าน เข้าถึงข้อมูลอ่อนไหว หรือโจมตีระบบของบุคคลและองค์กร
ดังนั้น ยิ่งเอเจนต์ภาษาธรรมชาติพัฒนาเร็วเท่าไร เรายิ่งต้องคิดเรื่องผลกระทบของมันให้รอบด้านมากขึ้น ประโยชน์ของมันมีมหาศาล แต่การใช้งานต้องมาคู่กับความโปร่งใส ความรับผิดชอบ และการออกแบบที่คำนึงถึงมนุษย์เป็นศูนย์กลาง เพราะเทคโนโลยีประเภทนี้อาจส่งผลต่อทั้งการทำงาน ชีวิตประจำวัน และโครงสร้างสังคมโดยตรง
ถ้าเราจะผลักขอบเขตของ AI ต่อไป สิ่งสำคัญไม่ใช่แค่ทำให้มันเก่งขึ้น แต่ต้องทำให้มันรับผิดชอบได้มากขึ้นด้วย เราควรสร้างระบบที่อธิบายได้ ใช้ประโยชน์เพื่อคนส่วนใหญ่ และลดความเสี่ยงเชิงสังคมตั้งแต่ขั้นออกแบบ เป้าหมายระยะยาวไม่ควรเป็นเพียงการสร้างโมเดลที่ทรงพลังกว่าเดิม แต่ควรเป็นการสร้างอนาคตที่มนุษย์และ AI ทำงานร่วมกันได้อย่างมีคุณภาพ
แม้ความก้าวหน้าของ AI จะน่าตื่นเต้นเพียงใด ก็ยังมีคำถามใหญ่ที่ตามมาเสมอ เช่น ถ้าวันหนึ่งโมเดลเหล่านี้พัฒนาไปจนมีความสำนึกรู้ตัวขึ้นมาจริง เราควรมองมันอย่างไร แม้เรื่องนี้ยังอยู่ในขอบเขตของการคาดการณ์ แต่ก็เป็นตัวอย่างของคำถามเชิงจริยธรรมที่สังคมไม่ควรเลี่ยง
ท้ายที่สุดแล้ว ความรับผิดชอบยังอยู่ที่มนุษย์เสมอ เราเป็นผู้กำหนดว่าเทคโนโลยีเหล่านี้จะถูกนำไปใช้เพื่อเสริมศักยภาพของผู้คน หรือกลายเป็นแหล่งความเสี่ยงใหม่ของโลก