EngineeringJune 17, 20263 min read

วิศวกรรม AI Agent ที่สร้างและส่งมอบซอฟต์แวร์ได้จริง: เจาะลึกสถาปัตยกรรมของ Jobbit

เจาะลึกเชิงวิศวกรรมในการสร้าง AI agent ที่ส่งมอบซอฟต์แวร์ได้จริง ทั้ง multi-agent orchestration, การเรียกใช้ tool, การรันโค้ดแบบ sandbox, RAG, evals และการ deploy บน edge จากทีม Jobbit และ Jobbit Labs

Read in:

"AI agent" ส่วนใหญ่หยุดอยู่แค่การสนทนา มันตอบคำถาม แล้วจากนั้นก็ปล่อยให้คนเป็นคนลงมือทำงานต่อ แต่โจทย์ทางวิศวกรรมที่น่าสนใจ — และยากจริง ๆ — คือการสร้าง agent ที่ ลงมือทำงานเอง: เขียนแอปพลิเคชันแบบ full-stack รันมันขึ้นมา แก้ความผิดพลาดของตัวเอง แล้ว deploy ขึ้น production ได้ นี่คือโจทย์ที่ทีมวิศวกรรมของ Jobbit และฝ่าย R&D อย่าง Jobbit Labs (jobbitlabs.com) ลงมือทำกันทุกวัน

บทความนี้คือการเจาะลึกเชิงวิศวกรรมถึงรูปแบบเบื้องหลัง AI agent ที่สร้างและส่งมอบซอฟต์แวร์ — ทั้งสถาปัตยกรรม รูปแบบความล้มเหลว และบทเรียนที่ได้ เราตั้งใจให้เนื้อหานี้ใช้งานได้จริงและไม่ผูกกับผู้ให้บริการรายใดเป็นพิเศษ ไม่ว่าคุณจะสร้างอยู่บน LLM, multi-agent orchestration, tool calling หรือ RAG หลักการเหล่านี้นำไปใช้ต่อได้ทั้งหมด

แชตบอตตอบ ส่วน agent ลงมือทำ

การก้าวจากแชตบอตไปสู่ agent คือการก้าวจากการสร้างข้อความ ไปสู่การ ลงมือทำสิ่งต่าง ๆ ในโลกจริง agent ต้องวางแผนงานที่มีหลายขั้นตอน เรียกใช้ tool อ่านผลลัพธ์ แล้วตัดสินใจว่าจะทำอะไรต่อ — จากนั้นวนซ้ำจนกว่าจะบรรลุเป้าหมาย ลูปนี้ซึ่งมักเรียกกันว่า agentic loop (หรือลูปแบบคิด–ลงมือ) คือหัวใจของทั้งระบบ

ความท้าทายทางวิศวกรรมคือทุกขั้นตอนล้มเหลวได้หมด โมเดลอาจ hallucinate เรียกฟังก์ชันที่ไม่มีอยู่จริง เขียนโค้ดที่คอมไพล์ไม่ผ่าน อ่านผลลัพธ์จาก tool ผิด หรือค่อย ๆ หลุดออกจากงานไปเงียบ ๆ แชตบอตที่ผิดก็แค่สร้างประโยคที่ไม่ดี แต่ agent ที่ผิดสร้าง deploy ที่พังได้ ความน่าเชื่อถือ (reliability) ต่างหาก ไม่ใช่ความสามารถดิบ ๆ ที่เป็นงานวิศวกรรมตัวจริง

สถาปัตยกรรม: planner, executor, tools

แพลตฟอร์ม agent ที่แข็งแรงจะแยก การวางแผน ออกจาก การลงมือทำ ชั้นวางแผน (planning layer) จะย่อยเป้าหมาย ("สร้างแอปจองคิวพร้อมระบบชำระเงิน") ออกเป็นขั้นตอนที่เป็นรูปธรรม ส่วนชั้นลงมือทำ (execution layer) จะทำแต่ละขั้นตอนนั้นด้วย tool การแยกความรับผิดชอบสองส่วนนี้ให้ชัดเจนทำให้ระบบ debug ได้ คุณตรวจสอบแผนได้แยกขาดจากวิธีที่แต่ละขั้นถูกรันจริง

Tool use คือจุดที่ agent ได้มีมือไว้ทำงาน tool คือฟังก์ชันที่นิยามไว้ชัดเจนซึ่งโมเดลเรียกใช้ได้ — อ่านไฟล์ เขียนโค้ด รัน build, query ฐานข้อมูล, deploy วินัยทางวิศวกรรมตรงนี้คือการออกแบบ interface: tool แต่ละตัวต้องมี schema ที่กระชับและไม่กำกวม มีการ validate input และให้ output แบบมีโครงสร้างที่โมเดลพาร์สได้อย่างน่าเชื่อถือ interface ของ tool ที่หลวมเป็นต้นเหตุอันดับต้น ๆ ของความล้มเหลวของ agent ส่วน interface ที่กระชับคือชัยชนะด้านความน่าเชื่อถือที่ราคาถูกที่สุดที่หาได้

สำหรับงานซับซ้อน agent ตัวเดียวมักเปิดทางให้ multi-agent orchestration — agent เฉพาะทางที่วางแผน เขียนโค้ด รีวิว และตรวจสอบ โดยมี orchestrator คอยประสานงาน การย่อยงานทำให้ได้ความจดจ่อ (agent แต่ละตัวมีหน้าที่แคบและ context แคบ) และความขนาน (subtask ที่เป็นอิสระต่อกันรันพร้อมกันได้) สิ่งที่ต้องแลกคือ overhead ในการประสานงาน ชั้น orchestration จึงต้อง deterministic เท่าที่จะทำได้ และยืดหยุ่นทนทานในจุดที่ทำไม่ได้

รันและ deploy โค้ดจริงอย่างปลอดภัย

agent ที่เขียนซอฟต์แวร์ต้อง รัน ซอฟต์แวร์นั้นด้วย — และการรันโค้ดที่โมเดลสร้างขึ้นมานั้นเป็นปัญหาด้านความปลอดภัยก่อนจะเป็นอย่างอื่น คำตอบคือ sandboxed code execution: โค้ดที่ไว้ใจไม่ได้จะรันในสภาพแวดล้อมที่ถูกแยกออกมา มีทรัพยากรจำกัด เข้าถึง secret ไม่ได้ และมีขอบเขตเครือข่ายที่รัดกุม sandbox คือสิ่งที่ทำให้ agent วนแก้ได้ — คอมไพล์ ทดสอบ อ่าน error แก้ — โดยไม่ทำให้แพลตฟอร์มหรือผู้ใช้คนอื่นตกอยู่ในความเสี่ยง

การ deploy คือขั้นตอนที่เปลี่ยนแอปที่ถูกสร้างขึ้นให้กลายเป็นผลิตภัณฑ์ AI app builder ที่แท้จริงต้องรับผิดชอบเส้นทางตั้งแต่โค้ดไปจนถึง URL ที่ใช้งานได้จริง: build, จัดเตรียม hosting, ผูกโดเมน, จัดการ TLS การออกแบบส่วนนี้ให้ดีหมายถึงการทำให้ deploy ทำซ้ำได้และย้อนกลับได้ — input เดิมให้ผลลัพธ์เดิม และ deploy ที่ผิดพลาดสามารถ rollback ได้ ความเป็น idempotent และ rollback ที่สะอาดอาจไม่ดูหวือหวา แต่มันคือสิ่งที่ทำให้การ deploy แบบอัตโนมัติเชื่อถือได้

Context, memory และ retrieval

LLM มี context จำกัด และโปรเจกต์จริงไม่มีทางยัดลงไปได้หมด ดังนั้นระบบ agent ที่จริงจังจึงทุ่มลงทุนกับ context engineering: การตัดสินใจว่าโมเดลควรเห็นอะไรในแต่ละขั้นตอน การยัดทุกอย่างลงไปใน prompt ทั้งแพงและให้ผลตรงข้าม — context ที่ไม่เกี่ยวข้องมากเกินไปจะบั่นทอนการให้เหตุผลของโมเดล

นี่คือจุดที่ RAG (retrieval-augmented generation) และ vector database พิสูจน์คุณค่าของมัน แทนที่จะทิ้งทั้ง codebase ลงไปใน context ระบบจะดึงเฉพาะไฟล์ สัญลักษณ์ หรือเอกสารไม่กี่ชิ้นที่เกี่ยวข้องกับขั้นตอนปัจจุบันมาใช้ เมื่อรวมกับ memory แบบมีโครงสร้าง — บันทึกของการตัดสินใจ, สเปกที่ค่อย ๆ พัฒนา และสิ่งที่ลองไปแล้ว — การ retrieval ช่วยให้ agent ยึดติดกับความจริงตลอดงานยาว ๆ โดยไม่ทำให้ context window ระเบิด การ retrieval ที่ดีมักเป็นคันโยกด้านคุณภาพที่ใหญ่กว่าการใช้โมเดลที่ใหญ่ขึ้นเสียอีก

ความน่าเชื่อถือ: evals, การตรวจสอบ และ guardrails

ถ้ามีแนวคิดหนึ่งที่แยกวิศวกรรม agent ระดับ production ออกจาก demo มันคือสิ่งนี้: คุณส่งมอบสิ่งที่วัดไม่ได้ไม่ได้ ระบบ agentic มีความสุ่ม (stochastic) ความน่าเชื่อถือจึงต้องสร้างขึ้นผ่าน evals — ชุดทดสอบอัตโนมัติที่ให้คะแนน agent บนงานตัวแทน และดักจับ regression ก่อนที่ผู้ใช้จะเจอ การเปลี่ยนแปลงที่ "รู้สึกดีขึ้น" แต่ทำให้คะแนน eval ของคุณดิ่งลง คือการเปลี่ยนแปลงที่คุณไม่ควรส่งมอบ

เหนือ evals ขึ้นไปคือ guardrails และ การตรวจสอบ (verification) ขณะ runtime รูปแบบที่ได้ผลที่สุดคือ adversarial self-checking (การตรวจสอบตัวเองแบบปฏิปักษ์): หลังจาก agent ให้ผลลัพธ์ออกมา — โค้ดสักชิ้น แผนสักอย่าง การแก้ไขสักครั้ง — จะมีรอบตรวจสอบแยกต่างหากที่พยายาม หักล้าง มัน โค้ดคอมไพล์ผ่านไหม เทสต์ผ่านไหม output ตรงกับ schema หรือเปล่า การมองการตรวจสอบเป็นขั้นตอนแยกที่ตั้งคำถามอย่างเคลือบแคลง ช่วยดักจับความล้มเหลวจำนวนมากที่การให้ผลแบบมั่นใจรอบเดียวจะมองข้ามไป ส่วนที่เหลือจัดการด้วยการ retry พร้อม backoff, circuit breaker และการส่งต่อให้คน

Observability ที่ debug ได้จริง

เมื่อระบบอัตโนมัติตัดสินใจหลายสิบครั้งต่องานหนึ่ง คุณจำเป็นต้องมองเห็นมันทั้งหมด Observability — การ trace ทุก prompt, ทุกการเรียก tool และทุกผลลัพธ์อย่างมีโครงสร้าง — เป็นสิ่งที่ต่อรองไม่ได้ เมื่อ agent ทำงานผิดพลาด trace คือวิธีที่คุณจะหาขั้นตอนที่หลุดออกไปได้แม่นยำ ทำซ้ำมัน และแก้ที่ต้นเหตุ ทีมวิศวกรรมที่มองว่า agent trace คือ telemetry ชั้นหนึ่ง จะ debug ได้ในไม่กี่นาที ส่วนทีมที่ไม่ทำ ใช้เวลา debug เป็นวัน ๆ

Edge และการสเกลแบบยืดหยุ่น

ภาระงานของ agent มาเป็นช่วงพุ่งและไวต่อ latency ซึ่งทำให้ edge computing เข้ากันได้อย่างเป็นธรรมชาติ การรันใกล้ผู้ใช้ — บนแพลตฟอร์มอย่าง Cloudflare Workers และ data store แบบ edge — ช่วยลด latency ในการรับส่งและสเกลได้อย่างยืดหยุ่นตามความต้องการ Jobbit Labs พึ่งพาแนวทางแบบ edge-first นี้สำหรับบางส่วนของโครงสร้างพื้นฐานด้านข้อมูลและผลิตภัณฑ์: กระจายตัวทั่วโลก, autoscaling และจ่ายตามที่ใช้จริง เพื่อให้กำลังประมวลผลวิ่งตามโหลด แทนที่จะนั่งว่างเปล่า

ชั้น human-in-the-loop

ชิ้นส่วนสุดท้ายของสถาปัตยกรรมคือสิ่งที่แพลตฟอร์ม agent ส่วนใหญ่ขาด: เส้นทางแบบ human-in-the-loop (มีคนอยู่ในลูป) AI จัดการเรื่องปริมาณและความเร็ว แต่การตัดสินใจบางอย่าง — ตรรกะที่อ่อนไหวด้านความปลอดภัย, ถ้อยคำทางกฎหมาย, วิจารณญาณด้านดีไซน์ — เป็นเรื่องของคน การออกแบบส่วนนี้หมายถึงการสร้างจุดส่งมอบงานที่สะอาด ที่ผู้เชี่ยวชาญซึ่งผ่านการคัดกรองสามารถเข้ามารับช่วงได้ โดยมี escrow คอยปกป้องธุรกรรม agent กับเครือข่ายคนไม่ใช่ชั้นที่แข่งขันกัน แต่เป็น fallback ที่ออกแบบไว้ตั้งแต่ต้น ซึ่งทำให้ทั้งระบบปลอดภัยพอที่จะวางใจได้

บทเรียนสำหรับวิศวกรที่สร้าง agent

ถ้าคุณกำลังสร้างระบบ agentic หลักการไม่กี่ข้อต่อไปนี้ให้ผลตอบแทนคุ้มค่าหลายเท่าตัว

ออกแบบ interface ของ tool ให้กระชับ ความล้มเหลวของ agent ส่วนใหญ่ย้อนกลับไปที่ tool ที่กำกวม schema ที่เข้มงวดและ I/O ที่ผ่านการ validate คือความน่าเชื่อถือที่ราคาถูกที่สุดที่คุณจะหาซื้อได้

ตรวจสอบแบบปฏิปักษ์ อย่าเชื่อผลลัพธ์รอบแรกที่มั่นใจ เพิ่มขั้นตอนแยกที่มีหน้าที่หักล้างผลลัพธ์นั้น

วัดผลด้วย evals สร้างชุดเครื่องมือ eval ก่อนที่จะสเกล agent คุณปรับปรุงสิ่งที่ให้คะแนนไม่ได้ไม่ได้

วิศวกรรม context อย่าทุ่มมันทิ้ง ดึงสิ่งที่เกี่ยวข้องมา จดจำสิ่งที่สำคัญ prompt ที่ยาวกว่าไม่ใช่ prompt ที่ดีกว่า

Sandbox ทุกอย่างที่ไว้ใจไม่ได้ ถ้า agent รันโค้ด การแยกสภาพแวดล้อมคือเงื่อนไขเบื้องต้น ไม่ใช่ฟีเจอร์เสริม

เก็บเส้นทางให้คนไว้เสมอ ระบบอัตโนมัติที่ปลอดภัยที่สุดคือระบบที่รู้ว่าเมื่อไรควรถามคน

คำถามที่พบบ่อย

อะไรทำให้ AI agent ต่างจากแชตบอต?

แชตบอตสร้างข้อความ ส่วน AI agent วางแผนและลงมือทำ — เรียกใช้ tool, รันโค้ด และวนทำซ้ำเพื่อมุ่งสู่เป้าหมาย ความยากทางวิศวกรรมคือความน่าเชื่อถือตลอดหลายขั้นตอน ที่ความผิดพลาดเพียงจุดเดียวก็ทำให้ผลลัพธ์ทั้งหมดพังได้

จะรันโค้ดที่ AI สร้างขึ้นอย่างปลอดภัยได้อย่างไร?

ด้วย sandboxed code execution: โค้ดที่ไว้ใจไม่ได้จะรันในสภาพแวดล้อมที่ถูกแยกออกมา มีทรัพยากรจำกัด เข้าถึง secret ไม่ได้ และมีเครือข่ายที่ถูกจำกัด เพื่อให้ agent คอมไพล์ ทดสอบ และแก้ไขได้โดยไม่เป็นความเสี่ยงต่อแพลตฟอร์ม

ทำไม evals ถึงสำคัญมากสำหรับระบบ agent?

เพราะ agent มีความสุ่ม คุณจึงต้องมี evals อัตโนมัติเพื่อวัดคุณภาพบนงานตัวแทน และดักจับ regression ก่อนส่งมอบ หากไม่มีมัน "การปรับปรุง" ก็เป็นแค่การเดา

Jobbit Labs ทำอะไร?

Jobbit Labs (jobbitlabs.com) คือฝ่าย R&D และข้อมูลที่อยู่เบื้องหลัง Jobbit โฟกัสที่งานวิศวกรรมที่หนักหน่วง ใช้ข้อมูลเข้มข้น และระดับองค์กร — งานวิจัย, แพลตฟอร์มข้อมูล และรากฐานของ agent ที่ผลิตภัณฑ์ถูกสร้างขึ้นมา

อยากรู้เกี่ยวกับงานวิศวกรรมเบื้องหลัง agent ที่ส่งมอบซอฟต์แวร์ได้จริงไหม? สำรวจได้ที่ jobbit.uk และ jobbitlabs.com