More

    ‘TrafficInternVL’ AI สัญชาติไทยจาก ARV ยกระดับความปลอดภัยบนท้องถนนสู่สากล

     TrafficInternVL นวัตกรรม AI อัจฉริยะสัญชาติไทยจาก ARV ยกระดับความปลอดภัยบนท้องถนน คว้าอันดับ 4 บนเวทีโลก พร้อมเตรียมตีพิมพ์ผลงานวิจัยในงานประชุมคอมพิวเตอร์วิชันนานาชาติ ICCV 2025

     

    TrafficInternVL

    AI สัญชาติไทยยกระดับความปลอดภัยบนท้องถนน

    บริษัท เอไอ แอนด์ โรโบติกส์ เวนเจอร์ส จำกัด (เออาร์วี) หรือ ARV บริษัทเทคโนโลยีที่พัฒนาและให้บริการหุ่นยนต์และปัญญาประดิษฐ์ขั้นสูงของไทย ตอกย้ำความเป็นผู้เชี่ยวชาญอีกครั้ง ผ่านความสำเร็จของทีม ARV Core Technology ที่ได้สร้างสรรค์เฟรมเวิร์กอัลกอริทึมอัจฉริยะภายใต้ชื่อ “TrafficInternVL” ซึ่งได้รับการยอมรับให้ตีพิมพ์ผลงานวิจัยในงานประชุวิชาการคอมพิวเตอร์วิทัศน์ระดับโลกอย่าง International Conference on Computer Vision (ICCV) 2025 ซึ่งจะจัดขึ้นวันที่ 19–23 ตุลาคม 2025 ณ Hawaii Convention Center เมืองโฮโนลูลู รัฐฮาวาย สหรัฐอเมริกา และคว้าอันดับที่ 4 ในการแข่งขัน AI City Challenge 2025

    ในงานดังกล่าว นายศศิณ พิมพ์ศิริ Machine Learning Engineer ของ ARV กล่าวว่า จำนวนยานพาหนะที่เพิ่มขึ้นอย่างต่อเนื่อง ทำให้ปัญหาอุบัติเหตุบนท้องถนนมีแนวโน้มเพิ่มสูงขึ้นด้วย จนกลายเป็นปัญหาใหญ่ที่ยากจะหลีกเลี่ยง แม้เทคโนโลยีที่มีอยู่อย่างกล้องตรวจจับจับความเร็วและการบันทึกภาพนิ่งจะมีบทบาทสำคัญในการช่วยเฝ้าระวังและบันทึกเหตุการณ์บนท้องถนน แต่ยังมีข้อจำกัด ที่ไม่สามารถวิเคราะห์เชิงพฤติกรรม หรือช่วยคาดการณ์และป้องกันอุบัติเหตุล่วงหน้าได้

    ด้วยเหตุนี้ ARV จึงร่วมมือกับผู้เชี่ยวชาญเฉพาะด้าน เพื่อพัฒนาเทคโนโลยีและงานวิจัยที่สามารถช่วยยกระดับความปลอดภัยบนท้องถนนได้

    “เราเชื่อว่าการแก้ปัญหาจราจรที่ซับซ้อน ต้องอาศัยเทคโนโลยีที่สามารถ ‘เข้าใจ’ บริบทของเหตุการณ์บนท้องถนนได้อย่างลึกซึ้ง มากกว่าการ ‘มองเห็น’ ภาพเพียงผิวเผิน TrafficInternVL เป็นหนึ่งในเทคโนโลยี ที่เราภาคภูมิใจ ซึ่งถูกพัฒนาขึ้นเพื่อยกระดับศักยภาพของกล้องวงจรปิด ให้ก้าวไปอีกขั้น จากระบบเฝ้าระวังทั่วไป สู่เครื่องมืออัจฉริยะที่ช่วยวิเคราะห์ความเสี่ยงและตีความเหตุการณ์บนท้องถนนได้อย่างมีประสิทธิภาพมากขึ้น” -นายศศิณพิมพ์ศิริ กล่าวเสริม

     

    TrafficInternVL

     

    TrafficInternVL: AI ที่ไม่ใช่แค่ ’เห็น’ แต่สามารถ “อ่านเกม” ได้

    “TrafficInternVL” ถูกพัฒนาโดยต่อยอดจาก Vision-Language Model (VLM) ขนาดใหญ่อย่าง InternVL-38B โดยทีมวิจัยได้ออกแบบสถาปัตยกรรมเสริมที่โดดเด่น 2 ส่วนหลักคือ

    • Spatially-Guided Cropping เทคนิคการประมวลผลภาพที่เน้นการ “เลือกพื้นที่สำคัญ” (Region of Interest) ในช่วงเวลาที่เกิดเหตุการณ์โดยอัตโนมัติ ช่วยให้โฟกัสจุดที่เกี่ยวข้องกับอุบัติเหตุหรือพฤติกรรมเสี่ยงได้แม่นยำขึ้น
    • Caption Refinement กระบวนการ Post-processing เพื่อขัดเกลาคำบรรยายเหตุการณ์ ลดความกำกวมและเพิ่มความถูกต้องของบริบททางภาษา (Semantic Accuracy)

    หัวใจของ TrafficInternVL คือการยกระดับระบบตรวจจับเหตุการณ์จากเดิมที่ให้คำตอบแบบง่าย ๆ เพียง “ใช่” หรือ “ไม่ใช่” ไปสู่การวิเคราะห์เชิงลึกที่เปรียบเสมือน “AI Chatbot”ที่สามารถอธิบายเหตุการณ์ วิเคราะห์ความเสี่ยง และตีความพฤติกรรมบนท้องถนนได้อย่างละเอียด

    ระบบสามารถสร้างคำบรรยายวิดีโอแบบละเอียดและต่อเนื่อง (Dense Captioning) เพื่ออธิบายลำดับเหตุการณ์ที่เกิดขึ้นก่อนอุบัติเหตุได้อย่างครบถ้วน ครอบคลุมทั้งบริบทโดยรอบ พฤติกรรมของผู้ใช้ถนนทั้ง และการเคลื่อนไหวของยานพาหนะจากกล้องหลายมุมมอง

    นอกจากนี้ ระบบยังสามารถตอบคำถามเฉพาะเกี่ยวกับเหตุการณ์ (Visual Question Answering – VQA) ได้อย่างแม่นยำ ซึ่งจะมีบทบาทสำคัญในการสนับสนุนการตัดสินใจของศูนย์ควบคุมจราจร การประเมินความเสี่ยงในพื้นที่สาธารณะ รวมถึงช่วยให้การตรวจสอบด้านประกันภัยเป็นไปอย่างรวดเร็วและถูกต้องมากยิ่งขึ้น

    ความท้าทายบททดสอบของความสำเร็จ

    นายศรุต สรรพาวัตร วิศวกร (MLOps Engineer) บริษัท เอไอ แอนด์ โรโบติกส์ เวนเจอร์ส จำกัด อธิบายว่า การพัฒนา TrafficInternVL จะต้องเผชิญความท้าทายหลายด้าน ทั้งข้อจำกัดด้านเวลา และความต้องการทรัพยากรฮาร์ดแวร์ประสิทธิภาพสูงอย่าง NVIDIA H100 ถึง 3 ตัว สำหรับการออกแบบสถาปัตยกรรมและปรับจูนโมเดล (Fine-tuning) แต่ด้วยความทุ่มเทของทีมงาน ทำให้โครงการสำเร็จลุล่วงได้ ภายในระยะเวลา เพียงหนึ่งเดือน

    “ความสำเร็จในการคว้าอันดับ 4 และได้ตีพิมพ์ผลงานบนเวทีระดับโลกอย่าง ICCV คือบทพิสูจน์ศักยภาพของทีม คนไทย และเป็นผลจากความร่วมมือที่ยอดเยี่ยมกับมหาวิทยาลัยชั้นนำ ความสำเร็จนี้ตอกย้ำว่าเรามาถูกทางแล้ว ARV จะเดินหน้าต่อยอดเทคโนโลยีนี้ต่อไป เพื่อยกระดับความปลอดภัยบนท้องถนนสำหรับทุกคน” -นายศรุต สรรพาวัตร ให้ความเห็นเพิ่มเติม

     

    ผลลัพธ์เชิงประสิทธิภาพที่ได้รับการยอมรับระดับโลก

    TrafficInternVL ได้พิสูจน์ประสิทธิภาพอันยอดเยี่ยมในการแข่งขันโดยมี

    • ความสามารถในการ สร้างคำบรรยายภาพ Dense Captioning เฉลี่ย 32.75 (วัดด้วย BLEU-4, METEOR, ROUGE-L, CIDEr)
    • มีความแม่นยำในการตอบคำถามจากภาพ VQA Accuracy สูงถึง 83.08%

    ความสามารถเหล่านี้ทำให้ TrafficInternVL คว้าอันดับที่ 4 ท่ามกลางคู่แข่งจากสถาบันวิจัยและบริษัทเทคโนโลยีระดับโลก ขณะเดียวกันบทความวิจัย “TrafficInternVL: Spatially-Guided Fine-Tuning with Caption Refinement for Fine-Grained Traffic Safety Captioning and Visual Question Answering” จะถูกตีพิมพ์และนำเสนอในงานประชุม ICCV 2025 ที่ Hawaii Convention Center เมืองโฮโนลูลู รัฐฮาวาย สะท้อนศักยภาพงานวิจัยไทยในเวทีสากล และเป็นก้าวสำคัญสู่การต่อยอดสู่การใช้งานจริงเพื่อสร้างประโยชน์ต่อสังคม

    ติดตามข่าวสารยานยนต์: car2day.com

    ABOUT THE AUTHOR

    Latest Posts