มันคงเป็นเรื่องง่ายที่จะคิดว่า Apple จะเดินเกม AI ตั้งแต่ปลายปี 2022 เมื่อ ChatGPT บุกอย่างถล่มทลาย คู่แข่งส่วนใหญ่ของ Apple ก็พยายามตามให้ทัน แม้ว่า Apple จะพูดถึง AI อย่างแน่นอน และยังเปิดตัวผลิตภัณฑ์บางอย่างที่พ่วงถึง AI อยู่ด้วย
แต่ในช่วงไม่กี่เดือนที่ผ่านมา ข่าวลือและรายงานต่างๆ ได้ชี้ให้เห็นว่า ในความเป็นจริงแล้ว Apple กำลังจะรอเวลาที่จะเคลื่อนไหว มีรายงานในช่วงไม่กี่สัปดาห์ที่ผ่านมาว่า Apple กำลังพูดคุยกับทั้ง OpenAI และ Google เกี่ยวกับการขับเคลื่อนฟีเจอร์ AI บางอย่าง และบริษัทยังได้ทำงานกับโมเดลของตัวเองที่เรียกว่า Ajax
หากคุณดูงานวิจัย AI ที่ตีพิมพ์ของ Apple ภาพจะเริ่มพัฒนาว่าแนวทาง AI ของ Apple อาจมีชีวิตขึ้นมาได้อย่างไร เห็นได้ชัดว่าการตั้งสมมติฐานเกี่ยวกับผลิตภัณฑ์จากเอกสารวิจัยนั้นเป็นวิทยาศาสตร์ที่ไม่แม่นยำอย่างยิ่ง
เส้นทางตั้งแต่การวิจัยไปจนถึงชั้นวางสินค้านั้นมีลมแรงและเต็มไปด้วยหลุมบ่อ แต่อย่างน้อยคุณก็สามารถเข้าใจได้ว่าบริษัทกำลังคิดอะไรอยู่ และฟีเจอร์ AI ของบริษัทจะทำงานอย่างไรเมื่อ Apple
เริ่มพูดคุยเกี่ยวกับฟีเจอร์เหล่านี้ในการประชุมนักพัฒนาประจำปี WWDC ในเดือนมิถุนายน
ขนาดที่เล็กลง และมีประสิทธิภาพมากขึ้น
ฉันสงสัยว่าคุณและฉันหวังสิ่งเดียวกัน คือ “Better Siri” และดูเหมือนว่า Better Siri กำลังจะมาแล้ว!
มีข้อสันนิษฐานในการวิจัยจำนวนมากของ Apple (และในอุตสาหกรรมเทคโนโลยีจำนวนมาก ทั่วโลก และทุกที่)ว่าโมเดลภาษาขนาดใหญ่จะทำให้ผู้ช่วยเสมือนดีขึ้นและฉลาดขึ้นในทันที สำหรับ Apple การก้าวไปสู่ Better Siri หมายถึงการสร้างโมเดลเหล่านั้นให้เร็วที่สุดเท่าที่จะเป็นไปได้ และทำให้แน่ใจว่าโมเดลเหล่านั้นอยู่ทุกที่
ใน iOS 18 นั้น Apple วางแผนที่จะให้ฟีเจอร์ AI ทั้งหมดทำงานบนอุปกรณ์รุ่นออฟไลน์โดยสมบูรณ์
Bloomberg รายงานเมื่อเร็ว ๆ นี้ การสร้างแบบจำลองอเนกประสงค์ที่ดีนั้นเป็นเรื่องยากแม้ว่าคุณจะมีเครือข่ายศูนย์ข้อมูลและ GPU ที่ล้ำสมัยหลายพันตัวก็ตาม มันยากกว่าอย่างมากที่จะทำสิ่งนี้โดยใช้เพียงความกล้าในสมาร์ทโฟนของคุณ ดังนั้น Apple จึงต้องมีความคิดสร้างสรรค์
ในบทความเรื่อง “LLM in a flash: Efficient Large Language Model Inference with Limited Memory” (บทความทั้งหมดนี้มีชื่อที่น่าเบื่อมากแต่น่าสนใจจริงๆ ฉันสัญญา!)
นักวิจัยได้คิดค้นระบบสำหรับการจัดเก็บข้อมูลของแบบจำลองซึ่งโดยปกติแล้ว เก็บไว้ใน RAM ของอุปกรณ์บน SSD แทน
“เราได้แสดงให้เห็นถึงความสามารถในการรัน LLM ที่มีขนาดใหญ่เป็นสองเท่าของ DRAM ที่มีอยู่ บน SSD”
นักวิจัยระบุถึง “ด้วยการเร่งความเร็วในการอนุมานได้ 4-5 เท่า เมื่อเทียบกับวิธีการโหลดแบบดั้งเดิมใน CPU และ 20- 25 เท่าใน GPU”
พวกเขาพบว่าโมเดลต่างๆ สามารถทำงานได้เร็วขึ้นและมีประสิทธิภาพมากขึ้นโดยการใช้ประโยชน์จากพื้นที่จัดเก็บข้อมูลที่มีราคาไม่แพง และพร้อมใช้งานบนอุปกรณ์ของคุณมากที่สุด
นักวิจัยของ Apple ยังได้สร้างระบบที่เรียกว่า EELBERT ซึ่งสามารถบีบอัด LLM ให้มีขนาดเล็กลงมากโดยไม่ทำให้แย่ลงอย่างมีนัยสำคัญ การบีบอัดข้อมูลในโมเดล Bert ของ Google มีขนาดเล็กลง 15 เท่า หรือเพียง 1.2 เมกะไบต์ และพบว่าคุณภาพลดลงเพียง 4 เปอร์เซ็นต์เท่านั้น มันมาพร้อมกับความหน่วงแฝงอยู่บ้าง
โดยทั่วไปแล้ว Apple กำลังผลักดันเพื่อแก้ไขความตึงเครียดหลักในโลกของโมเดล ยิ่งโมเดลมีขนาดใหญ่เท่าไรก็ยิ่งดี และมีประโยชน์มากขึ้นเท่านั้น แต่นั่นก็จะทำให้เทอะทะ หิวโหยพลังงาน และช้าลงอีกด้วย เช่น เดียวกับบริษัทอื่นๆ อีกมากมาย บริษัทพยายามค้นหาสมดุลที่เหมาะสมระหว่างสิ่งเหล่านั้นทั้งหมด ในขณะเดียวกันก็มองหาวิธีที่จะได้มาทั้งหมดด้วย
Siri ที่ดีขึ้่น
สิ่งที่เราพูดถึงมากมายเมื่อเราพูดถึงผลิตภัณฑ์ AI คือผู้ช่วยเสมือน คือ ผู้ช่วยที่รู้สิ่งต่าง ๆ ที่สามารถเตือนเราถึงสิ่งต่าง ๆ ที่สามารถตอบคำถาม และทำสิ่งต่าง ๆ ในนามของเรา ดังนั้นจึงไม่น่าแปลกใจเลยที่งานวิจัยด้าน AI ของ Apple จำนวนมากมีคำถามเพียงข้อเดียว
จะเกิดอะไรขึ้นถ้า Siri เป็นคนที่ดีขึ้นจริง ๆ ล่ะ?
นักวิจัยของ Apple กลุ่มหนึ่งกำลังหาวิธีใช้ Siri โดยไม่จำเป็นต้องใช้คำปลุกเลย แทนที่จะฟัง “หวัดดี Siri” หรือ “Siri” อุปกรณ์อาจสามารถรับรู้ได้ว่าคุณกำลังพูดคุยกับอุปกรณ์นั้นอยู่หรือไม่
“ปัญหานี้ท้าทายกว่าการตรวจจับการกระตุ้นด้วยเสียงอย่างมาก” นักวิจัยรู้เรื่องนี้ดี
“เนื่องจากอาจไม่มีวลีทริกเกอร์นำที่เป็นจุดเริ่มต้นของคำสั่งเสียง” นั่นอาจเป็นเหตุผลว่าทำไมนักวิจัยอีกกลุ่มหนึ่งจึงพัฒนาระบบเพื่อตรวจจับคำปลุกที่แม่นยำยิ่งขึ้น
บทความอีกฉบับฝึกแบบจำลองเพื่อให้เข้าใจคำศัพท์หายากได้ดีขึ้น ซึ่งผู้ช่วยมักไม่ค่อยเข้าใจ ในทั้งสองกรณี ความน่าสนใจของ LLM ก็คือ ในทางทฤษฎีแล้ว สามารถประมวลผลข้อมูลได้มากขึ้นอย่างรวดเร็วยิ่งขึ้น
ตัวอย่างเช่น ในรายงานคำปลุก นักวิจัยพบว่าด้วยการไม่พยายามทิ้งเสียงที่ไม่จำเป็นทั้งหมด แต่กลับป้อนเสียงทั้งหมดให้กับแบบจำลอง และปล่อยให้มันประมวลผลสิ่งที่ทำและไม่สำคัญ
คำปลุกได้ผลมากกว่ามาก
เมื่อ Siri ได้ยินเสียงคุณ Apple ก็กำลังทำงานหลายอย่างเพื่อให้แน่ใจว่าจะเข้าใจและสื่อสารได้ดียิ่งขึ้น ในรายงานฉบับหนึ่ง บริษัทได้พัฒนาระบบที่เรียกว่า STEER (ซึ่งย่อมาจาก Semantic Turn Extension-Expansion Recognition)
ซึ่งมีจุดมุ่งหมายเพื่อปรับปรุงการสื่อสารไปมากับผู้ช่วยของคุณ โดยพยายามคิดว่าเมื่อใด กำลังถามคำถามเพื่อติดตามผล และเมื่อคุณถามคำถามใหม่ ในอีกแง่หนึ่งมีการใช้ LLM เพื่อทำความเข้าใจ “ข้อความค้นหาที่คลุมเครือ” ได้ดีขึ้น เพื่อดูว่าคุณหมายถึงอะไรไม่ว่าคุณจะพูดอะไรก็ตาม “ในสถานการณ์ที่ไม่แน่นอน”
พวกเขาระบุว่า “ตัวแทนการสนทนาที่ชาญฉลาดอาจจำเป็นต้องริเริ่มเพื่อลดความไม่แน่นอนด้วยการถามคำถามที่ดีในเชิงรุก” ซึ่งจะช่วยแก้ปัญหาได้อย่างมีประสิทธิภาพมากขึ้น” บทความอีกฉบับมีจุดมุ่งหมายเพื่อช่วยในเรื่องนี้เช่นกัน นักวิจัยใช้ LLM เพื่อทำให้ผู้ช่วยมีรายละเอียดน้อยลงและเข้าใจได้มากขึ้นเมื่อสร้างคำตอบ
AI ด้านสุขภาพ และโปรแกรมแก้ไขภาพ ใน Memojis ของคุณ
เมื่อใดก็ตามที่ Apple พูดในที่สาธารณะเกี่ยวกับ AI ก็มีแนวโน้มที่จะมุ่งเน้นไปที่พลังทางเทคโนโลยีที่สิ้นเปลืองน้อยลง และให้ความสำคัญกับสิ่งที่ AI สามารถทำเพื่อคุณได้ในแต่ละวันมากขึ้น ดังนั้นจึงให้ความสำคัญกับ Siri เป็นอย่างมาก
โดยเฉพาะอย่างยิ่งเมื่อ Apple มองหาการแข่งขันกับอุปกรณ์ต่างๆ เช่น Humane AI Pin, Rabbit R1 และ Google ที่นำ Gemini เข้าสู่ Android ทั้งหมดอย่างต่อเนื่อง แต่ก็ยังมีวิธีอื่นอีกมากมายที่ Apple ดูเหมือนจะมองเห็น AI มีประโยชน์
สสิ่งหนึ่งที่ชัดเจนคือ Apple ให้ความสำคัญคือเรื่องสุขภาพ ในทางทฤษฎีแล้ว LLM สามารถช่วยลุยฝ่ามหาสมุทรแห่งข้อมูลไบโอเมตริกซ์ ที่รวบรวมผ่านอุปกรณ์ต่างๆ ของคุณ และช่วยให้คุณเข้าใจทุกอย่างได้
ดังนั้น Apple จึงค้นคว้าวิธีรวบรวมและเปรียบเทียบข้อมูลการเคลื่อนไหวทั้งหมดของคุณ วิธีใช้การจดจำการเดิน และหูฟังเพื่อระบุตัวคุณ และวิธีติดตามและทำความเข้าใจข้อมูลอัตราการเต้นของหัวใจของคุณ Apple ยังสร้าง และเผยแพร่ “ชุดข้อมูลกิจกรรมของมนุษย์ที่ใช้เซ็นเซอร์หลายตำแหน่งหลายอุปกรณ์ที่ใหญ่ที่สุด” ซึ่งพร้อมใช้งานหลังจากรวบรวมข้อมูลจากผู้เข้าร่วม 50 รายที่มีเซ็นเซอร์บนร่างกายหลายติดตัว
Apple ดูเหมือนจะจินตนาการว่า AI เป็นเครื่องมือที่สร้างสรรค์ สำหรับรายงานฉบับหนึ่ง นักวิจัยได้สัมภาษณ์แอนิเมเตอร์ นักออกแบบ และวิศวกรกลุ่มหนึ่ง และสร้างระบบที่เรียกว่า Keyframer
ที่ “ช่วยให้ผู้ใช้สามารถสร้าง และปรับแต่งการออกแบบที่สร้างขึ้นซ้ำๆ ได้” แทนที่จะพิมพ์พรอมต์และรับรูปภาพ จากนั้นพิมพ์พรอมต์อื่นเพื่อรับรูปภาพอื่น
คุณเริ่มต้นด้วยพรอมต์ จากนั้นจึงรับชุดเครื่องมือเพื่อปรับแต่งและปรับแต่งส่วนของรูปภาพตามที่คุณต้องการ คุณคงจินตนาการได้ว่ากระบวนการทางศิลปะไปมาแบบนี้ จะปรากฏขึ้นทุกที่ตั้งแต่ผู้สร้าง Memoji ไปจนถึงเครื่องมือทางศิลปะระดับมืออาชีพของ Apple
ในรายงานอื่น Apple อธิบายถึงเครื่องมือที่เรียกว่า MGIE ซึ่งช่วยให้คุณแก้ไขภาพได้เพียงแค่อธิบายการแก้ไขที่คุณต้องการทำ
(“ทำให้ท้องฟ้าเป็นสีฟ้ามากขึ้น” “ทำให้ใบหน้าของฉันแปลกน้อยลง” “เพิ่มก้อนหิน” อะไรทำนองนั้น)
“แทนที่จะให้คำแนะนำสั้นๆ แต่คลุมเครือ MGIE กลับมีความตั้งใจรับรู้ด้วยภาพที่ชัดเจนและนำไปสู่การแก้ไขภาพที่สมเหตุสมผล ”
นักวิจัยระบุว่า การทดลองครั้งแรกนั้นไม่สมบูรณ์แบบ แต่ก็น่าประทับใจ
เราอาจได้รับ AI ใน Apple Music ด้วยเช่นกัน
สำหรับบทความที่เรียกว่า “Resource-constrained Stereo Singing Voice Cancellation,”
นักวิจัยได้สำรวจวิธีแยกเสียงออกจากเครื่องดนตรีในเพลง ซึ่งอาจมีประโยชน์หาก Apple ต้องการมอบเครื่องมือให้ผู้คน สามารถรีมิกซ์เพลงในแบบที่คุณสามารถทำได้บน TikTok หรือ Instagram
เมื่อเวลาผ่านไป ฉันเดาได้เลยว่านี่คือสิ่งที่คุณจะได้เห็นจาก Apple โดยเฉพาะบน iOS บางส่วนที่ Apple จะสร้างเป็นแอพของตัวเอง บางส่วนจะเสนอให้กับนักพัฒนาบุคคลที่สามในรูปแบบ API
(ฟีเจอร์ Journaling Suggestions ล่าสุดน่าจะเป็นแนวทางที่ดีเกี่ยวกับวิธีการทำงาน)
Apple ให้ความสำคัญกับความสามารถของฮาร์ดแวร์มาโดยตลอด โดยเฉพาะอย่างยิ่งเมื่อเปรียบเทียบกับอุปกรณ์ Android โดยเฉลี่ยของคุณ การจับคู่ทรัพยาทั้งหมดกับ AI ที่เน้นความเป็นส่วนตัวบนอุปกรณ์อาจเป็นตัวสร้างความแตกต่างที่ยิ่งใหญ่
แต่ถ้าคุณต้องการเห็น AI ที่ใหญ่ที่สุด และทะเยอทะยานที่สุดที่ Apple คุณจำเป็นต้องรู้เกี่ยวกับ Ferret
Ferret เป็นโมเดลภาษาขนาดใหญ่หลายรูปแบบที่สามารถรับคำแนะนำ มุ่งเน้นไปที่สิ่งเฉพาะเจาะจงที่คุณวงกลมหรือเลือกไว้ และเข้าใจโลกรอบตัว ได้รับการออกแบบมาสำหรับกรณีการใช้งาน AI
ปกติในปัจจุบันในการถามอุปกรณ์เกี่ยวกับโลกรอบตัวคุณ แต่อาจสามารถเข้าใจสิ่งที่อยู่บนหน้าจอของคุณได้
ในรายงานของ Ferret นักวิจัยแสดงให้เห็นว่าสามารถช่วยคุณนำทางแอพ ตอบคำถามเกี่ยวกับคะแนน App Store อธิบายสิ่งที่คุณกำลังดู และอื่นๆ อีกมากมาย สิ่งนี้มีผลกระทบที่น่าตื่นเต้นอย่างยิ่งต่อการเข้าถึง แต่อาจเปลี่ยนวิธีใช้โทรศัพท์ของคุณโดยสิ้นเชิง และ Vision Pro หรือแว่นตาอัจฉริยะของคุณสักวันหนึ่ง
เรากำลังก้าวนำหน้าตัวเองไปก้าวหนึ่ง คุณสามารถจินตนาการได้ว่าสิ่งนี้จะทำงานร่วมกับสิ่งอื่นๆ ที่ Apple กำลังทำอยู่ได้อย่างไร Siri ที่สามารถเข้าใจสิ่งที่คุณต้องการ เมื่อจับคู่กับอุปกรณ์ที่สามารถมองเห็นและเข้าใจทุกสิ่งที่เกิดขึ้นบนจอภาพของคุณ ก็คือโทรศัพท์ที่สามารถใช้งานได้อย่างแท้จริง
Apple ไม่ต้องการการบูรณาการอย่างลึกซึ้งกับทุกสิ่ง แต่มันสามารถเรียกใช้แอพและแตะปุ่มขวาโดยอัตโนมัติ
ขอย้ำอีกครั้งว่าทั้งหมดนี้เป็นเพียงการวิจัย และการที่ทุกอย่างทำงานได้ดีตั้งแต่ฤดูใบไม้ผลินี้เป็นต้นไป ถือเป็นความสำเร็จทางเทคนิคที่ไม่เคยมีมาก่อน (เราหมายถึง คุณเคยลองใช้แชทบอทมาแล้วคุณรู้ว่ามันไม่ดีนัก)
แต่เราพนันได้เลยว่าเราจะได้ฟังประกาศสำคัญเกี่ยวกับ AI ที่ WWDC ทางด้าน Tim Cook ซีอีโอของ Apple ที่ยังล้อเล่นเอามากๆ เมื่อเดือนกุมภาพันธ์ และมีสองสิ่ง ที่ชัดเจนมาก: Apple มีส่วนร่วมอย่างมากในการแข่งขันด้าน AI และอาจเทียบเท่ากับการยกเครื่อง iPhone ทั้งหมด