רובנו התרגלנו להתפעל מיכולתן של מערכות בינה מלאכותית לכתוב טקסטים עשירים, לענות על שאלות מסובכות או לתרגם שפות בלחיצת כפתור. מודלים כמו ChatGPT מסוגלים ליצור שירים, לסכם מאמרים או להציע מתכונים יצירתיים כמעט בלי להתבלבל. אבל כשמבקשים מהם לזהות חפץ ספציפי בתמונה – למשל, את החתול הפרוותי האהוב שלכם, שנקרא סנופקין – הם פתאום מגמגמים. מדוע קל להם כל כך לכתוב חיבור על חתולים, אבל קשה להם לזהות דווקא את סנופקין באלבום התמונות שלכם?
מודלי שפה: אלופים בהקשר
כדי להבין את הפער, חשוב לדעת איך מודלי שפה לומדים. מודלים כמו GPT-4 מצטיינים בתהליך שנקרא “למידה בהקשר” (in-context learning). למשל, אם נותנים למודל דוגמה כמו
“תרגם chien dog “, הוא יוכל לתרגם גם מילים אחרות לפי אותו עיקרון. ההצלחה כאן נובעת מכך שהמודלים אומנו מראש על כמויות עצומות של טקסט, שכולל אינספור זוגות הקשרים – כמו
כרטיסיות זיכרון טקסטואליות בתוך ספריות ענק. כך, כשהם מקבלים הוראה כמו “כתוב שיר על חתולים בסגנון שייקספירי”, יש להם תבניות מוכנות והם רק צריכים לבחור מתוכן.
כשמוסיפים ראייה – העניינים מסתבכים
אבל כאשר מערבבים ראייה בטקסט, הסיפור משתנה. המודלים המודרניים שמבינים גם תמונות – Vision-Language Models כמו GPT-4o או – Qwen2-VL מצליחים יפה במשימות כלליות, למשל לתאר מה מופיע בתמונה או לזהות אובייקטים נפוצים (“זה חתול”, “זה ספה”). אבל כשהם צריכים לזהות אובייקט ספציפי אחרי כמה דוגמאות בודדות – כמו לזהות את סנופקין האחד והיחיד – הם נוטים לטעות. במקום להצביע בדיוק על החתול שלכם, הם “מכלילים” ומצביעים על כל אזור דמוי-חתול. למה זה קורה? הסיבה נעוצה במבנה של מאגרי הנתונים. רוב התמונות ששימשו
לאימון מגיעות עם תיאור יחיד בלבד – תמונה אחת, כיתוב אחד. כמעט ואין מערכי אימון שמציגים מאות מופעים של אותו פרט ספציפי )למשל, סנופקין בזוויות שונות, בסביבות שונות(. כתוצאה,
המודלים לא לומדים לעקוב אחרי אותו יצור פרטני שוב ושוב.
הגשר בין העולם הכללי לעולם האישי: IPLoc
כדי לגשר על הפער הזה פיתחנו במכון ויצמן )בשיתוף אוניברסיטת תל אביב, MIT-CSAIL וגופים נוספים( שיטה חדשה בשם IPLoc – In-context Personalized .Localization המטרה של IPLoc פשוטה בתיאוריה אך חכמה מאוד: להכשיר את המודלים לא רק לזהות “חתול”, אלא לזהות את החתול הספציפי הזה. איך זה עובד?
1. שימוש בנתוני וידאו קיימים: במקום להסתפק בתמונות בודדות, IPLoc מנצל מערכי נתונים של מעקב וידאו – סדרות של פריימים שבהם אותו עצם מופיע שוב ושוב, כמו כלב שרץ או רכב שנוסע.
2. יצירת “שיחות ויזואליות”: כל עצם מתועד הופך לדיאלוג. לדוגמה:
ˆ פריים ראשון: “הנה סנופקין” (עם תיבה מסומנת סביבו).
ˆ פריים הבא: “איפה סנופקין עכשיו?” וכך הלאה, כמו משחק מחבואים מודרך.
3. הסתרת התוויות: כדי למנוע מהמחשב “לרמות” ולזהות לפי שם הקטגוריה (למשל, ” cat “), אנחנו נותנים כינויים אקראיים (“אלון”) ומכריחים את המודל להתמקד אך ורק בדימויים החזותיים.
באמצעות תהליך אימון מינימלי – התאמת אחוז זעיר מהמשקלות (LoRA) – הצלחנו לשפר דרמטית את היכולת של המודל לזהות ולמפות עצמים ספציפיים.
האם זה באמת עובד?
בניסויים שערכנו, מודלים שהותאמו עם IPLoc השיגו תוצאות מרשימות במיוחד. בשלושה מדדים מקובלים להערכת זיהוי מותאם-אישית, הדיוק עלה ב 14- עד 18 נקודות אחוז בהשוואה למודל “הרגיל”. חשוב יותר – ככל שסיפקנו למודל יותר דוגמאות (עד שמונה), הוא המשיך להשתפר. תופעה זו, שנחשבה בעבר ייחודית למודלי שפה, הוכחה לראשונה כעובדת גם במודלי ראייה-שפה משולבים.
למה בכלל צריך זיהוי אישי?
ייתכן שאתם שואלים – אם יש מודלים ענקיים שכבר יודעים לזהות כל חתול, למה חשוב לזהות דווקא את סנופקין? הסיבה פשוטה: במצבים רבים נדרשת יכולת להבחין בין פריטים כמעט זהים –
בין הספל האישי שלכם לעותק זהה של חבר, בין הכלב שלכם לכלב אחר בגינת הכלבים, או בין חלק ספציפי בפס ייצור לגרסה הדומה שלו.
IPLoc מראה שהעתיד לא נמצא רק במודלים ענקיים שמנסים לדעת הכל, אלא בשילוב – מודלים כלליים ורב-תחומיים עם “מתאמים קטנים” שמקנים זיהוי מותאם אישית. היתרון: ניתן להריץ
התאמות כאלה גם במכשיר האישי, בלי לסכן פרטיות.
קרדיט: סיון דובא
שימושים מעשיים
הפוטנציאל עצום. הנה כמה דוגמאות:
ˆ ניהול אלבומים פרטיים: לאתר במהירות את כל התמונות של בני משפחה או חיית מחמד בלי למיין ידנית.
ˆ מעקב ייצור תעשייתי: לעקוב אחרי רכיבים ספציפיים בלי לאמן מחדש מודל עצום בכל שינוי קונסטרוקציה.
ˆ מציאות רבודה מותאמת אישית: לסמן כלים אישיים או עצמים בסטודיו הווירטואלי שלכם בדיוק מושלם.
ˆ שמירת טבע ומחקר: לזהות בקלות בעלי חיים ספציפיים בצילומים ממצלמות שטח, לטובת מחקר ושימור. אמנם יש מודלים ייעודיים לאיתור Few-Shot (זיהוי אחרי מעט דוגמאות), אך רבים מהם מתמחים במשימה אחת בלבד. החידוש ב- IPLoc הוא שאותו מודל שמסוגל גם לתאר תמונה, גם לכתוב סיכום וגם להפיק תובנות – יכול בקלות להפוך למערכת שמזהה את החתול שלכם בדיוק
מופלא.
סיכום
IPLoc מוכיח שהאתגר בללמד מחשב לזהות את סנופקין הוא לא גודל המודל, אלא טיב הנתונים ותהליך הלמידה. כאשר משלבים הקשרים חזותיים מגוונים באימון, אפשר ליצור מודלים שמבינים גם את הפרטני, לא רק את הכללי. כך, בפעם הבאה שתצלמו את סנופקין, תוכלו להיות בטוחים שהוא לא יתבלבל עם חתול אקראי באינטרנט. זוהי ההתחלה של עידן שבו בינה מלאכותית אינה רק חכמה – אלא גם אישית.
אודות הכותבת:
סיון דובא משלימה דוקטורט במכון ויצמן למדע, ובסתיו 2025 תחל פוסט-דוקטורט באוניברסיטת סטנפורד.
קרדיט תמונת שער: AI