עכשיו באמת מדברים: NVIDIA משיקה מאגר נתונים פתוח ומודלים חדשים ל־AI בדיבור רב־לשוני

חברת NVIDIA הכריזה על Granary – מאגר נתונים חדש ופתוח בקנה מידה עצום, הכולל כ־מיליון שעות אודיו, ששימש לאימון מודלי AI מדויקים ומהירים במיוחד לתמלול ותרגום דיבור.

בעולם קיימות כ־7,000 שפות, אך רק חלק קטן מהן נתמך כיום על ידי מודלים של בינה מלאכותית. NVIDIA מבקשת לשנות את המצב, עם מאגר ומודלים חדשים המיועדים לפיתוח מערכות זיהוי דיבור ותרגום מתקדמות עבור 25 שפות אירופיות – כולל שפות בעלות משאבי מידע מוגבלים, כמו קרואטית, אסטונית ומלטית.

הכלים החדשים נועדו לאפשר למפתחים להרחיב בקלות יישומי AI לשימוש גלובלי, עם טכנולוגיית דיבור מהירה ומדויקת בהיקפי ייצור, עבור יישומים כמו צ’טבוטים רב־לשוניים, מוקדי שירות קולי ושירותי תרגום כמעט בזמן אמת.

ההשקה כוללת:

  • Granary – קורפוס דיבור רב־לשוני עצום ופתוח, עם כ־1 מיליון שעות אודיו: כ־650 אלף שעות לתמלול וכ־350 אלף שעות לתרגום.

  • NVIDIA Canary-1b-v2 – מודל בעל מיליארד פרמטרים, אומן על Granary לתמלול באיכות גבוהה בשפות אירופיות, ולתרגום בין אנגלית לבין 24 השפות הנתמכות.

  • NVIDIA Parakeet-tdt-0.6b-v3 – מודל קליל יותר עם 600 מיליון פרמטרים, מותאם לתמלול מהיר בזמן אמת או לעיבוד כמויות גדולות של אודיו בשפות הנתמכות.

מאמר המחקר על Granary יוצג בכנס Interspeech שיעסוק בעיבוד שפה, וייערך בהולנד בתאריכים 21-17 באוגוסט. המאגר, כמו גם מודלי Canary ו־Parakeet, זמינים כבר כעת בפלטפורמת Hugging Face.


איך Granary מתמודד עם מחסור בנתונים

לצורך פיתוח המאגר, צוות ה־AI לדיבור של NVIDIA שיתף פעולה עם חוקרים מאוניברסיטת קרנגי מלון ו־Fondazione Bruno Kessler. הם העבירו הקלטות אודיו לא מתויגות דרך תהליך עיבוד ייחודי, מבוסס NVIDIA NeMo Speech Data Processor, שהפך אותן לנתונים מובנים ואיכותיים.

השיטה אפשרה לשדרג מאגרי אודיו ציבוריים לפורמט ראוי לאימון AI, ללא צורך בתיעוד ידני עתיר משאבים. הכלי עצמו זמין בקוד פתוח ב־GitHub.

Granary מספק נתונים נקיים ומוכנים לשימוש, המאפשרים למפתחים להתחיל מיד בבניית מודלים לתמלול ותרגום ברוב השפות הרשמיות של האיחוד האירופי, לצד רוסית ואוקראינית. עבור שפות שמיוצגות פחות במאגרים מתויגים ידנית, מדובר במשאב קריטי לפיתוח טכנולוגיות דיבור מכלילות יותר, המשקפות את הגיוון הלשוני של אירופה – וכל זאת עם צורך בפחות נתוני אימון.

המאמר שיוצג ב־Interspeech מראה כי ביחס למאגרים פופולריים אחרים, נדרש בערך מחצית מכמות הנתונים של Granary כדי להגיע לאותה רמת דיוק בזיהוי דיבור אוטומטי (ASR) ובתרגום דיבור אוטומטי (AST).


שימוש ב־NVIDIA NeMo להאצת התמלול

המודלים Canary ו־Parakeet הם דוגמאות למודלים שניתן לבנות על בסיס Granary, בהתאם ליישום המבוקש:

  • Canary-1b-v2 מותאם לדיוק מרבי במשימות מורכבות, ותומך ב־25 שפות (לעומת 4 בגרסאות קודמות). הוא מספק איכות תמלול ותרגום הדומה למודלים הגדולים ממנו פי שלושה, אך רץ עד פי 10 מהר יותר.

  • Parakeet-tdt-0.6b-v3 ממוקד במהירות ובקיבולת גבוהה, ויכול לתמלל קטעי אודיו של 24 דקות במעבר חישוב יחיד, עם זיהוי אוטומטי של שפת הקלט וללא צורך בהגדרות נוספות.

שני המודלים מספקים פיסוק מדויק, אותיות רישיות ותיעוד זמן ברמת המילה.

NVIDIA NeMo – חבילת תוכנה מודולרית לניהול מחזור החיים של מודלי AI – האיצה את פיתוח המודלים, וכללה בין היתר את NeMo Curator לסינון דוגמאות סינתטיות מהנתונים, ואת NeMo Speech Data Processor ליישור תמלולים עם קבצי אודיו והמרת נתונים לפורמטים הנדרשים.


לקריאה נוספת: קוד המקור והכלים זמינים ב־GitHub, והמאגר Granary זמין להורדה ושימוש ב־Hugging Face.

קרדיט: Jonathan Cohen, VP of Applied Research at NVIDIA / NVIDIA Newsroom

מערכת ניו-טק מגזינים גרופ

תגובות סגורות