
DeepSeek, החברה הסינית המתמחה בבינה מלאכותית, עשתה צעד נוסף בפיתוח כלים טכנולוגיים לייעול עיבוד הנתונים בהיקפים גדולים. ההצעה החדשה שלו היא מערכת קבצים של Fire-Flyer (3FS), מערכת קבצים מקבילה שנועדה לשפר את היעילות בהכשרת מודלים של AI ומשימות מסקנות.
אחסון וגישה לנתונים הם היבטים מכריעים בסביבות בינה מלאכותית, במיוחד בעת טיפול במערכי נתונים גדולים ודורשים העברת מידע מהירה. מערכות מסורתיות לא תמיד עונות על הדרישות הנוכחיות, ובהקשר זה, DeepSeek פיתחה את 3FS כפתרון ניתן להרחבה ובעל ביצועים גבוהים.
תכונות עיקריות של מערכת הקבצים Fire-Flyer
3FS היא מערכת קבצים מבוזרת מבוססת לינוקס המותאמת לשימוש בסביבות מחשוב עתירות ביצועים (HPC) ובינה מלאכותית. העיצוב שלו מאפשר ניהול אחסון יעיל, מזעור זמן השהייה ושיפור הגישה לנתונים.
- אופטימיזציה עבור חומרה מודרנית: 3FS מנצל את מלוא הביצועים של כונני SSD ורשתות RDMA, ומאפשר מהירויות קריאה של עד 6.6 TiB/s בתצורות אשכולות של 180 צמתים.
- ארכיטקטורה מקבילה: העיצוב המבוזר שלו מקל על הרחבת המערכת מבלי לפגוע ביציבות או במהירות הגישה.
- מבוסס על FUSE: זה מאפשר למערכת לרוץ במרחב המשתמש ללא צורך לשנות את ליבת לינוקס, מה שמקל על היישום שלה ותאימות להפצות שונות.
- התמקדו במהירות הקריאה: תעדוף קריאה אקראית על פני מטמון, שהוא חיוני במודלים של AI הדורשים גישה מיידית לכמויות גדולות של נתונים.
מערכת שנבדקה בסביבות אמיתיות
DeepSeek משתמשת ב-3FS בשרתים שלה מאז 2019, מה שמאפשר לה לחדד את הביצועים שלה במצבים בעולם האמיתי. בבדיקות האחרונות, המערכת השיגה 3.66 TiB/min במדדי מיון נתונים ומעל 40 GiB/s לצומת עבור משימות חיפוש KVCache.
יתר על כן, מערכת זו שימשה באשכול Fire-Flyer 2 של החברה, שם השיגה ביצועים דומים לאלו של שרתים מתקדמים כגון NVIDIA DGX-A100, אך בעלות נמוכה משמעותית. על פי הנתונים שהציגה החברה, הם השיגו את 80% מהביצועים של DGX-A100 עם 50% מעלותו ו-60% מצריכת האנרגיה שלו.
דחיפה למערכת האקולוגית של הקוד הפתוח
אחד ההיבטים הבולטים ביותר של מהדורה זו הוא ש-DeepSeek החליטה לשחרר את קוד 3FS תחת רישיון MIT, המאפשר לקהילת המפתחים לגשת, לשנות ולהתאים את המערכת לצרכיהם. אסטרטגיית פתיחות זו היא חלק מיוזמת שבוע הקוד הפתוח של החברה, שבה הם פרסמו פרויקטים אחרים הקשורים לבינה מלאכותית.
קוד מערכת הקבצים של Fire-Flyer הוא זמין ב- GitHub, מה שמקל על חוקרים וחברות לאמץ אותם, ומחפשים לייעל את זרימות העבודה שלהם בבינה מלאכותית ומחשוב בעל ביצועים גבוהים.
הופעתה של 3FS בנוף מערכת הקבצים המבוזרת מספקת אלטרנטיבה לפתרונות קיימים כגון Ceph, שבמבחני השוואת ביצועים השיגו תפוקת קריאה של 1.1 TiB/s בלבד בתצורות קטנות יותר.
עם השקה זו, DeepSeek מדגימה את מחויבותה לחדשנות טכנולוגית המיושמת בבינה מלאכותית. על ידי הצעת מערכת אחסון יעילה ובמחיר סביר, החברה מחזקת את מעמדה במגזר ומספקת כלים מרכזיים לפיתוח של למידת מכונה חדשה ומודלים מחשוב מתקדמים.