מחקר בגובה העיניים
מחקר בגובה העיניים
עובדות ומספרים


לצלול לתוך עולם הביג דאטה ולדוג ממנו נתונים משמעותיים
מחקר פיתח אלגוריתם שבאמצעותו ניתן לאתר קבוצת גורמים קטנה, שרלוונטית לחיפוש המבוקש, מתוך ים של מידע
בעידן המודרני, תחום הביג דאטה (נתוני עתק) יוצר אתגרים חדשים בעיסוק במאגרי נתונים ענקיים ומורכבים. ביג דאטה הוא מונח שמתאר כמויות אדירות של מידע שמגיע ממקורות שונים, שיש לשמור, לנהל, לתחזק אותו ולהשתמש בו בקלות וביעילות. ענקיות ביג דאטה שבידיהן כמויות מידע אדירות הן למשל גוגל, פייסבוק ויאהו והן משתמשות בטכנולוגיות ושיטות לניהול נתונים שמכונות גם "מערכות ביג דאטה". הדרישה לטכנולוגיות ושיטות שכאלו הולכת וגוברת כל הזמן מכיוון שעולם הביג דאטה הולך וגדל. מחקרנו עוסק בפיתוח שיטות לאיתור קבוצה קטנה של גורמים משמעותיים (מודל) מתוך אוסף אדיר של גורמים (Model selection) – מעין חיפוש מחט בערימת שחת. לדוגמה, במחקרים רפואיים שעבורם צריך לזהות קבוצת גנים קטנה מתוך גנום שלם, שמשפיעה על מחלות גנטיות שונות. במחקר הנוכחי פיתחנו אלגוריתם מתמטי-סטטיסטי שהצליח לזהות מודלים בתוך מאגרי נתונים גדולים. כלומר, בתוך ים המידע, הוא הצליח לזהות תת-קבוצה קטנה של גורמים רלוונטיים לחיפוש המבוקש, כאלו שנותנים חיזוי אופטימלי. חקרנו תכונות תיאורטיות שלו ובדקנו את ביצועיו בכמה דוגמאות. כך למשל, יישמנו אותו על נתוני חברה פיננסית שעוסקת במכירות באינטרנט, שביקשה להעריך את הסיכוי שלקוחותיה יישארו עמה או יעזבו. על כל לקוח קיים מידע רב, כגון הרכישות שביצע ומספרן, מקום המגורים שלו, ומצבו המשפחתי. האלגוריתם הצליח לסנן חמישה-שישה גורמים רלוונטיים מתוך 60 שבעזרתם ניתן לחזות את הסיכוי בדיוק רב. כיום שיטות סטטיסטיות קלאסיות רבות קורסות אל מול מאגרי נתונים ענקיים עם מיליוני או אף מיליארדי פרמטרים, או שלוקח להן זמן רב מדי לנתח את הנתונים (כך שהן לא מצליחות לעשות זאת בזמן אמת). כעת פיתחנו שיטה אופטימלית מבחינה תיאורטית וגם יעילה מבחינה חישובית.