מחקר בגובה העיניים
מחקר בגובה העיניים
עובדות ומספרים


מנתחים תחביריים משופרים לשפה העברית
לאחרונה חלה התקדמות רבה ביישום טכניקות למידה חישוביות לפיתוח מנתחים תחביריים הולכים ומשתכללים. מחקר זה מתמקד בפיתוח מנתח תחבירי חדש לשפה העברית השימושי במיוחד לתחום הרפואה
פרויקט זה שייך לתחום עיבוד השפה הטבעית (NLP), תחום של בינה מלאכותית שמטרתו ניתוח טקסט חופשי וחילוץ מידע בעל משמעות מטקסט זה. האתגרים המרכזיים של NLP נובעים מעמימותה הגבוהה של השפה האנושית (לצורה אחת עשויות להיות מספר משמעויות) ומשונותה (גם משמעות נתונה עשויה להתבטא בדרכים מגוונות). בעשרים השנים האחרונות חלה התקדמות גדולה בתחום זה, שהובילה ליישומים חשובים ואמינים כמו "עוזרים אישיים" ותרגום מכונה בקנה מידה גדול – רובם תוצאה של יישום טכניקות למידה חישובית, כלומר למידה על סמך דוגמאות (המבוססת על אלגוריתמי מחשב מתאימים). במוקד מחקר זה עמדה המשימה הספציפית של ניתוח משפטים בעברית, על מנת לחלץ מידע תחבירי – כלומר לגלות כיצד המילים בתוך המשפט קשורות זו לזו, וממלאות תפקידים כגון "נושא", "פועל" או "מושא". ניתוח תחבירי של משפט הוא כמובן צעד קריטי בניתוח משמעותו. במחקר ראשוני, פיתחנו כלים לביצוע ניתוח מורפולוגי ולהפרדת מילים בעברית, ויישמנו טכניקות למידה חישובית ליצירת מנתחי תחביר אוטומטיים (parsers) של השפה העברית. כמו כן אספנו מערכי נתונים המורכבים ממשפטים עבריים שנותחו באופן ידני. במחקר זה אנו מתמקדים בשיפור מנתחי הבסיס האלה כדי להתמודד עם אתגרים הנפוצים בשפות רבות (הסתגלות לתחומים שונים, התמודדות עם מילים נדירות) וכן עם אתגרים ספציפיים לעברית. תחילה ניתחנו את ביצועיו של מנתח תחבירי ראשוני שפיתחנו במחקר קודם. כדי להבין את מגבלות המודל התחבירי העומד בבסיסו, יישמנו מנתח זה הן על משפטים מאותו התחום שבו השתמשנו לפיתוחו (סיפורים חדשותיים קצרים מעיתונים ערוכים היטב) והן על משפטים מז'אנר שונה לחלוטין (עברית רפואית ורשומות ממדיה חברתית כמו טוויטר ופורומים מקוונים). מחקרנו שילב עבודה אמפירית עם עבודה תיאורטית. העבודה האמפירית כללה ניתוח סטטיסטי של אוסף משפטים מז'אנרים שונים (כתבות חדשותיות, מסמכים רפואיים, הודעות מדיה חברתית). ניתחנו במיוחד את התפלגות המילים, את תדירותן, את צורותיהן המורפולוגיות (הטיותיהן) ואת התפלגות הצורות התחביריות. לאחר מכן יישמנו את המודל התחבירי שנלמד על-ידי המנתח שלנו, ניתחנו את השגיאות שהמודל הפיק וניסחנו השערות לגבי מקור הטעויות הללו. העבודה התיאורטית כללה תכנון תהליכי למידה חישובית שעשויים לטפל במקור השגיאות שזיהינו. התהליכים האלה הסתמכו על לימוד ייצוגים חדשים עבור פריטים לקסיקליים שהם יותר כלליים מאשר מחרוזות פשוטות (כלומר רצפי אותיות גרידא): ייצוגים אלה לוקחים בחשבון תכונות מופעי מילה (אילו מילים מופיעות בדרך כלל קרוב למילה מסוימת), את הגרסאות המורפולוגיות השונות של המילה (רשימת ההטיות של המילה) ואת מאפייניה הסמנטיים (מילים עם משמעויות דומות). במסגרת המחקר, בדקנו גם כיצד ניתוח מידע מסייע בפיתוח יישומים שונים. פיתחנו יישומים לכריית נתונים בתחום הרפואי ברשומות של חולים כדי לזהות מידע קליני עם פוטנציאל מחקרי. השיטות החדשות שפיתחנו שיפרו את ביצועי המנתח בעברית מ-70% דיוק ל-85-90% בהתאם לתחום, כאשר תשומת לב מיוחדת הוקדשה לתחום הרפואי. עיצבנו כלים המאפשרים ניתוח של עברית רפואית מורכבת בדיוק גבוה מאוד (יחסית לשיטות קיימות אחרות). המחקר גם הניב כלי קוד פתוח לניתוח התחבירי של העברית המודרנית בדיוק גבוה (דומה למה שקיים באנגלית). ערכנו רצף של סדנאות בתחומי המידע הרפואי ומדעי הרוח הדיגיטליים כדי לעודד חוקרים אחרים לנצל כלי זה לצרכים רפואיים. בשנתיים האחרונות של הפרויקט התחלנו לחקור את המשימה של תיוג תפקיד סמנטי, עם דרכים לבנות באופן ידני משאב לקסיקלי עשיר אשר בכוונתנו לפתח לאורך זמן. על בסיס משאב זה בכוונתנו לפתח כלי ניתוח אוטומטי אשר יפיק מידע סמנטי ברמת המשפט בעברית.