בזמן שבחוץ יש מלחמה, ופוליטיקה, ושפעת שעושה דרכה אלינו בחסות החורף המתקרב, ומה לא - קבוצת חוקרים, בהם גם חוקרת ב-SCE המכללה האקדמית להנדסה ע"ש סמי שמעון, מתעסקת בקדחתנות במשימתה: לפתח כלי אוטומטי שיבצע ניתוח של תמונות של מסמכים היסטוריים.
"תחום המחקר שלי הוא מאוד מאוד מעניין", מספרת ד"ר אירינה רבייב, חברת סגל אקדמי בכיר במחלקה להנדסת תוכנה במכללה. "בעשורים האחרונים יש הרבה פרויקטים של דיגיטציה של מסמכים היסטוריים, שסורקים אותם ושומרים אותם בפורמט של תמונה כדי לשמר לדורות הבאים. אז אנחנו צריכים את הטכניקות של עיבוד תמונה, של ראייה ממוחשבת, כדי לעזור לחוקרים לנתח את המסמכים האלה".
רבייב עובדת עם "מסמכים עבריים שנכתבו בימי הביניים, מהמאה ה-9 ועד המאה ה-15, 16, או מסמכים יותר עתיקים", ומעורבת בשלושה פרויקטים סביב הנושא. הפרויקט הראשון, בהשתתפות חוקרים מאוניברסיטת בן גוריון ומאוניברסיטת תל אביב, עוסק בכתבי יד עבריים מימי הביניים, כפי שמסבירה רבייב: "קריאת טקסטים היסטוריים דורשת ידע על הדקדוק והגרסאות הדיאלקטיות של השפות האלה. הדקדוק של המאה ה-13 הוא לא הדקדוק של המאה ה-15 או המאה ה-21, כי צורת האותיות השתנתה והתפתחה עם הזמן. יש אותיות רבות שנראות לא מוכרות ומוזרות לקורא המודרני, ובכתב יד בימי הביניים גם עשו שימוש בקיצורים שנקראים ליגטורות - לקחו שתי אותיות, חיברו ביחד וקיבלו תו אחד - חיבור של א' ו-ל' או של ש' ו-ל', והניתוח דורש מומחה. יש כמות יחסית קטנה של חוקרי כתב יד עברי, ולכן מאוד חשוב שיהיה כלי אוטומטי שיעבד את הכמויות של המסמכים".
איזה סוג מידע מוציאים מהטקסטים האלה?
"מידע היסטורי - על מעמד של אנשים, על קהילות יהודיות ברחבי העולם, על האינטראקציה עם הקהילות הלא יהודיות, על הכלכלה. או נניח למדתי, שבימי הביניים היו כמה סגנונות כתב עברי - חילקו את זה לשישה סוגים: כתב תימני, ביזנטי, ספרדי, אשכנזי, איטלקי ומזרחי. ולכל אחד היה סגנון כתיבה משלו, צורת האותיות הייתה טיפה שונה. יתרה מזה, לכל אחד מהסוגים יכול להיות כתב מרובע, כתב רהוט וכתב חצי מרובע - שנניח עכשיו, בכתב היד המודרני, אין לנו חצי מרובע. מרובע דומה יותר לדפוס, רהוט זה אותיות יותר עגולות, וחצי מרובע או חצי רהוט זה בין לבין. היה לנו מחקר אחד שבאמצעות טכניקות של למידת מכונה רצינו לסווג את התמונות של המסמכים לפי סוג הכתב שלהם".
"עכשיו אנחנו עובדים על תיארוך של מסמכים, שזה גם יכול לשפוך אור כי יש הרבה מסמכים שאין להם תאריך. אם נוכל לתארך, החוקרים יוכלו אחר כך להבין יותר את הקונטקסט - למה זה היה שייך, או מי כתב בדיוק את המסמך".
יש לכלי הזה שימוש שאינו באקדמיה?
"המטרה הסופית שלנו היא להמיר את התמונות לטקסט, כך שהקהל הרחב יוכל ליהנות ממנו. ככה אנשים לאו דווקא מהאקדמיה יוכלו לקרוא מסמכים ולהתרשם. אבל יכולים להיות שימושים נוספים כמו השימוש הפלילי: בגלל שאנחנו יודעים לתארך, אז אנחנו גם יודעים להגיד אם מסמך הוא זיוף או לא, ויש גם נישה שנקראת זיהוי הכותב".
זיהויו של מי שכתב טקסט כזה או אחר נחקר במסגרת פרויקט נוסף בו מעורבת רבייב בשיתוף עם חוקרת נוספת מהמכללה, ד"ר מרינה ליטבק - של סריקות של כתב יד מודרני. "הפרויקט הזה מדבר על סיווג מגדר וגיל הכותב באמצעות כתב היד", היא מספרת. "כתב יד של בן אדם מושפע ממספר גורמים, כמו גיל, אזור גיאוגרפי, מחלה או אפילו מצב רוח. איפה יש לזה שימושים? למשל בקרימינולוגיה, נניח יש להם כתב יד, ברגע שיגידו שבהסתברות גבוהה זה נכתב על ידי גבר, הם כבר יכולים לצמצם את רשימת החשודים. גרפולוגים משתמשים בזה, אפילו חברות גדולות לוקחות מועמדים ומנתחים את כתב היד שלהם. וגם, באותם המסמכים ההיסטוריים - הרבה נשים כתבו תחת שם גברי, אז אם נוכל להגיד שמסמך נכתב בהסתברות גבוהה על ידי אישה, ניתן ללמוד על מעמד האישה באותה תקופה". בני אדם שניסו לסווג טקסטים לפי מגדר הכותב שלהם הגיעו לרמת דיוק של 65%, בעוד שהמודל אותו מפתחים רבייב וקבוצת המחקר שלה הגיע לרמת דיוק של בין 65% ל-85%.
"אותו דבר אנחנו עושים עם גיל הכותב. כתב יד של תלמיד שונה מכתב היד של אדם בוגר ושל אדם מבוגר, או אדם שמתפתחות אצלו חלילה מחלות - זה גם משפיע על כתב היד. אז גם ברפואה יש לזה שימוש - אם אנחנו רואים שכתב היד לא אופייני לכתב היד של קבוצת הגיל, יכול להיות שמתפתחות מחלות".
בשנת 2024 אנשים עוד כותבים ביד? יש דבר כזה "כתב יד"?
"עדיין יש כתב יד, אפילו שזה עובר לכיוון הדיגיטלי. למשל אצל עורכי דין חייב להגיע באופן פיזי ולחתום. ויש גם בטאבלט: הבת שלי לא כותבת על נייר, אבל היא כותבת בכתב יד על טאבלט, אז אנחנו מקבלים תמונה דיגיטלית של כתב יד. התחום הזה הוא תחום שנחקר, יש לקהילה שלנו כנס בינלאומי, יש מגזין שעוסק בניתוח וזיהוי מסמכים, אז כן - אפילו גם שאנחנו עוברים לעולם הדיגיטלי".
"להגן מפני רוחות או לעשות עין הרע"
המחקר השלישי בו מעורבת רבייב מצית את הדמיון אפילו עוד יותר, והוא עוסק בפריטים ארכיאולוגיים הנקראים "קערות לחש". "אני מדברת על קערות שנכתבו בין המאה ה-4 למאה ה-7 לספירה באזור מסופוטמיה, שזה האזור של איראן ועיראק של ימינו", מספרת בהתלהבות ד"ר רבייב. "הקערות האלה היו עשויות בדרך כלל מחימר, ועליהן היה כתב בצורת ספירלה, באותיות עבריות, והיו קוברים את הקערות האלה בכניסה לדלת הבית. נהוג להאמין שהקערות האלה הכילו כל מיני לחשים כדי להגן על בעלי הבתים האלה מרוחות ושדים רעים, או תפילות לרפואה שלמה ובקשות נגד הפלות, ולפעמים גם כדי לעשות עין רעה למישהו".
"יש תמונות של הקערות האלה, רבות מהן נמצאות במוזיאון הבריטי בלונדון, ולא תמיד אלה קערות שלמות כי מדובר על חפירות מהמאה הרביעית עד השביעית לספירה. אז אנחנו מנסים לעשות ניתוח של הקערות האלה, לסווג אותן. יש קערות שנכתב עליהן משהו, אבל חוקרת מארה"ב שעובדת איתנו אומרת שהן קערות שמישהו חיקה את כתב היד, שזה לא טקסט בעל משמעות, אז נניח לסווג את זה. או אם יש לנו תמונות של שני שברים, להגיד אם הם הגיעו מאותה קערה. לא ברור מי בדיוק כתב את הטקסט על הקערות, נהוג להאמין שאולי רבנים שהכירו את המנהגים היהודיים והפגאניים באותה תקופה, אבל גם חושבים שאולי מי שכתב הם אנשים שפשוט היה להם רקע ביהדות. אז הניתוח האוטומטי יכול לשפוך אור ולענות על השאלות האלה".
נשמע שאת אוהבת את העבודה שלך
"כמובן, זה מאוד מעניין. למדתי הרבה דברים שלא ידעתי, אני פוגשת אנשים מאוד מעניינים - אז זה פותח לי את האופקים. התחום הזה של עיבוד תמונה וראייה ממוחשבת זה משהו שאני מאוד אוהבת, והאינטראקציה עם האנשים השונים, זה מרתק".