תומר קקו וטל בן אהרון בני זוג וסטודנטים להנדסת תוכנה ב SCE המכללה האקדמית להנדסה ע"ש סמי שמעון פיתחו במהלך לימודיהם מערכת חדשנית לזיהוי טקסטים בכתב יד בשפה העברית )מערכת OCR). את הפרויקט הם הובילו תוך כדי שירות מילואים עם קרוב ל 200 ימי שירות פעיל כלוחמים.
הרעיון לפרויקט נולד כאשר סיפרה להם המנחה המלווה אותם בפרויקט, על הקושי לבדוק מבחנים הכתובים בכתב יד לא ברור. מתוך הצורך המעשי נולד הרעיון לפתח כלי המפענח טקסטים כתובים באופן אוטומטי ובכך יחסוך זמן, יפחית טעויות וישפר את תהליכי העבודה מול מסמכים בכתב יד.
העבודה על הפרויקט דרשה השקעה וזמן רב, במיוחד לאור העובדה שבחודשים האחרונים תומר וטל משרתים בשירות מילואים פעיל. "נאלצנו לרכז את רוב הפיתוח לחצי השנה הראשונה של השנה, לפני שיצאנו למילואים", מספר תומר. "לא הספקנו הכול כי היו דברים שנאלצנו לדחות לסוף. אנחנו משלבים בין המילואים ללימודים, משתדלים לעשות את הכי טוב שאנחנו יכולים."

המערכת שפיתחו מתמודדת עם משימה מאתגרת בתחום הבינה המלאכותית: פענוח טקסטים בכתב יד בדגש על השפה העברית. הטכנולוגיה שפיתחו בנויה ממספר שלבים: תחילה המערכת מפצלת את הטקסט הכתוב לאותיות בודדות לפי הסדר, ולאחר מכן מזהה כל אות באמצעות מודל מסוג טרנספורמר. בהמשך, האותיות מחוברות מחדש למילים ולמשפטים, והמערכת מתקנת את הפלט לפי ההקשר, מה שמאפשר רמת דיוק גבוהה במיוחד גם כשמדובר בטקסטים לא ברורים או סרוקים בתנאים לא אופטימליים.
ד"ר נטליה וונטיק המנחה והמרצה של הסטודנטים במחלקה להנדסת תוכנה בSCE: "השפה העברית נחשבת לשפה דלת משאבים בתחום עיבוד שפה טבעית, ועד כה לא פותח כלי OCR שמסוגל להתמודד היטב עם טקסטים בעברית בכתב יד. דווקא בשל האתגר הזה, אני רואה חשיבות מיוחדת בפרויקט, הוא ממלא חלל ממשי בשדה המחקר והפיתוח, ועשוי לתרום תרומה של ממש לקהילה המקצועית והחינוכית."