יום ראשון, 8 במרץ 2020

דיקטה - כלים דיגיטליים לעיבוד טקסטים עבריים: מקרא, תלמודים ועוד

ד״ר לאה מזור, האוניברסיטה העברית

האתר של דיקטה

רוצים כלי מגניב לניקוד אוטומטי? חיפוש קל של מילים וביטויים בתנ״ך? גילוי חרוזים ומצלולים ועוד ועוד? והכל חינם אין כסף? ראו כאן.

׳המטרה שלנו היא לחסוך מכם את העבודה השחורה שבמחקר טקסטים עבריים, קלאסיים ומודרניים כאחד, כדי שתוכלו להתמקד בשאלות המחקר העיקריות. דיקטה היא ארגון ללא מטרת רווח ותוצריה החינמיים לתועלת הציבור׳ (מתוך: ׳אודות דיקטה׳). והצוות של דיקטה? ראו כאן.

מה יש בדיקטה?
א. נקדן, ניקוד אוטומטי של טקסטים בעברית רבנית ומודרנית.

ב. חיפוש בתנ״ך - חיפוש מילים וביטויים בתנ"ך באופן אינטואיטיבי, בלי צורך להתעסק בהבדלי איות והטיה.

ג. איתור אזכורים תנ״כיים ותלמודיים בטקסטים. ניתן לקבוע את רמת הדיוק של האיזכורים בסרגל ייעודי שנע מ׳גבוהה׳ ל׳נמוכה׳.
למשל, הזנתי לתוכנה קטעים משירו של יהודה עמיחי, ׳מעין אחרית הימים׳:
הָאִישׁ תַּחַת תְּאֵנָתוֹ טִלְפֵּן לָאִישׁ תַּחַת גַּפְנוֹ...
הַכֶּבֶשׂ הַלָּבָן אָמַר לַזְּאֵב...
כָּל הַגּוֹיִים (הַמְּאֻחָדִים) יִנְהֲרוּ לִיְרוּשָׁלַיִם
לִרְאוֹת אִם יָצְאָה תּוֹרָה, וּבֵינְתַיִם....
וְכִתְּתוּ חֶרֶב לְמַזְמֵרָה וּמַזְמֵרָה לְחֶרֶב
וְחוֹזֵר חֲלִילָה וְשׁוּב בְּלִי הֶרֶף....
אוּלַי מִכִּתּוּתִים וְהַשְׁחָזוֹת הַרְבֵּה,
בַּרְזֶל הָרִיב בָּעוֹלָם יִכְלֶה.

ביקשתי דרגת דיוק נמוכה וזו התוצאה שקיבלתי:
הָאִישׁ תַּחַת תְּאֵנָתוֹ[1] טִלְפֵּן לָאִישׁ תַּחַת גַּפְנוֹ[2]...
הַכֶּבֶשׂ הַלָּבָן אָמַר לַזְּאֵב...
כָּל הַגּוֹיִים (הַמְּאֻחָדִים) יִנְהֲרוּ לִיְרוּשָׁלַיִם
לִרְאוֹת[3] אִם יָצְאָה תּוֹרָה, וּבֵינְתַיִם....
וְכִתְּתוּ חֶרֶב לְמַזְמֵרָה[4] וּמַזְמֵרָה לְחֶרֶב
וְחוֹזֵר חֲלִילָה וְשׁוּב בְּלִי הֶרֶף....
אוּלַי מִכִּתּוּתִים וְהַשְׁחָזוֹת הַרְבֵּה,
בַּרְזֶל הָרִיב בָּעוֹלָם יִכְלֶה.

הערה:
שירו של עמיחי מתכתב עם חזון קץ המלחמות בישעיה ב, 4-2 אבל גם עם נבואת החוטר מגזע ישי. השורה בשיר  ׳הַכֶּבֶשׂ הַלָּבָן אָמַר לַזְּאֵב…׳ מתכתבת עם  ׳וְגָר זְאֵב עִם־כֶּבֶשׂ׳ (ישעיה יא 6) אך את זה התוכנה לא זיהתה. 

ניתן לסנן את התוצאות ולבחור אם לכלול אזכורים מהתנ״ך בלבד או מהתלמוד בלבד או משניהם.
התצוגת ׳הערות שוליים׳ תציג במרוכז את כל האזכורים. תצוגת ׳גרף׳ תציג את מפה של קשרים בין האזכורים לבין הספרים בתנ״ך, בתלמוד ובמשנה.

ד. פיענוח ראשי תיבות בטקסטים רבניים. לאחר הזנת הטקסט יוצג הטקסט המקורי שיכלול את פענוח ראשי התיבות. ניתן גם לערוך ולבחור בין אפשרויות פענוח חלופות.

ה. חיפוש בתלמוד. חיפוש מילים וביטויים בתלמוד ובמשנה באופן אינטואיטיבי, מבלי להתעסק בהבדלי איות והטיה.

ו. השוואת גרסאות (סינופסיס)
השוואה בין שתי גרסאות ומעלה של טקסט. הכלי מסמן את ההבדלים בין הגרסאות השונות ומאתר את המילים המקבילות (כולל שינויים בכתיב ומילים נרדפות).

ז. סיווג סגנוני של טקסטים מקראיים
סיווג טקסטים על בסיס מאפיינים סגנוניים ושיוכם לקטגוריה הקרובה ביותר מבחינה סגנונית. לדוגמא: ניתן לסמן דוגמאות של קטגוריית עברית מקראית קדומה, למשל יהושע שופטים, ודוגמאות של קטגוריית עברית מקראית מאוחרת, למשל אסתר ועזרא. הכלי יאפיין כל קטגוריה מבחינה סגנונית ואז יכריע לאיזו קטגוריה שייך טקסט שלישי שנבחר, כדוגמת יואל.

ח. פילוח סגנוני. חלוקת טקסט לפי מאפיינים סגנונייםץ

ט. חרוזית. איתור חרוזים, מצלול ואליטרציה על בסיס מילת חיפוש. אפשר לסנן את תוצאות החיפוש באמצעות הזנת מילים משדה סמנטי רצוי ומאפיינים דקדוקיים נוספים.





2 comments:

  1. התוכנה פספסה גם את הרמז ל"כי מציון תצא תורה // ודבר ה' מירושלם"

    השבמחק
  2. וגם את הסיפא של פס' ב' בישעיה התוכנה פספסה: "וְהָיָה בְּאַחֲרִית הַיָּמִים... וְנָהֲרוּ אֵלָיו כָּל הַגּוֹיִם" = כָּל הַגּוֹיִים (הַמְּאֻחָדִים) יִנְהֲרוּ לִיְרוּשָׁלַיִם (לשיר קוראים "אחרית הימים")

    השבמחק