תכנית הטוקניזציה מחלקת את הטכסט ליחידות של מילים, משפטים ופסקאות. בעברית, כמו ברוב השפות, מילים נגמרות ברווח או בסימן פיסוק ומשפטים בנקודה. יש להתמודד עם העובדה שלפעמים מילה מכילה סימני פיסוק.
כלי הטוקניזציה של מיל"ה מחלק טקסט עברי לא מנוקד בפורמט UTF-8 לתמניות (טוקנים), משפטים ופסקאות. הפלט הוא בפורמט XML ע"פ הסטנדרטים של קורפוסים.
-
דמו מקוון (מחלק למתניות)
הכניסו טקסט עברי לא מנוקד:
-
תכנית מלאה
מחלק לתמניות (טוקנים), משפטים ופסקאות.
סכמות ה-XML מצייתות לסטנדרטים של מיל"ה.
דרושה סיסמה. אנא הירשמו לקבלת גישה (ללא תשלום לשימושים לא-מסחריים).
תודות
- פיתוח: דליה בוז'ן.
- תחזוקה: יוסי יעקב, מהנדס מחקר (צור קשר).
הרשאות
שימושים לא מסחריים בכלי זה מותרים תחת הרשיון הציבורי הכללי של גנו (GPL). כל פרסום מדעי הנובע משימוש בכלי זה צריך להתייחס אליו כאל "תוכנת הטוקניזציה של מיל"ה (MILA Tokenization Tool)" ולצטט את המאמר הבא:
Alon Itai and Shuly Wintner. "Language Resources for Hebrew." Language Resources and Evaluation 42(1):75-98, March 2008. [BibTeX]
לשימושים מסחריים, אנא צור קשר עם מיל"ה.
