קורפוסים

קורפוסים המתעדים שימוש בשפה הם משאבים יקרי ערך בתחומים שונים של בלשנות, כמו גם בבלשנות חישובית ועיבוד שפות טבעיות, שם הם משמשים לאיסוף נתונים כמותיים המאפשרים פיתוח של יישומים חישוביים מגוונים. מרכז הידע מפיץ מספר קורפוסים עבריים בתחומים שונים. כל הקורפוסים משווקים כטקסט גולמי, טקסט לאחר טוקניזציה או טקסט לאחר טוקניזציה ועיבוד מורפולוגי.

כל הקורפוסים מצייתים לסטנדרטים שפותחו על ידי המרכז.

קורפוס תיאור # תמניות # תבניות
הארץ
(HaAretz)
חדשות ומאמרים מעיתון "הארץ" בשנים 1990-91. 11,097,790 305,545
ערוץ 7
(Arutz 7)
חדשות ומאמרים מהאתר של "ערוץ 7" בשנים 2001-06. 15,107,618 323,943
דה מרקר
(TheMarker)
מאמרים מהעיתון הכלכלי "TheMarker," אוקטובר - מאי 2002. 692,919 62,216
הכנסת
(HaKnesset)
פרוטוקולי הדיונים של הכנסת, ינואר 2004 – נובמבר 2005. 15,066,731 204,967
ויקיפדיה
(Wikipedia)
מאמרים מהאנציקלופדיה המקוונת "ויקיפדיה," שנת 2010. 133,271,332 1,716,031
דוקטורס
(Doctors)
מאמרים מאתר הרפואי "Doctors." 232,695
אינפומד
(Infomed)
שאלות ותשובות מאתר הרפואי "Infomed," ינואר 2006- ספטמבר 2007. 189,586
טבע הריפוי
(Nature of Healing)
מאמרים מאתר הרפואי "טבע וריפוי." 75,969
להיות בריא
(To Be Healthy)
מאמרים ודיוני פורום מהאתר הרפואי "להיות בריא". 839,899
פורומים תפוז אנשים
(Tapuz People Forums)
דיונים מפורום "אנשים" של תפוז. מגוון נושאים. 1,397,173
עברית מדוברת בישראל
(Spoken Israeli Hebrew)
שיחות בעברית מדוברת וחלק של הקורפוס הישראלי לעברית מדוברת CoSIH. 92,838 11,635
עברית מנוקדת
(Hebrew Dotted Text)
מאמרים מהעיתונים "שער למתחיל" ו"ינשוף." הטקסטים מנוקדים חלקית. שער למתחיל: 8,419
ינשוף: 11,946
שער למתחיל: 4,811
ינשוף: 6,002