עבר הרבה זמן מאז שניסיתי לבנות רשימת מילים עברית עבור aspell, אבל למיטב זכרוני יש שתי בעיות:
1. aspell אינו תומך בדחיסת תחיליות - יחד עם המילה "כלב" צריך להוסיף רשימה ארוכה: הכלב, לכלב, מהכלב, כשהכלב, ושכשהכלב וכו'.
2. רשימת המילים בעברית ארוכה מאוד (מכילה את כלב, כלבים, כלביהם וכו' למרות שיש בינהן דימיון רב).
hspell יודע אילו תחיליות מותרות לאילו מילים בעברית, ומצליח לשמור את רשימת המילים באופן מאוד יעיל (בערך ביט אחד לכל מילה!)
אבל אין מניעה
עקרונית להשתמש ברשימת המילים של פרויקט hspell ולשלב אותה במאיית יותר סטנדרטי. יש מאייתים שתומכים בדחיסת תחיליות (ispell, myspell) ואם מישהו יצליח לתרגם את רשימת המילים שלנו למאייתים אלה - כולנו נשמח.
בעיה מס' שתיים אומנם מפחידה, אבל אורך הרשימה שלנו איננו אבסורדי לחלוטין. הגרסה ה"שמנה" כוללת כ-400 אלף מילים, בעוד שהמילון האנגלי של aspell כולל
| קוד: |
$ aspell dump master|wc -l
153675
|
בקיצור - כמו תמיד עם קוד פתוח - זה לא יקרה מעצמו. את/ה צריך/ה לעשות את זה!