ציטוט: |
הבעיה עם עברית זה לא התווים, אלא סדר התווים. בלטינית זה משמאל לימין (הצורה שבד"כ שומרים את המידע גם), בעברית זה מימין לשמאל (אבל המידע עדיין נשמר משמאל לימין).
|
זאת בעיית תצוגה בלבד. לא רלוונטי לחיפוש - במיקרים האלו הטסט הוא לוגי (מיקום 2,3,4... וכו').
ציטוט: |
תאורטית אין בעיה לחפש בעברית, פשוט צריך להחליט על הגישה - האם המחרוזת תשמר הפוך או האם החיפוש יהיה מהסוף להתחלה. |
קרא למעלה. אתה טועה ומטעה.
ציטוט: |
השאר זה להגדיר מה סוג החיפוש שצריך - fuzzy או substring (למשל). |
אם המטרה היא לחפש מחרוזת תוך כדי התעלמות מסימני ניקוד (אַאָאִאְאִאֵאֶ וכו' [1]) אז אין דבר כזה בשלוף. אתה צריך לכתוב פונקציה שמססנת את כל סימני הניקוד, משתי המחרוזות ואז לבצע חיפוש חדש. (או לכתוב חיפוש שמדלג על התווים האלו).
ציטוט: |
ובערבית אולי זה יעבוד לאותיות מחוברות.
|
הידע שלי בערבית קטן לכן קחו בעירבון מוגבל את מה שאני כותב כאן. ערבית יש לה בעייה - שהאותיות (הגליפים) מתחברים אחד לשני בהתאם למש שיש משני הצדדים (מלמדים שתמיד מתחבר מצד ימין, אבל הציור של התו תלוי בשני הצדדים). לכן לכל תו יש צורה "אני לא מחובר", "מחובר משני הצדדים" "מחובר משמאל בלבד", "מחובר מימין בלבד".
אבל... זה רק בשלב התצוגה. במחרוזת - שמורה רק הצורה של "הגליף שלא מתחבר לאף אחד מכל צד".
נסו: קחו את הטקט הזה
أنا آكل الزجاج وأنا أحب ذلك תדביקו לתוכנת הטקסט האהובה עליכם, ופשוט שימו רווחים בין אותיות. זה מתחיל להשתולל יפה... אם תשמרו על דיסק - ואז תעשו hexdump תראו שהתוכן לא כזה השתנה.
יש עוד דוגמאות כאן:
https://glyphsapp.com/learn/arabic
[1] מעניין... חשבתי שאם אני אשים את הניקוד בלי אותיות, הוא יצויר אחד ליד השני. הפיתרון שמצאתי הוא לשים "א". אם יש פתרון אחר - למשל אות "ריקה" - תסבירו לי