פורסם: 11/09/2023 - 14:53
נושא ההודעה: חיפוש צרופי אותיות בעברית, וניקוד
|
באנגלית נהוג לפעמים לאפשר חיפוש של אותיות גדולות וקטנות באותו זמן. האם עד כאן הכונה ברורה?
באיזו מידה יש ענין כזה בשפות שאינן אנגלית?
באיזו מידה ניתן שחיפוש צרופי אותיות בעברית יכלול גם את הצרוף מנוקד, ולא מנוקד, בו זמנית?
|
|
חזרה לתוכן הדיון |
פורסם: 11/09/2023 - 15:13
נושא ההודעה:
|
האם אתה מתכוון ל fuzzy search או לחיפוש בתוך מחרוזת (תת מחרוזת)? או סוג אחר של חיפוש?
הבעיה עם עברית זה לא התווים, אלא סדר התווים. בלטינית זה משמאל לימין (הצורה שבד"כ שומרים את המידע גם), בעברית זה מימין לשמאל (אבל המידע עדיין נשמר משמאל לימין).
תאורטית אין בעיה לחפש בעברית, פשוט צריך להחליט על הגישה - האם המחרוזת תשמר הפוך או האם החיפוש יהיה מהסוף להתחלה.
השאר זה להגדיר מה סוג החיפוש שצריך - fuzzy או substring (למשל).
|
|
חזרה לתוכן הדיון |
פורסם: 11/09/2023 - 16:04
נושא ההודעה:
|
Anonymous : | האם אתה מתכוון ל fuzzy search או לחיפוש בתוך מחרוזת (תת מחרוזת)? או סוג אחר של חיפוש?
הבעיה עם עברית זה לא התווים, אלא סדר התווים. בלטינית זה משמאל לימין (הצורה שבד"כ שומרים את המידע גם), בעברית זה מימין לשמאל (אבל המידע עדיין נשמר משמאל לימין).
תאורטית אין בעיה לחפש בעברית, פשוט צריך להחליט על הגישה - האם המחרוזת תשמר הפוך או האם החיפוש יהיה מהסוף להתחלה.
השאר זה להגדיר מה סוג החיפוש שצריך - fuzzy או substring (למשל). |
עד כמה שאני מבין מה זה fuzzy search, איני מתכון לכך. באנגלית, המקביל של הדגל
-i, --ignore-case
Ignore case distinctions in patterns and input data,
so that characters that differ only in case match each
other.
של grep מופיע על כל צעד ושעל. כמעט בכל gui הם מאפשרים ignore-case.
האם לעברית יש מקביל של ignore-nikud? האם יש בכלל, לא עד מה הוא נפוץ. האם יש בכלל? שאפשר יהיה לחפש מלים מנוקדות רק לפי המלה ללא הניקוד? ולהיפך: לחפש את המלה המנוקדת, ולקבל גם תוצאות של המלה שמופיעה בלי הניקוד?
באופן כללי, עם אותו מנגנון אפשר יהיה גם לחפש מלים לפי אותה מלה עם טעמי המקרא.
|
|
חזרה לתוכן הדיון |
פורסם: 11/09/2023 - 16:11
נושא ההודעה:
|
Anonymous : | Anonymous : | האם אתה מתכוון ל fuzzy search או לחיפוש בתוך מחרוזת (תת מחרוזת)? או סוג אחר של חיפוש?
הבעיה עם עברית זה לא התווים, אלא סדר התווים. בלטינית זה משמאל לימין (הצורה שבד"כ שומרים את המידע גם), בעברית זה מימין לשמאל (אבל המידע עדיין נשמר משמאל לימין).
תאורטית אין בעיה לחפש בעברית, פשוט צריך להחליט על הגישה - האם המחרוזת תשמר הפוך או האם החיפוש יהיה מהסוף להתחלה.
השאר זה להגדיר מה סוג החיפוש שצריך - fuzzy או substring (למשל). |
עד כמה שאני מבין מה זה fuzzy search, איני מתכון לכך. באנגלית, המקביל של הדגל
-i, --ignore-case
Ignore case distinctions in patterns and input data,
so that characters that differ only in case match each
other.
של grep מופיע על כל צעד ושעל. כמעט בכל gui הם מאפשרים ignore-case.
האם לעברית יש מקביל של ignore-nikud? האם יש בכלל, לא עד מה הוא נפוץ. האם יש בכלל? שאפשר יהיה לחפש מלים מנוקדות רק לפי המלה ללא הניקוד? ולהיפך: לחפש את המלה המנוקדת, ולקבל גם תוצאות של המלה שמופיעה בלי הניקוד?
באופן כללי, עם אותו מנגנון אפשר יהיה גם לחפש מלים לפי אותה מלה עם טעמי המקרא. |
ובערבית אולי זה יעבוד לאותיות מחוברות.
|
|
חזרה לתוכן הדיון |
פורסם: 13/09/2023 - 11:58
נושא ההודעה:
|
ציטוט: |
הבעיה עם עברית זה לא התווים, אלא סדר התווים. בלטינית זה משמאל לימין (הצורה שבד"כ שומרים את המידע גם), בעברית זה מימין לשמאל (אבל המידע עדיין נשמר משמאל לימין).
|
זאת בעיית תצוגה בלבד. לא רלוונטי לחיפוש - במיקרים האלו הטסט הוא לוגי (מיקום 2,3,4... וכו').
ציטוט: |
תאורטית אין בעיה לחפש בעברית, פשוט צריך להחליט על הגישה - האם המחרוזת תשמר הפוך או האם החיפוש יהיה מהסוף להתחלה. |
קרא למעלה. אתה טועה ומטעה.
ציטוט: |
השאר זה להגדיר מה סוג החיפוש שצריך - fuzzy או substring (למשל). |
אם המטרה היא לחפש מחרוזת תוך כדי התעלמות מסימני ניקוד (אַאָאִאְאִאֵאֶ וכו' [1]) אז אין דבר כזה בשלוף. אתה צריך לכתוב פונקציה שמססנת את כל סימני הניקוד, משתי המחרוזות ואז לבצע חיפוש חדש. (או לכתוב חיפוש שמדלג על התווים האלו).
ציטוט: |
ובערבית אולי זה יעבוד לאותיות מחוברות.
|
הידע שלי בערבית קטן לכן קחו בעירבון מוגבל את מה שאני כותב כאן. ערבית יש לה בעייה - שהאותיות (הגליפים) מתחברים אחד לשני בהתאם למש שיש משני הצדדים (מלמדים שתמיד מתחבר מצד ימין, אבל הציור של התו תלוי בשני הצדדים). לכן לכל תו יש צורה "אני לא מחובר", "מחובר משני הצדדים" "מחובר משמאל בלבד", "מחובר מימין בלבד".
אבל... זה רק בשלב התצוגה. במחרוזת - שמורה רק הצורה של "הגליף שלא מתחבר לאף אחד מכל צד".
נסו: קחו את הטקט הזה أنا آكل الزجاج وأنا أحب ذلك תדביקו לתוכנת הטקסט האהובה עליכם, ופשוט שימו רווחים בין אותיות. זה מתחיל להשתולל יפה... אם תשמרו על דיסק - ואז תעשו hexdump תראו שהתוכן לא כזה השתנה.
יש עוד דוגמאות כאן: https://glyphsapp.com/learn/arabic
[1] מעניין... חשבתי שאם אני אשים את הניקוד בלי אותיות, הוא יצויר אחד ליד השני. הפיתרון שמצאתי הוא לשים "א". אם יש פתרון אחר - למשל אות "ריקה" - תסבירו לי
|
|
חזרה לתוכן הדיון |
פורסם: 13/09/2023 - 21:50
נושא ההודעה:
|
בשפת הביטויים הרגולריים של emacs זה קיים מזמן, אבל התחביר לחיפושים הוא מאד קשה.
הייתי מצפה שיהיה חיפוש כזה באחת מחבילות האופיס, זה לא יחודי לעברית, ולא קשור לכיווניות הטקסט. בשפות דרום אסיה (הודו) זה אפילו די נחוץ בעבודה יומיומית.
(וכן, במיקרוסופט זה כבר קיים הרבה מאד שנים)
|
|
חזרה לתוכן הדיון |
פורסם: 14/09/2023 - 19:31
נושא ההודעה: ספריות של דרום אסיה ושימוש במקירוסופט.
|
borsood : | בשפת הביטויים הרגולריים של emacs זה קיים מזמן, אבל התחביר לחיפושים הוא מאד קשה.
הייתי מצפה שיהיה חיפוש כזה באחת מחבילות האופיס, זה לא יחודי לעברית, ולא קשור לכיווניות הטקסט. בשפות דרום אסיה (הודו) זה אפילו די נחוץ בעבודה יומיומית. |
האם הבנתי נכון שלדרום אסיה (הודו) יש מקבילה לניקוד בעברית? אולי יש להם ספריות שמממשות חיפוש עם/בלי ניקוד מהסוג שלהם?
borsood : |
(וכן, במיקרוסופט זה כבר קיים הרבה מאד שנים) |
האם בחלונות קוראי ה PDF משתמשים בזה?
|
|
חזרה לתוכן הדיון |
פורסם: 14/09/2023 - 23:23
נושא ההודעה:
|
לא יודע לגבי ספריות, אבל בהכללה לשפות הודיות כן. אני די בטוח שיש הגדרות יונקוד לזה.
למעשה זה גם שימושי, אבל פחות בשפות לטיניות. חיפש של e שיתאים גם ל é è ĕ ê ế ě ë ę ē
הביטוי שאתה מחפש הוא ignore/match diacritics.
גם בחיפוש של השואש יש את זה, וגם בקורא הPDF foxit.
|
|
חזרה לתוכן הדיון |
פורסם: 16/09/2023 - 09:52
נושא ההודעה:
|
borsood : | לא יודע לגבי ספריות, אבל בהכללה לשפות הודיות כן. אני די בטוח שיש הגדרות יונקוד לזה.
למעשה זה גם שימושי, אבל פחות בשפות לטיניות. חיפש של e שיתאים גם ל é è ĕ ê ế ě ë ę ē
הביטוי שאתה מחפש הוא ignore/match diacritics.
גם בחיפוש של השואש יש את זה, וגם בקורא הPDF foxit. |
במיקרה של אותיות לטינית - מדובר על "במקום גליף ế תחםש e". במיקרה של עברית - זה רצף של שני גליפים. לא אותו סיפור.
|
|
חזרה לתוכן הדיון |
פורסם: 25/09/2023 - 20:58
נושא ההודעה:
|
[quote="elcuco"][quote="borsood"]
במיקרה של אותיות לטינית - מדובר על "במקום גליף ế תחםש e". במיקרה של עברית - זה רצף של שני גליפים. לא אותו סיפור.[/quote]
לא הנבנתי מה ההבדל: גם ế מורכב משני גליפים : e ו- ◌̃.
אז מה ההבדל?
|
|
חזרה לתוכן הדיון |
פורסם: 26/09/2023 - 21:36
נושא ההודעה:
|
[quote="borsood"] elcuco : | borsood : |
במיקרה של אותיות לטינית - מדובר על "במקום גליף ế תחםש e". במיקרה של עברית - זה רצף של שני גליפים. לא אותו סיפור. |
לא הנבנתי מה ההבדל: גם ế מורכב משני גליפים : e ו- ◌̃.
אז מה ההבדל? |
זה מורכב מתו בודד המצויר כמו צירוף של 2 תווים.
אין לעברית תו בודד על כל סוג ניקוד, אלא צירוף של תו נוסף בציור הנראה כאילו מדובר בתו בודד, אך למעשה אלו 2 תווים המורכבים ביחד.
וזה עוד לפני דיבור על סימנים לא מודפסים כמו rlm ו lrm למשל.
|
|
חזרה לתוכן הדיון |
פורסם: 29/09/2023 - 10:57
נושא ההודעה:
|
זה נכון לכל התווים שיש להם הרכבה. יש ביוניקוד אלגוריתם של פירוק והרכבה (נורמליזציה) UAX15 .
כלומר הרכבה של e (U0065) עם ◌̃ (U0303) כדי ליצור את ẽ (U1EBD)
אבל שים לב שגם בעברית יש תווים "מורכבים מראש" אפשר להרכיב ב (U05D1) עם ◌◌ּ (U05BC)
כדי לקבל בּ (UFB31).
ככה שחיפוש שצריך להתעלם מהרכבות צריך להפעיל את הפירוק (דה-נורמליזזציה) לפני החיפוש.
כל זה כמובן לא קשור לדו-כיווניות מאלגוריתם UAX9 ותווי הבקרה שלו.
|
|
חזרה לתוכן הדיון |
|