ווטסאפ - לינוקס, BSD, קוד פתוח ותוכנה חופשית בעברית. Whatsup - Linux, BSD, open source and free software in Hebrew

 
 
  כניסת חברים · רישום · שכחתי סיסמה  
tux the penguin
תגובה לנושא
צפיה בנושא הבא Printable version התחבר כדי לבדוק הודעות פרטיות צפיה בנושא הקודם
אורח · ·
 

הודעה פורסם: 11/09/2023 - 14:53
נושא ההודעה: חיפוש צרופי אותיות בעברית, וניקוד

באנגלית נהוג לפעמים לאפשר חיפוש של אותיות גדולות וקטנות באותו זמן. האם עד כאן הכונה ברורה?
באיזו מידה יש ענין כזה בשפות שאינן אנגלית?
באיזו מידה ניתן שחיפוש צרופי אותיות בעברית יכלול גם את הצרוף מנוקד, ולא מנוקד, בו זמנית?
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
אורח · ·
 

הודעה פורסם: 11/09/2023 - 15:13
נושא ההודעה:

האם אתה מתכוון ל fuzzy search או לחיפוש בתוך מחרוזת (תת מחרוזת)? או סוג אחר של חיפוש?

הבעיה עם עברית זה לא התווים, אלא סדר התווים. בלטינית זה משמאל לימין (הצורה שבד"כ שומרים את המידע גם), בעברית זה מימין לשמאל (אבל המידע עדיין נשמר משמאל לימין).

תאורטית אין בעיה לחפש בעברית, פשוט צריך להחליט על הגישה - האם המחרוזת תשמר הפוך או האם החיפוש יהיה מהסוף להתחלה.

השאר זה להגדיר מה סוג החיפוש שצריך - fuzzy או substring (למשל).
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
אורח · ·
 

הודעה פורסם: 11/09/2023 - 16:04
נושא ההודעה:

Anonymous :
האם אתה מתכוון ל fuzzy search או לחיפוש בתוך מחרוזת (תת מחרוזת)? או סוג אחר של חיפוש?

הבעיה עם עברית זה לא התווים, אלא סדר התווים. בלטינית זה משמאל לימין (הצורה שבד"כ שומרים את המידע גם), בעברית זה מימין לשמאל (אבל המידע עדיין נשמר משמאל לימין).

תאורטית אין בעיה לחפש בעברית, פשוט צריך להחליט על הגישה - האם המחרוזת תשמר הפוך או האם החיפוש יהיה מהסוף להתחלה.

השאר זה להגדיר מה סוג החיפוש שצריך - fuzzy או substring (למשל).

עד כמה שאני מבין מה זה fuzzy search, איני מתכון לכך. באנגלית, המקביל של הדגל
-i, --ignore-case
Ignore case distinctions in patterns and input data,
so that characters that differ only in case match each
other.
של grep מופיע על כל צעד ושעל. כמעט בכל gui הם מאפשרים ignore-case.
האם לעברית יש מקביל של ignore-nikud? האם יש בכלל, לא עד מה הוא נפוץ. האם יש בכלל? שאפשר יהיה לחפש מלים מנוקדות רק לפי המלה ללא הניקוד? ולהיפך: לחפש את המלה המנוקדת, ולקבל גם תוצאות של המלה שמופיעה בלי הניקוד?
באופן כללי, עם אותו מנגנון אפשר יהיה גם לחפש מלים לפי אותה מלה עם טעמי המקרא.
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
אורח · ·
 

הודעה פורסם: 11/09/2023 - 16:11
נושא ההודעה:

Anonymous :
Anonymous :
האם אתה מתכוון ל fuzzy search או לחיפוש בתוך מחרוזת (תת מחרוזת)? או סוג אחר של חיפוש?

הבעיה עם עברית זה לא התווים, אלא סדר התווים. בלטינית זה משמאל לימין (הצורה שבד"כ שומרים את המידע גם), בעברית זה מימין לשמאל (אבל המידע עדיין נשמר משמאל לימין).

תאורטית אין בעיה לחפש בעברית, פשוט צריך להחליט על הגישה - האם המחרוזת תשמר הפוך או האם החיפוש יהיה מהסוף להתחלה.

השאר זה להגדיר מה סוג החיפוש שצריך - fuzzy או substring (למשל).

עד כמה שאני מבין מה זה fuzzy search, איני מתכון לכך. באנגלית, המקביל של הדגל
-i, --ignore-case
Ignore case distinctions in patterns and input data,
so that characters that differ only in case match each
other.
של grep מופיע על כל צעד ושעל. כמעט בכל gui הם מאפשרים ignore-case.
האם לעברית יש מקביל של ignore-nikud? האם יש בכלל, לא עד מה הוא נפוץ. האם יש בכלל? שאפשר יהיה לחפש מלים מנוקדות רק לפי המלה ללא הניקוד? ולהיפך: לחפש את המלה המנוקדת, ולקבל גם תוצאות של המלה שמופיעה בלי הניקוד?
באופן כללי, עם אותו מנגנון אפשר יהיה גם לחפש מלים לפי אותה מלה עם טעמי המקרא.

ובערבית אולי זה יעבוד לאותיות מחוברות.
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
elcucoלא בפורום כעת ת.הצטרפות: 14/10/2003 · הודעות: 6259 ·
 

הודעה פורסם: 13/09/2023 - 11:58
נושא ההודעה:

ציטוט:

הבעיה עם עברית זה לא התווים, אלא סדר התווים. בלטינית זה משמאל לימין (הצורה שבד"כ שומרים את המידע גם), בעברית זה מימין לשמאל (אבל המידע עדיין נשמר משמאל לימין).


זאת בעיית תצוגה בלבד. לא רלוונטי לחיפוש - במיקרים האלו הטסט הוא לוגי (מיקום 2,3,4... וכו').

ציטוט:

תאורטית אין בעיה לחפש בעברית, פשוט צריך להחליט על הגישה - האם המחרוזת תשמר הפוך או האם החיפוש יהיה מהסוף להתחלה.

קרא למעלה. אתה טועה ומטעה.

ציטוט:

השאר זה להגדיר מה סוג החיפוש שצריך - fuzzy או substring (למשל).

אם המטרה היא לחפש מחרוזת תוך כדי התעלמות מסימני ניקוד (אַאָאִאְאִאֵאֶ וכו' [1]) אז אין דבר כזה בשלוף. אתה צריך לכתוב פונקציה שמססנת את כל סימני הניקוד, משתי המחרוזות ואז לבצע חיפוש חדש. (או לכתוב חיפוש שמדלג על התווים האלו).


ציטוט:

ובערבית אולי זה יעבוד לאותיות מחוברות.

הידע שלי בערבית קטן לכן קחו בעירבון מוגבל את מה שאני כותב כאן. ערבית יש לה בעייה - שהאותיות (הגליפים) מתחברים אחד לשני בהתאם למש שיש משני הצדדים (מלמדים שתמיד מתחבר מצד ימין, אבל הציור של התו תלוי בשני הצדדים). לכן לכל תו יש צורה "אני לא מחובר", "מחובר משני הצדדים" "מחובר משמאל בלבד", "מחובר מימין בלבד".
אבל... זה רק בשלב התצוגה. במחרוזת - שמורה רק הצורה של "הגליף שלא מתחבר לאף אחד מכל צד".

נסו: קחו את הטקט הזה أنا آكل الزجاج وأنا أحب ذلك תדביקו לתוכנת הטקסט האהובה עליכם, ופשוט שימו רווחים בין אותיות. זה מתחיל להשתולל יפה... אם תשמרו על דיסק - ואז תעשו hexdump תראו שהתוכן לא כזה השתנה.

יש עוד דוגמאות כאן: https://glyphsapp.com/learn/arabic




[1] מעניין... חשבתי שאם אני אשים את הניקוד בלי אותיות, הוא יצויר אחד ליד השני. הפיתרון שמצאתי הוא לשים "א". אם יש פתרון אחר - למשל אות "ריקה" - תסבירו לי
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
borsoodלא בפורום כעת ת.הצטרפות: 05/01/2007 · הודעות: 307 ·
 

הודעה פורסם: 13/09/2023 - 21:50
נושא ההודעה:

בשפת הביטויים הרגולריים של emacs זה קיים מזמן, אבל התחביר לחיפושים הוא מאד קשה.
הייתי מצפה שיהיה חיפוש כזה באחת מחבילות האופיס, זה לא יחודי לעברית, ולא קשור לכיווניות הטקסט. בשפות דרום אסיה (הודו) זה אפילו די נחוץ בעבודה יומיומית.

(וכן, במיקרוסופט זה כבר קיים הרבה מאד שנים)
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
אורח · ·
 

הודעה פורסם: 14/09/2023 - 19:31
נושא ההודעה: ספריות של דרום אסיה ושימוש במקירוסופט.

borsood :
בשפת הביטויים הרגולריים של emacs זה קיים מזמן, אבל התחביר לחיפושים הוא מאד קשה.
הייתי מצפה שיהיה חיפוש כזה באחת מחבילות האופיס, זה לא יחודי לעברית, ולא קשור לכיווניות הטקסט. בשפות דרום אסיה (הודו) זה אפילו די נחוץ בעבודה יומיומית.

האם הבנתי נכון שלדרום אסיה (הודו) יש מקבילה לניקוד בעברית? אולי יש להם ספריות שמממשות חיפוש עם/בלי ניקוד מהסוג שלהם?
borsood :

(וכן, במיקרוסופט זה כבר קיים הרבה מאד שנים)

האם בחלונות קוראי ה PDF משתמשים בזה?
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
borsoodלא בפורום כעת ת.הצטרפות: 05/01/2007 · הודעות: 307 ·
 

הודעה פורסם: 14/09/2023 - 23:23
נושא ההודעה:

לא יודע לגבי ספריות, אבל בהכללה לשפות הודיות כן. אני די בטוח שיש הגדרות יונקוד לזה.
למעשה זה גם שימושי, אבל פחות בשפות לטיניות. חיפש של e שיתאים גם ל é è ĕ ê ế ě ë ę ē
הביטוי שאתה מחפש הוא ignore/match diacritics.
גם בחיפוש של השואש יש את זה, וגם בקורא הPDF‏ foxit.
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
elcucoלא בפורום כעת ת.הצטרפות: 14/10/2003 · הודעות: 6259 ·
 

הודעה פורסם: 16/09/2023 - 09:52
נושא ההודעה:

borsood :
לא יודע לגבי ספריות, אבל בהכללה לשפות הודיות כן. אני די בטוח שיש הגדרות יונקוד לזה.
למעשה זה גם שימושי, אבל פחות בשפות לטיניות. חיפש של e שיתאים גם ל é è ĕ ê ế ě ë ę ē
הביטוי שאתה מחפש הוא ignore/match diacritics.
גם בחיפוש של השואש יש את זה, וגם בקורא הPDF‏ foxit.


במיקרה של אותיות לטינית - מדובר על "במקום גליף ế תחםש e". במיקרה של עברית - זה רצף של שני גליפים. לא אותו סיפור.
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
borsoodלא בפורום כעת ת.הצטרפות: 05/01/2007 · הודעות: 307 ·
 

הודעה פורסם: 25/09/2023 - 20:58
נושא ההודעה:

[quote="elcuco"][quote="borsood"]
במיקרה של אותיות לטינית - מדובר על "במקום גליף ế תחםש e". במיקרה של עברית - זה רצף של שני גליפים. לא אותו סיפור.[/quote]
לא הנבנתי מה ההבדל: גם ế מורכב משני גליפים : e ו- ◌̃.
אז מה ההבדל?
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
אורח · ·
 

הודעה פורסם: 26/09/2023 - 21:36
נושא ההודעה:

[quote="borsood"]
elcuco :
borsood :

במיקרה של אותיות לטינית - מדובר על "במקום גליף ế תחםש e". במיקרה של עברית - זה רצף של שני גליפים. לא אותו סיפור.

לא הנבנתי מה ההבדל: גם ế מורכב משני גליפים : e ו- ◌̃.
אז מה ההבדל?


זה מורכב מתו בודד המצויר כמו צירוף של 2 תווים.

אין לעברית תו בודד על כל סוג ניקוד, אלא צירוף של תו נוסף בציור הנראה כאילו מדובר בתו בודד, אך למעשה אלו 2 תווים המורכבים ביחד.

וזה עוד לפני דיבור על סימנים לא מודפסים כמו rlm ו lrm למשל.
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
borsoodלא בפורום כעת ת.הצטרפות: 05/01/2007 · הודעות: 307 ·
 

הודעה פורסם: 29/09/2023 - 10:57
נושא ההודעה:

זה נכון לכל התווים שיש להם הרכבה. יש ביוניקוד אלגוריתם של פירוק והרכבה (נורמליזציה) UAX15 .
כלומר הרכבה של e (U0065) עם ◌̃ (U0303) כדי ליצור את ẽ (U1EBD)
אבל שים לב שגם בעברית יש תווים "מורכבים מראש" אפשר להרכיב ב (U05D1) עם ◌◌ּ (U05BC)
כדי לקבל בּ (UFB31).
ככה שחיפוש שצריך להתעלם מהרכבות צריך להפעיל את הפירוק (דה-נורמליזזציה) לפני החיפוש.
כל זה כמובן לא קשור לדו-כיווניות מאלגוריתם UAX9 ותווי הבקרה שלו.
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
הצגת הודעות מלפני:     
מעבר אל:  
כל הזמנים הם GMT + 2 שעות
תגובה לנושא
צפיה בנושא הבא Printable version התחבר כדי לבדוק הודעות פרטיות צפיה בנושא הקודם
PNphpBB2 © 2003-2004 

תוכן הדיון

  1. אורח
  2. אורח
  3. אורח
  4. אורח
  5. elcuco
  6. borsood
  7. אורח
  8. borsood
  9. elcuco
  10. borsood
  11. אורח
  12. borsood