ווטסאפ - לינוקס, BSD, קוד פתוח ותוכנה חופשית בעברית. Whatsup - Linux, BSD, open source and free software in Hebrew

 
 
  כניסת חברים · רישום · שכחתי סיסמה  
tux the penguin
תגובה לנושא
צפיה בנושא הבא Printable version התחבר כדי לבדוק הודעות פרטיות צפיה בנושא הקודם
costelloלא בפורום כעת ת.הצטרפות: 27/09/2002 · הודעות: 551 · מיקום: אי שם...
 

הודעה פורסם: 10/09/2007 - 12:32
נושא ההודעה: soundex עברי

אני מתעניין בפונקציית soundex עברית - בשאיפה עבור php אבל אם היא חופשית אני אשמח לעשות גם המרה מכל שפה אחרת לטובת הכלל.

מעט חיפוש העלה שיש מספר גישות לsoundex עברי, החל משימוש באלגוריתם האמריקאי, תוך הגדרת ערכים לאותיות העבריות (וזה כמובן בעייתי - כי אנגלית "מתנהגת" שונה מעברית). מצאתי אפילו קוד חופשי שמיישם משהו כזה בדלפי -
http://cc.codegear.com/Item/20247

משהו קצת יותר טוב - הוא אלגוריתם Daitch-Mokotoff, שמותאם לשמות עבריים - או בעצם יהודיים (אבל עדיין כאלו שנכתבו באנגלית). יש אפילו יישום שלו על אותיות עבריות בג'אווה סקריפט -
http://stevemorse.org/hebrew/dmheb.html
כך שאפשר ללמוד מהקוד - אבל אני לא בטוח מה לגבי הרשיון, והאם יש פטנט על האלגוריתם (?). בכל מקרה - זו התקדמות, אבל זה עדיין לא אלגוריתם שמותאם לחלוטין לעברית.

בויקיפדיה מוזכרים אלגוריתם שפותח לצורך מרשם התושבים, ואלגוריתם Graphex שפותח ע"י אסא כשר בעת שרותו בצה"ל, אבל חיפוש על אלו לא הניב תוצאות שאפשר ללמוד מהן על האלגוריתמים עצמם או רעיונות איך ליישם אותם. כנראה שמעבר לזה צריך כבר להתחיל לקרא מאמרים אקדמיים ולא רק לחפש בגוגל...

למישהו יצא להתעסק/לחקור בנושא soundex עברי - ויכול לחלוק מסקנות שלא מצאתי, או להפנות אותי לחומרי קריאה רלוונטיים? אולי בכלל יש כבר פונקצית soundex עברית חופשית ופשוט פספסתי אותה?

_________________
גיא שקד
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
ik_5לא בפורום כעת ת.הצטרפות: 16/04/2002 · הודעות: 3026 · מיקום: ישראל
 

הודעה פורסם: 10/09/2007 - 17:15
נושא ההודעה:

דבר ראשון הקוד soundex העברי שמצאת הוא שלי, ומבוסס על האלגוריתם האנגלי.
כשמימשתי את האלגוריתם, הלכתי לפי החוקיות של מה הוא צליל, איזה אותיות נותנות צליל דומה וכו', לפי כמה כתבות לשוניות שמצאתי בזמנו, אך אינני זוכר בדיוק מה הן היו ולכן אינני יכול לספק לך קישורים.

אני מבין שאתה מנסה למצוא דרך מסויימת אשר תמצא לך מילים דומות. אני ממליץ על בדיקת קוד מורפולוגי, אשר הוא הרבה יותר מדוייק אלגוריתמית מsoundex.

בכל מקרה, כנראה שתאלץ (אלא אם משהו השתנה מאז הפעם האחרונה שאני חיפשתי) להשקיע את האנרגייה בלבצע את זה בעצמך, ונודה לך אם תשחרר את זה בתור קוד פתוח, שגם אנחנו נוכל להנות מזה Smile
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
costelloלא בפורום כעת ת.הצטרפות: 27/09/2002 · הודעות: 551 · מיקום: אי שם...
 

הודעה פורסם: 10/09/2007 - 19:27
נושא ההודעה:

קודם כל - תודה על התגובה.

הרעיון הוא אכן ליצור מנגנון שיחפש מילים דומות, ואם להיות יותר ספציפי להשוות מילה או שם שהקיש המשתמש עם רשימת מילים ושמות קיימת. זה פרוייקט "פנאי" - כזה שאני עושה בעיקר כדי ללמוד - וכמובן שהוא ישחורר כתוכנה חופשית (בתקווה שבאמת יהיו תוצאות). והשאיפה היא גם לשחרר פונקציית soundex עברית עצמאית - שתוכל לשמש בקלות אחרים.

אני לא בטוח למה אתה מתכוון ב"בדיקת קוד מורפולוגי"? האם להטיות (יחיד/רבים, זמנים בניינים וכו') או למשהו אחר? אם מדובר בהטיות - זה בהחלט יכול להיות ערך מוסף - אבל הכוונה שלי היא ללכוד גם שגיאות איות, ולטפל בשמות - ולכן פניתי מלכתכילה ל-soundex.

אחת הבעיות בקוד שמבוסס על האלגוריתם האנגלי, אם אני מבין אותו נכון, הוא שהמילים -
קרפדה וכרפדה לא מקבלות את אותו סימול, לכן Daitch-Mokotoff למשל הוא יותר טוב לעברית, אבל אני מניח שגם כאן יש מקרים שהאלגוריתם מפספס ויש אלגוריתמים טובים יותר לעברית. יהיה צריך רק לחפש עבודות אקדמיות בנושא ולהתחיל לקרא...

_________________
גיא שקד
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
ik_5לא בפורום כעת ת.הצטרפות: 16/04/2002 · הודעות: 3026 · מיקום: ישראל
 

הודעה פורסם: 11/09/2007 - 10:33
נושא ההודעה:

מצטער, התכוונתי לאגוריתם אחר (זה מה שקורה כשעונים לאנשים בזמן שמתרגמים דברים Wink)
האלוריתם היותר מדוייק הוא דווקא הMetaphone או Double Metaphone.
רק צריך להתאים אותו לחוקי השפה העברית.

אחת הבעיות כיום בארץ, היא שאנשים בעלי שפת אם רוסית (זו לא ביקורת רעה אלא ציון עובדה, אז בבבקשה בלי תגובות לא במקום) אינם יודעים להבחין מתי "ח" ומתי "כ" מגיעות, ואותו הדבר כלפי "ה,ע,א" או "ו" ו"ב" וכו'... וצריך ביצוע מספיק טוב שידע לטפל בבעיות כאלו.

ואני חושב שהאלגוריתם Double Metaphone אמור לתת את התשובה. כאשר כתבתי את Soundex העברי, רציתי גם לעשות גרסה של Metaphone, אבל בזמנו לא הבנתי את האלגוריתם (למרות שכיום אני דווקא כן מבין).

אתה גם מוזמן לשבת ולחקור את השפה העברית והבעיות שיש איתה, דבר שאולי יעוזר לך להגיע לפתרון אחר לגמרי מהאלגוריתם שאנחנו מדברים עליהם. אבל תזכור שאתה צריך לדעת איך לייצג צליל של מילה בניגוד לאיך שמילה נכתבת.
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
יעליאורח · ·
 

הודעה פורסם: 16/01/2008 - 20:30
נושא ההודעה: Re: soundex עברי

יש חדש בנושא? לא עדכנת...
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
Jabkaלא בפורום כעת ת.הצטרפות: 15/05/2005 · הודעות: 1695 ·
 

הודעה פורסם: 29/05/2008 - 20:13
נושא ההודעה:

מצטרף לדיון - לתשובות עתידיות

_________________
גם לי יש בלוג :
http://bsh83.blogspot.com
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
oc666לא בפורום כעת ת.הצטרפות: 20/09/2006 · הודעות: 446 · מיקום: תל-אביב
 

הודעה פורסם: 27/01/2012 - 15:06
נושא ההודעה:

סליחה על ההקפצה, אבל נתקלתי בנושא עקב בקשה להכניס את זה לג'ומלה.
האם מישהו מכיר אלגוריתם GPL כזה?

_________________
my blog
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
ophirozלא בפורום כעת ת.הצטרפות: 26/03/2016 · הודעות: 1 ·
 

הודעה פורסם: 28/03/2016 - 20:10
נושא ההודעה: soundex עברי

שלום ,

האם מישהו יכול לתת תשובה עדכנית -
היכן ניתן להשיג קוד פתוח לסאונדקס עברי ?

תודה מראש
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
הצגת הודעות מלפני:     
מעבר אל:  
כל הזמנים הם GMT + 2 שעות
תגובה לנושא
צפיה בנושא הבא Printable version התחבר כדי לבדוק הודעות פרטיות צפיה בנושא הקודם
PNphpBB2 © 2003-2004 

תוכן הדיון

  1. costello
  2. ik_5
  3. costello
  4. ik_5
  5. אורח [יעלי]
  6. Jabka
  7. oc666
  8. ophiroz

Google Ads