פורסם: 24/09/2003 - 18:57
נושא ההודעה:
|
שלום,
לפי הידוע לי לא קיים עדיין מילון עברי אנגלי (kwordtrans עובד מאנגלית לעברית) , אם קיים פרוייקט כל שהוא בנושא אשמח לשמוע.
ניתן לצור קובץ טקסט אנגלי עברי שבעזרתו יתרגם kwordtrans לשני הכיוונים.את הבסיס ניתן ליצור מאחד המלונים החופשיים הקיימים ברשת .
כל מה שחסר זה כמה מתנדבים והרבה זמן אלא אם כן משהו יעלה דרך יעילה יותר ליצור קובץ כזה.
בקשר לרישוי , האם חוקי להשתמש במילון אחר כדי לתרגם מאנגלית לעברית ?
[addsig]
_________________ איזי גולדנברג
|
|
חזרה לתוכן הדיון |
פורסם: 24/09/2003 - 19:49
נושא ההודעה:
|
חשבתי בזמנו על רעיון כזה. קיים מילון עברי-אנגלי ואנגלי-עברי של אברהם ולדשטיין משנת 1930 לערך, שהוא נמצא ברשות הציבור (public domain). אני לא ראיתי אותו בעיניים, אבל ישנן ספריות בת"א ובירושלים שמחזיקות עותקים ממנו. אם מישהו יארגן מתנדבים ויקים פרויקט להקלדה של מילון כזה לתוך מחשב, זה עשוי להיות דבר טוב.
|
|
חזרה לתוכן הדיון |
פורסם: 27/09/2003 - 23:42
נושא ההודעה:
|
תחילת עבודה על מילון עברי -> אנגלי
אם יהיו מתנדבים אולי אפילו נגמור עם זה בזמן סביר
[addsig]
_________________ איזי גולדנברג
|
|
חזרה לתוכן הדיון |
פורסם: 28/09/2003 - 00:07
נושא ההודעה:
|
COM64
מאיפה הbackground?! הוא נראה מצויין! אשמח ללינק או אם תעלה אותו...
תודה ותבורך.
|
|
חזרה לתוכן הדיון |
פורסם: 28/09/2003 - 00:10
נושא ההודעה:
|
שתי הערות על זכויות יוצרים שיש לקחת בחשבון:
א. מילונים הם יצירות מוגנות. גם מילונים ממוחשבים. זה אומר שאי אפשר להעתיק מילון עברי > אנגלי אלא אם כן בעל זכויות היוצרים התיר לעשות זאת.
ב. אם המילון של ולדשטיין, שאתם שוקלים להקליד, הוא מ- 1930, יש סיכוי טוב שהוא עדין מוגן בזכויות יוצרים: משך תקופת זכויות היוצרים בישראל היא 70 שנה לאחר מות היוצר. לכן אותו מילון הפך להיות נחלת הציבור רק אם מחברו נפטר לפני סוף 1932...
|
|
חזרה לתוכן הדיון |
פורסם: 28/09/2003 - 01:00
נושא ההודעה:
|
האקדמיה ללשון העברית לא מתיימרת להחזיק מילונים מסודרים, שאפשר להשתמש בהם (אני בטוח שיש משהו אלק', ראיתי שיש גם משהו באתר שלהם)?
ייתכן מאוד ואפשר להתבסס על עבודה שהם עשו (בהנחה וזה נתון לשימוש חופשי או באם תתקבל מהם הרשאה בנושא).
לא נראה לי שהפתרון אמור להיות הקלדה של מילה מילה (קשה להקליד עשרות אלפי ערכים), לפחות לא כל עוד לא מוצו האפשרויות האחרות.
|
|
חזרה לתוכן הדיון |
פורסם: 28/09/2003 - 02:28
נושא ההודעה:
|
היו פעם הרבה מילונים מבוססים דוס, אולי עדיף לבקש הרשאות להשתמש בהם כי במילא אף אחד לא יקנה אותם היום כבר
|
|
חזרה לתוכן הדיון |
פורסם: 28/09/2003 - 03:40
נושא ההודעה:
|
בקשר למילון ולדשטיין, המחבר נפטר ב-1932, וכן המילון הוא ברשות הציבור.
|
|
חזרה לתוכן הדיון |
פורסם: 28/09/2003 - 03:41
נושא ההודעה:
|
חוץ מזה, אם כבר מתחילים בזה, אז לדעתי עדיף מלהתחילה לשמור על איכות. כלומר, לבנות מילון מנוקד, לפי כללים ברורים.
|
|
חזרה לתוכן הדיון |
פורסם: 28/09/2003 - 12:56
נושא ההודעה:
|
השבוע אני בודק (עם קצת עזרה מחברים) בכמה אוניברסיטאות בקשר לחומר שיעזור לבנות מילון מלא בעברית שיהיה נקי מכל הגבלה של זכויות.
בקשר להקלדת המילים האם משהוא מכיר תוכנת ocr עברית חופשית ?
[addsig]
_________________ איזי גולדנברג
|
|
חזרה לתוכן הדיון |
פורסם: 28/09/2003 - 13:58
נושא ההודעה:
|
פרויקט בן-יהודה גם התעניין ב-OCR חופשי, ולהלן מסקנתם:
http://benyehuda.org/h_faq.html
|
|
חזרה לתוכן הדיון |
פורסם: 28/09/2003 - 16:34
נושא ההודעה:
|
ציטוט: |
ב 2003-09-27 21:07, The-Q כתב:
COM64
מאיפה הbackground?! הוא נראה מצויין! אשמח ללינק או אם תעלה אותו...
תודה ותבורך.
|
|
|
חזרה לתוכן הדיון |
פורסם: 28/09/2003 - 22:36
נושא ההודעה:
|
_________________ איזי גולדנברג
|
|
חזרה לתוכן הדיון |
פורסם: 29/09/2003 - 00:36
נושא ההודעה:
|
_________________ איזי גולדנברג
|
|
חזרה לתוכן הדיון |
פורסם: 29/09/2003 - 02:00
נושא ההודעה:
|
למילון יש שני כרכים:
אנגלי - עברי ( 610 עמודים), קיימים עותקים באוניברסיטה העברית בירושלים (ספרית בלומפילד והספריה הלאומית)
עברי - אנגלי (470 עמודים), קיימים עותקים באוניברסיטת בר-אילן, ספרית בית אריאלה בתל-אביב והספריה הלאומית בירושלים.
הכרך שהזכיר COM64 יצא לאור בשנת 1950 וייתכן שנוסף לו מידע לאחר מות המחבר ואילו השם נשמר מטעמי "brand". במקרה כזה הזכויות שמורות להוצאה והן עדיין שרירות. לדעתי עדיף להשתמש במהדורות שיצאו לאור בחיי המחבר (שנת 1932 או קודם), ואותן ציינתי לעיל. מי שיהיה מוכן לצלם את המילון - אני אתן מספר מערכת של ספריה רלוונטית.
יש לי שתי שאלות:
1. מאיזה כרך כדאי להתחיל, עברי-אנגלי או אנגלי-עברי.?
2. למי יש גישה לסורק עם feeder? כי סריקה של כמה מאות דפים בסורק רגיל זה עניין של שעות רבות.
נ. ב. אני מוכן להשתתף בהוצאות צילום.
|
|
חזרה לתוכן הדיון |
פורסם: 29/09/2003 - 13:02
נושא ההודעה:
|
היות שקיים פתרון למילון אנגלי עברי כדאי לדעתי להתחיל מהכיוון העברי.
ובקשר להוצאות הצילום גם אני מוכן להשתתף.
[addsig]
_________________ איזי גולדנברג
|
|
חזרה לתוכן הדיון |
פורסם: 29/09/2003 - 14:27
נושא ההודעה:
|
ראיתי שהעותק היחיד שניתן להשאלה נמצא בבר-אילן. אני מתכוון לפתוח שרשור חדש ולפנות לעזרה בצילום. אני מציע שנסתפק בשלושים-ארבעים עמודים בשלב זה.
מה דעתכם?
נ. ב. COM64, תן לי את הדוא"ל שלך בבקשה.
|
|
חזרה לתוכן הדיון |
פורסם: 29/09/2003 - 14:50
נושא ההודעה:
|
חברה שלי לומדת בבר אילן . אני אבקש ממנה לברר בקשר להשאלה .
המייל שלי הוא a at millimetrix dot com
[addsig]
_________________ איזי גולדנברג
|
|
חזרה לתוכן הדיון |
פורסם: 29/09/2003 - 15:22
נושא ההודעה:
|
זה יכול להיות נחמד. מס' מערכת של הספר בבר-אילן הוא 0328506
|
|
חזרה לתוכן הדיון |
פורסם: 29/09/2003 - 16:43
נושא ההודעה:
|
קודם כל - ברכות על היוזמה!
נקודה בעייתית, שעלתה כשהיה רצון להקים פרוייקט כזה בעבר. כדאי לתת עליה את הדעת מראש כדי למנוע בעיות בעתיד -
אני מניח שהפרוייקט יהיה פתוח, וישמח לקבל עזרה ממתנדבים רבים ככל שניתן. בנוסף, לאחר שהמילון שהדיגיטיזציה של המילון המקורי תושלם, אני מניח שתרצו להרחיב את המילון ע"י תרומות של משתמשים. מעבר לאיכות החומרים, יש לדאוג שמשתמשים, בלהט הרצון לתרום, לא מעתיקים חומרים ממקורות המוגנים בזכויות יוצרים (כמו שקורה בוויקיפדיה למשל...).
[addsig]
|
|
חזרה לתוכן הדיון |
פורסם: 29/09/2003 - 18:14
נושא ההודעה:
|
אני מסכים עם הכל. אבל נכון לעכשיו רק ההקלדה של המילון נראית לי מטרה גדולה וכבדה בפני עצמה. הרי לא מדובר בעבודה מעניינת ויצירתית כמו ויקיפדיה, אלא במאמץ מונוטוני למדי ורב-היקף. אבל נקווה לטוב
אגב, costello, אשמח אם קיימת תכתובת ציבורית (כלומר אתר, או ארכיון של רשימת תפוצה) אודות הפרויקט שהזכרת, ותוכל להפנות אותי אליה.
|
|
חזרה לתוכן הדיון |
פורסם: 02/10/2003 - 14:38
נושא ההודעה:
|
מנהל ספריית רמב"ם בבית אריאלה שלח לי כמה דפים מתוך המילון:
נראה כי זה מילון כיס. אני מעריך שיש בו כ- 9-10 אלף ערכים. נראה בסדר בשביל הבסיס.
|
|
חזרה לתוכן הדיון |
פורסם: 02/10/2003 - 15:07
נושא ההודעה:
|
ידוע לך על מעבד תמלילים שתומך בניקוד עברי ?
[addsig]
_________________ איזי גולדנברג
|
|
חזרה לתוכן הדיון |
פורסם: 02/10/2003 - 16:06
נושא ההודעה:
|
אתה רוצה להשתמש במעבד תמלילים?
אני מציע לבנות טופס מקוון ולהזין אותו לבסיס נתונים. הקלדה פשוטה ללא הפרדה בין שדות תתן לנו ערימת זבל שיהיה קשה מאוד לעבד אותה.
|
|
חזרה לתוכן הדיון |
פורסם: 02/10/2003 - 16:36
נושא ההודעה:
|
לפי דעתי הזנת המילים אכן יכולה ליהיות דרך ממשק web לתוך בסיס נתונים אך כל מילון עברי (כמו שנכתב מוקדם יותר בשרשור) צריך ליהיות מנוקד. המילון צריך להכיל את הערכים מנוקדים ובלתי מנוקדים עבור פשטות החיפוש בו. מה שלדעתי די ימנע את השימוש ב-wordtrans או תוכנה מוכנה אחרת וכנראה גם את זה נצטרך לכתוב מחדש.
האם יש דרך להקליד לתוך דפדפן בצורה נוחה (פחות או יותר) ואם בכלל ניקוד?
להציג ניקוד אפשרי וגם לחפש בכתב מנוקד אפשרי על ידי העתקת מקור מנוקד כל שהוא .
[addsig]
_________________ איזי גולדנברג
|
|
חזרה לתוכן הדיון |
פורסם: 02/10/2003 - 17:10
נושא ההודעה:
|
נתן להשתמש בסימני פיסוק כניקוד
+=קמץ
-=פתח
..=צירי
.=חיריק
\=קופוץ
*=דגש )או שורוק אם בא אחר וו(
וכו'
|
|
חזרה לתוכן הדיון |
פורסם: 02/10/2003 - 17:26
נושא ההודעה:
|
ניתן להקליד ניקוד לתוך דפדפן גם בחלונות וגם בלינוקס. אני בדקתי, וזה עובד במוזילה ו-IE בחלונות, ובקונקי בלינוקס (מוזילה בלינוקס לא יודעת להציג ניקוד כראוי). הקלדת ניקוד מובנית בתוך חלונות, ואני גם הצלחתי לגרום ל-KDE לעשות ניקוד בלי בעיה. ב-GNOME אני לא יודע מה לעשות, כי אין לי אותו.
אני חושב שברגע שאנחנו נבנה את הבסיס המלא (כולל ניקוד), אפשר יהיה בקלות לגזור ממנו רשימות ללא ניקוד שתתאימנה ל-wordtrans, ל-OTE, ומה שרוצים.
|
|
חזרה לתוכן הדיון |
פורסם: 02/10/2003 - 17:42
נושא ההודעה:
|
מצטער להדחף באמצע אבל...
בהנחה ומארגנים מספיק מתנדבים, נניח בסביבות ה20, או יותר.. לאו דווקא משתמשי לינוקס.. משהו בסגנון חבר מביא חבר- ואז אפשר להגיע ל40 אפילו.
כל אחד יסרוק 10-15 עמודים, זה כבר מגיע לסביבות ה500 עמודים!
ובנוגע להזנת המידע למאגר נתונים, בהנחה (ואני לא אוהב הנחות, אבל אין ברירה..) ומשתמשים בתכנת OCR של קוד פתוח, אפשר יהיה לשחק איתה כך שתזין את המידע לטבלה. מאחר ובסה"כ כל מילון בנוי בצורה גראפית כלשהי (פונט גדול יותר לערך, קטן יותר להגדרה. למשל.) ואז בעצם אין צורך בעבודת הקלדה כלל וכלל!
אמנם הידע שלי בתכנות מוגבל, אבל אשמח להצטרף לפרוייקט ולתרום במה שכן יש לי-
זמן פנוי, ורצון טוב
_____________________________
תוספת מאוחרת-
ברוח מילון ההווה, ניתן לבקש ממנהלי אתר "פטפטת" שימוש במסד הנתונים שלהם.
פטפטת הוא אתר אינטרנט שכל כוונתו לאסוף כמה שיותר הגדרות יומיומיות לכמה שיותר מלים.
אמנם ישנן הרבה הגדרות שלא יתאימו למילון, אבל בהחלט מצויות שם הגדרות רבות שנכבתו על ידי משתמשים. אמנם הן אינן הגדרות מילוניות, אבל הן בהחלט הגדרות!
[ נערך על-ידי זיו_בעע בתאריך 02/10/03 14:45:45 ]
|
|
חזרה לתוכן הדיון |
פורסם: 02/10/2003 - 18:20
נושא ההודעה:
|
ראשית נקווה שמספיק אנשים ידחפו באמצע .
ושנית ידוע לך על תוכנת ocr עברית חופשית ?
קיבלתי עם הסורק שלי תוכנת ocr עברית לחלונות ממה שזכור לי היא לא כל כך מבצעת את עבודתה , אני אבדוק שוב.
אין שום מניעה להישתמש בתוכנה קיניינית חוקית לבצע את הסריקה וממה שידוע לי כמעט כל סורק מגיע עם גרסה מסורסת של ocr.
[addsig]
_________________ איזי גולדנברג
|
|
חזרה לתוכן הדיון |
פורסם: 02/10/2003 - 18:33
נושא ההודעה:
|
יש תוכנה שקוראים לה ליגטורה. היא דיי טובה אם יש לך לף טקסט בעברית בגופן מברור שחור על לבן. קשה לי לאמין שהיא יכולה לעשות משהו עם עברית+ניקוד ואנגלית באותה שורה.
כדאי לדבר עם משפחת המחבר וההוצאה אם מותר לעשות את זה, ואם כן אולי יש עותק ממוחשב.
_________________ קוד: | $ uname --operating-system
GNU/Linux |
|
|
חזרה לתוכן הדיון |
|