ווטסאפ - לינוקס, BSD, קוד פתוח ותוכנה חופשית בעברית. Whatsup - Linux, BSD, open source and free software in Hebrew

 
 
  כניסת חברים · רישום · שכחתי סיסמה  
tux the penguin
תגובה לנושא
צפיה בנושא הבא Printable version התחבר כדי לבדוק הודעות פרטיות צפיה בנושא הקודם
משהלא בפורום כעתSite Moderator ת.הצטרפות: 30/08/2003 · הודעות: 985 · מיקום: אלקנה, ישראל
 

הודעה פורסם: 22/03/2005 - 21:39
נושא ההודעה:

לגבי זכויות יוצרים לא הייתי דואג, כל מה שיכול להיות עליו זכויות זה הסידור של הדפוס, ומאחר והוא זהה מאז דפוס וילנא (שהיה מזמן) לא נראה לי ששיך על זה זכויות יוצרים.

לגבי ההצעות לעשות את זה "דומה" לגמרא אבל לא זהה:
זה בדיוק מה שאני לא רוצה לעשות. יש עניין גדול שזה יהיה זהה לחלוטין , ואם זה לא היה כל כך חשוב, לא היה שום סיבה לפרוייקט הזה.

אני גם לא רוצה שזה יוצג כדף html, pdf או משהו כזה, משום שאז באמת קיימת הבעייה של פונטים שונים, גודל שונה וכו'.
אבל זה לא שייך, כי אני לא רוצה שזה יהיה בפונט שונה, זה אמור להיות זהה לגמרא!
לכן אני רוצה שהתוכנה תהיה תוכנה ייעודית לנושא, עם פונטים כלולים (שהתכנה תעבוד איתם), וגם אם תהיה בה אפשרות לשינוי גודל, זה יהיה בפרופורציות, ז"א: העמוד גדל והפונט גדל בהתאם.

לכן ההצעות הכי הגיוניות נראות לי שימוש בתיבות טקסט מיוחדות (אם יש דבר כזה) שהם לא בצורת ריבוע, או לחילופין למצוא דרך לשלב את הclass שך LaTeX בתכנה אחרת.

צפריר, יש דרך לממש class של LaTeX בתכנה אחרת? אם כן, אני אשמח ליצור איתך קשר ולברר איך עושים את זה.

למישהו יש רעיון איך לממש את הרעיון עם תיבות הטקסט?

משה
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית שלח דוא\ ביקור באתר המפרסם מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
משהלא בפורום כעתSite Moderator ת.הצטרפות: 30/08/2003 · הודעות: 985 · מיקום: אלקנה, ישראל
 

הודעה פורסם: 26/03/2005 - 20:30
נושא ההודעה:

אני רוצה לממש כבר משהו בסיסי עם תיבות טקסט, אבל עד עכשיו לא הצלחתי למצוא תיבת טקסט שהיא לא מלבנית.

מישהו מכיר דבר כזה שכבר קיים?

משה
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית שלח דוא\ ביקור באתר המפרסם מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
אורח · ·
 

הודעה פורסם: 26/03/2005 - 23:20
נושא ההודעה:

משה :


לגבי ההצעות לעשות את זה "דומה" לגמרא אבל לא זהה:
זה בדיוק מה שאני לא רוצה לעשות. יש עניין גדול שזה יהיה זהה לחלוטין , ואם זה לא היה כל כך חשוב, לא היה שום סיבה לפרוייקט הזה.

משה


תעזוב את זה וזהו.
אין לך מושג איזה סיוט זה לעצב דף כך שיראה כמו גמרא (אני עשיתי אחד כזה ב- word באמצעות תיבות טקסט ולמרות שהיה לי את כל המידע (רוחב, גודל טקסט, וכו') לקח לי כמה לילות לעשות את זה.

שלא לדבר על כך שכל דף שונה ממשנהו ואי אפשר לעצב תבנית אחת לכל הדפים.

כמו כן, המעצבים המקוריים (של דפוס וילנא) שיחקו עם הרווחים בין המילים ובין האותיות כך שאין רווח אחיד אפילו בשורה בודדת.

עוד בעיה (שאיתה אפשר דווקא להסתדר) היא העובדה שעמודים שונים באותו דף מודפסים הפוך (מיקום הפירושים והתוספות השונות).

אני לא רוצה לייאש אבל נראה לי שהעבודה היא מעל ומעבר למה שיכול אדם פרטי ללא מימון לעשות.
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
The-QSite Moderator ת.הצטרפות: 29/12/2002 · הודעות: 1693 · מיקום: ISR
 

הודעה פורסם: 26/03/2005 - 23:32
נושא ההודעה:

משה :
אני רוצה לממש כבר משהו בסיסי עם תיבות טקסט, אבל עד עכשיו לא הצלחתי למצוא תיבת טקסט שהיא לא מלבנית.

מישהו מכיר דבר כזה שכבר קיים?

משה

אתה יכול לממש תכונה של union ו-intersection של תיבות מלבניות וככה ליצור תבניות יותר מורכבות.

הנה רעיון קטן - ליצור אובייקט בסיסי שיכיל ערכים של: סוג, ורשימה של תת אובייקטים. כל אובייקט הוא מלבן, כשהאובייקט הראשון הוא הדף עצמו, ותת האובייקטים הם מלבנים שערכיהם הם או טקסט, או רשימה של תת אובייקטים אחרים. אתה יכול ליצור גם סוג אובייקט של union למשל, שיכיל כמה מלבנים אחרים ויחבר את השטחים שלהם לצורה שלמה אחת.
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
משהלא בפורום כעתSite Moderator ת.הצטרפות: 30/08/2003 · הודעות: 985 · מיקום: אלקנה, ישראל
 

הודעה פורסם: 27/03/2005 - 10:09
נושא ההודעה:

חשבתי על רעיון כזה בערך, הבעייה היא שאז אין אפשרות לסמן קטע שמופיע בשתי תיבות שונות, למרות שהן שייכות לאותה קבוצה של מלבנים(ולאותו בלוק),

אם יש למישהו רעיון איך לעקוף את זה, אני מניח שאני באמת אלך על האפשרות הזאת.

תודה,
משה
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית שלח דוא\ ביקור באתר המפרסם מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
משהלא בפורום כעתSite Moderator ת.הצטרפות: 30/08/2003 · הודעות: 985 · מיקום: אלקנה, ישראל
 

הודעה פורסם: 27/03/2005 - 13:19
נושא ההודעה:

התקדמות קלה!
גיליתי את זה: http://developer.gnome.org/doc/API/2.0/gtk/GtkWidget.html#gtk-widget-shape-combine-mask

הבנתי שהפקודה הזאת יכולה לשנות צורה של widget בgtk לפי תמונה.
עכשיו נשאר לי ליצור מימוש ראשוני בעזרת זה, ואולי לחקור קצת איך אני יוצר תמונות מתאימות עם ImageMagic...

נ.ב. כנראה שאסור לסמוך רק על גוגל. חיפוש של כמה דקות בארכיון רשימת התפוצה של gtk מצא את זה, בזמן שחיפוש הרבה יותר ארוך בגוגל לא הצליח.

משה
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית שלח דוא\ ביקור באתר המפרסם מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
אורח · ·
 

הודעה פורסם: 18/06/2005 - 23:21
נושא ההודעה:

טוב, עוד שבועיים מתחיל לי החופש (כן, כולם מתחילים לפני, לא פייר, אבל אין לי ברירה), וחבל לא לנצל את החופש לפרוייקט הזה. אז אני מפרסם פה תגובה שתסביר לפחות בבסיס מה אני מתכנן לעשות בתקווה שעד שאני אתחיל לעבוד התגובות פה (אם יהיו) יוסיפו לי קצת חומר למחשבה.

כרגע, המטרה של הפרוייקט (רק מבחינת הקטע שמציג כרגע) היא כזו (החלטתי לנסח מחדש כדי למנוע את חוסר ההבנה שהייתה לכולם קודם):
בניית פורמט טקסטואלי פשוט של דף גמרא, שיכיל בתוכו הן את המידע ה'נקי' שעל הדף (לדוגמא מילים שמודפסות צמודות הן לא אותה מילה מבחינת חיפוש), שישמש לאיפשור חיפוש מידע,
והן את מידע התצוגה (גודל רווחים בין מילים, סימנים מיוחדים, שינויי פונט, ועוד), על מנת לאפשר תצוגה זהה לחלוטין לזו של הדף המקורי.

הסיבות שהפרוייקט לא מפריד בין הדברים ומשתמש בתמונה לתצוגה וטקסט מוקלד לחיפוש הם בעקרון אלו:
- חסכון במקום. זה לא צחוק, תמונה תופסת הרבה הרבה יותר מקום מאשר טקסט (עם מידע רב על התצוגה ככל שיהיה), וזה מאוד משמעותי כשמדובר בסדרי גודל של ספרות יהודית (לאו דווקא הגמרא) שזאת כמות עצומה של ספרות.
- תצוגה 'נקייה'. הגמרות היום כתובות בכתב מטושטש ומרוח (כתוצאה מכך שמדובר בצילומים של צילומים), ולפעמים הכתב כמעט בלתי קריא. גם סריקה של גמרא מאוד איכותית לא תיצור תמונה מושלמת, בגלל הסריקה. לעומת זאת שימוש בהצעה שלי גורם לטקסט להיות טקסט מחשב נטו, בלי שום גריעת איכות.
- הקלדה זה דבר רצחני. לבר-אילן אולי יש מימון, לי אין. הרעיון שלי אמור לאפשר שימוש בocr , גם לא דבר שבן-אדם עושה בקלות, אבל הרבה פחות מהקלדה.
- יש כנראה עוד סיבות שחשבתי עליהן, אני פשוט לא זוכר. אולי בהזדמנות.

בעיות טכניות אפשריות (וקשות):
- רווחים בגדלים מאוד לא סטנדרטיים. לא מדובר ברווח כפול, משולש או חצוי, מדובר בגודל בלתי תלוי שהמדפיסים קבעו. אולי יש דרך לארגן איזה פונט שיש לו גודל רווח של פיקסל שאותו אני אשים כמה פעמים שצריך.
- צורות 'בלוקים' לא סטנדרטיים. הצורות של כל בלוק לא יוצאות מרובעות כמעט אף פעם, מה שיקשה על אפשרות של סימון ובחירה של טקסט.(ובכלל שאין תיבות בצורות כאלה) חשבתי על רעיון של שימוש בתיבה נפרדת לכל שורה ולעשות שסימון טקסט יעשה רק ב'כאילו' (שהרי אלו תיבות נפרדות). נשמע לי קצת מוזר, אבל אולי.
- אני בקושי יודע לתכנת, שלא לדבר על תכנות עם tool kits. יהיה מעניין.
- צפריר לא עונה למיילים (לפחות מתי שפניתי אליו). צריך מישהו שידע מה הוא עושה שישגיח עלי, לא?

טוב, נראה לי שזהו לכרגע, אולי אני אפרט עוד בהמשך.

משה
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
landmnלא בפורום כעת ת.הצטרפות: 01/10/2004 · הודעות: 127 ·
 

הודעה פורסם: 19/06/2005 - 12:23
נושא ההודעה:

Anonymous :

- הקלדה זה דבר רצחני. לבר-אילן אולי יש מימון, לי אין. הרעיון שלי אמור לאפשר שימוש בocr , גם לא דבר שבן-אדם עושה בקלות, אבל הרבה פחות מהקלדה.


למיטב ידיעתי, אתה טועה לחלוטין.
נניח שה-OCR בעל יכולת זיהוי של 99% (למיטב ידיעתי, OCR באנגלית בקושי מגיע לזה. קל-וחומר OCR לעברית) - המשמעות היא שיש לך טעות אחת בכל מאה אותיות!
כיון שבדף גמרא יש אלפי אותיות. יהיו לך עשרות טעויות לגלות בכל דף. כדי לגלות אותן, אתה צריך המון שעות עבודה של כוח אדם איכותי.
אם יהיה לך מילון מוצלח מאד לארמית (!) כולל הטיות וקיצורים וכו', תוכל אולי לצמצם את הטעויות בחצי.
זה עדיין משאיר אותך עם עשרות טעויות שדורשות הגהה קפדנית.

אגב, לבר-אילן יש מנוע מצויין של הטיות מילים בעברית וארמית שהוא בסיס החיפוש בתקליטור, אבל משמש מן הסתם גם להגהת החומר המוזן.

(נדמה לי שמפתח של התוכנה שדיברתי איתו לפני שנים דיבר על הקלדה של החומר, אולי אפילו בחו"ל, אבל אני לא זוכר בבירור).


נערך לאחרונה על-ידי landmn בתאריך 23/06/2005 - 00:24, סך-הכל נערך פעם אחת
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
אורח · ·
 

הודעה פורסם: 19/06/2005 - 14:17
נושא ההודעה:

כדאי להציץ במאמר
http://www.inn.co.il/newspaper.php?id=4472
על חברת אימגסטור בבעלות דתית העוסקת בתעשית הסריקה.
אולי הם יכולים\רוצים לסייע.
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
nyhלא בפורום כעת ת.הצטרפות: 11/06/2003 · הודעות: 38 ·
 

הודעה פורסם: 19/06/2005 - 15:32
נושא ההודעה: מחיר כוח האדם הארמי

> למיטב ידיעתי, זו הסיבה הכלכלית שבר-אילן הלכו על הקלדה, נדמה לי שהם השתמשו בעובדים במזרח
> הרחוק שעושים את העבודה במחיר אפסי

כנראה שאתה צודק. הרי ידוע היטב שמספר דוברי הארמית והעברית במזרח הרחוק הוא פשוט עצום. Very Happy
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
אורח · ·
 

הודעה פורסם: 23/06/2005 - 20:57
נושא ההודעה:

landmn :
Anonymous :

- הקלדה זה דבר רצחני. לבר-אילן אולי יש מימון, לי אין. הרעיון שלי אמור לאפשר שימוש בocr , גם לא דבר שבן-אדם עושה בקלות, אבל הרבה פחות מהקלדה.


למיטב ידיעתי, אתה טועה לחלוטין.
נניח שה-OCR בעל יכולת זיהוי של 99% (למיטב ידיעתי, OCR באנגלית בקושי מגיע לזה. קל-וחומר OCR לעברית) - המשמעות היא שיש לך טעות אחת בכל מאה אותיות!
כיון שבדף גמרא יש אלפי אותיות. יהיו לך עשרות טעויות לגלות בכל דף. כדי לגלות אותן, אתה צריך המון שעות עבודה של כוח אדם איכותי.
אם יהיה לך מילון מוצלח מאד לארמית (!) כולל הטיות וקיצורים וכו', תוכל אולי לצמצם את הטעויות בחצי.
זה עדיין משאיר אותך עם עשרות טעויות שדורשות הגהה קפדנית.

אגב, לבר-אילן יש מנוע מצויין של הטיות מילים בעברית וארמית שהוא בסיס החיפוש בתקליטור, אבל משמש מן הסתם גם להגהת החומר המוזן.

(נדמה לי שמפתח של התוכנה שדיברתי איתו לפני שנים דיבר על הקלדה של החומר, אולי אפילו בחו"ל, אבל אני לא זוכר בבירור).

קודם כל תודה על ההתייחסות, אבל אני נאלץ לא להסכים איתך גם.
טעות כל 100 אותיות זה אולי המון, אבל גם למי שמקליד יש המון שגיאות כתיב, ואני מדבר על כמות עצומה. (ראית פעם ספר לפני הגהה? )
בנוסף, בצורה של ocr אפשר לסרוק לדוגמא דף זהה בשתי גמרות שונות (אפילו שני אנשים שונים יכולים לעשות את זה), ולהצליב ביניהם מידע. אני יודע שזה לא מושלם אבל לדעתי זה עדיין יותר פשוט מהקלדה.
בכל מקרה, גם אם לא, היתרונות האחרים של מה שהצגתי עדיין קיימים.

משה
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
משהלא בפורום כעתSite Moderator ת.הצטרפות: 30/08/2003 · הודעות: 985 · מיקום: אלקנה, ישראל
 

הודעה פורסם: 09/08/2005 - 10:53
נושא ההודעה:

טוב, הגיע הזמן לעדכון שדברתי עליו:
עבדתי קצת על הפרוייקט, וכרגע יש לי תכנה קטנה ומגעילה שמנתחת קובץ במבנה שתארתי קודם (טקסט מקורי ותצוגה ביחד) ומדפיסה פלט של מה היא הייתה עושה לו היה לה ממשק. משהו כמו: "הייתי שם תיבת טקסט במיקום זה וזה עם טקסט כזה וכזה".
זה אמנם לא הרבה, וכל המיקומים והערכים הם בדר"כ שרירותים (ז"א קובץ המידע שהוא מנתח הוא לא משהו), אבל לפחות קיים כבר משהו פחות תיאורטי ויותר פרקטי.

כרגע, אני צריך להתחיל לעבוד על ה gui. וזה די בעייתי, כי אני פשוט לא מבין בנושא כלום.
החלטתי (בלי סיבה מיוחדת) לנסות לעבוד עם gtk. כרגע יש לי בעייה מרכזית שהיא ה packing. אני פשוט לא מבין מה הולך שם... אני מסכים שצריך שהתוכנה תוכל לשמור על פרופורציות ולכן fixedpacking לא מתאים, אבל אני לא מבין איך אפשר למשש את מה שאני רוצה עם boxes!
אם מישהו מוכן לעזור לי בנושא, אני אשמח לכל סיוע.


יותר מידע על מה שיש, קוד המקור שקיים, הבעיות, המבנה ועוד אני אנסה לפרסם בזמן הקרוב.

תודה,
משה
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית שלח דוא\ ביקור באתר המפרסם מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
אליהו ג.אורח · ·
 

הודעה פורסם: 29/03/2007 - 18:55
3 נושא ההודעה: פתרון פשוט יחסית

א. כדי לחסוך עבודה וכדי להשיג את הדיוק המירבי, לא נשתמש בסריקת OCR של הטקסט עצמו, אלא נשתמש בטקסט המוקלד הקיים (מכל מאגר מידע כלשהו).
ב. יש לאתר (באופן אנושי או ע"י סורק OCR) את המילה הראשונה והאחרונה של כל מקטע מהדף (גמרא או פרשן: רש"י, תוספות).
ג. יש לדגום את גבולותיו של כל מקטע (גמרא, רש"י וכו') בדף האמיתי ע"י תוכנת OCR פשוטה שמזהה את המעבר מטקסט לדף ריק, ויוצרת מאגר נתוני מסגרות לכל דף ודף.
ד. כעת כשיש לנו את כל הנתונים הללו: נבנה אליגוריתם שימלא את המסגרת הריקה בטקסט מן מאגר המידע, כאשר גבולות המידע הן עפ"י המילה הראשונה והאחרונה. יכול להיות שעדיין התוצר הסופי לא יהיה זהה לגמרי לצורת הדף האמיתית, כיוון שסדרני הדפוס בטח הכניסו עוד שיקולים לסידור של הדף. בכל מקרה, חובה לאסוף עוד נתונים על מבנה הדף: גודל האותיות, הגופן, צפיפות השורות וכדו', המשפיעים על צורת הדף האמיתית.

בהצלחה.

אני חייב לציין שאין לי ניסיון בתכנות מעשי בשפות בנות-ימינו, רק בשפות ישנות ולא ויזואליות.

אליהו.

אשמח לתגובות, לטוב ולמוטב.
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
משהלא בפורום כעתSite Moderator ת.הצטרפות: 30/08/2003 · הודעות: 985 · מיקום: אלקנה, ישראל
 

הודעה פורסם: 05/05/2007 - 23:53
נושא ההודעה:

אם כבר הקפצתם לי את הדיון, (למרות שלא כל כך הבנתי מה ההודעה האחרונה ניסתה לומר) אז אני כבר אשחיל כמה מילים.
קודם כל, הפרוייקט לא מת. נכון, הוא לא כל כך זז בזמן האחרון, אבל אני עדיין עובד עליו קצת ובע"ה בחופש אני אנסה לעבוד עליו יותר.
לגבי כל הוויכוחים על הפורמט - אני עובד על לעשות אותו קצת יותר נורמלי, הרבה על בסיס ההצעות פה בדיון. כשמשהו יתקדם אני אשתדל לדווח.

רק שאלה שתעזור לי בהמשך - יש למישהו מושג מה הרשיון על הפונטים של חברת כיוון (Kivun computers Ltd(? החברה בכלל קיימת עדיין?
הפונטים לא באים עם שום מידע על רשיון, הם מופצים בלי שום הגבלות באינטרנט, וכל מה שרשום עליהם זה:
- Copyright
(c) 1991-1993 Kivun Computers Ltd. all Rights Reserved.

מה זה בדיוק אומר? האם לתת להם קרדיט זה מספיק? ומה עם להתעלל בפונט, זה מותר לי?

תודה,
משה
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית שלח דוא\ ביקור באתר המפרסם מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
הצגת הודעות מלפני:     
מעבר אל:  
כל הזמנים הם GMT + 2 שעות
תגובה לנושא
צפיה בנושא הבא Printable version התחבר כדי לבדוק הודעות פרטיות צפיה בנושא הקודם
PNphpBB2 © 2003-2004 

תוכן הדיון

  1. משה
  2. elcuco
  3. Inola
  4. משה
  5. משה
  6. רונן
  7. Inola
  8. אורח [קובי]
  9. משה
  10. VincentGlenn
  11. elcuco
  12. amitay
  13. nirs
  14. meorero
  15. Yellow_Dog
  16. אורח [קובי]
  17. עידו
  18. אורח [צפריר]
  19. משה
  20. nirs
  21. landmn
  22. VincentGlenn
  23. אורח
  24. nyh
  25. אורח [Tomer32]
  26. nirs
  27. shaykid
  28. אורח [עמית]
  29. nirs
  30. אורח [צפריר]
  31. משה
  32. משה
  33. אורח
  34. The-Q
  35. משה
  36. משה
  37. אורח
  38. landmn
  39. אורח
  40. nyh
  41. אורח
  42. משה
  43. אורח [אליהו ג.]
  44. משה