Whatsup - לינוקס, תוכנה חופשית וקוד פתוח בעברית

פרויקטים בלינוקס - פרוייקט קטן משלי: "מקורות"

משה - 12/03/2005 - 20:21
נושא ההודעה: פרוייקט קטן משלי: "מקורות"
אחד החסרונות העיקריים בפרוייקט השו"ת של אוניברסיטת בר-אילן (פרוייקט שמכיל מאגר של כמעט כל הטקסטים היהודיים, מהתנ"ך והגמרא ועד ספרים של רבנים שחיים היום ) הוא חוסר התמיכה במה שנקרא "צורת הדף". שזה אומר הצגה של הטקסט כפי שהוא מופיע בספר המקורי ולא פשוט כטקסט רגיל, מאחר ולספרים רבים יש צורה ספציפית וחשובה מאוד של סידור הטקסט (לדוגמא בגמרא: http://www.daat.ac.il/daat/toshba/test/pic/gmara99.htm ).

הבעייה ממה שאני הבנתי היא בעיקר טכנית:
מצד אחד אם סורקים דפים (כמו שעושה פרוייקט אחד ופחות מוכר), אז יש "צורת הדף" אבל אי אפשר לבצע חיפוש או העתקה של הטקסט(דבר חשוב והכרחי).

לעומת זאת אם מקלידים את הטקסטים (כפי שנעשה בפרוייקט השו"ת) אז אי אפשר שהטקסט יוצג בצורה המקורית, גם מבחינת ההכנסה של הטקסט (אי אפשר לעשות enter אחרי כל כמה מילים, 2 רווחים מדי פעם בין שתי מילים, בלי רווחים מדי פעם בין שתי מילים,ועוד לעשות את זה ככה שיצא בדיוק כמו המקורי.).

לכן אני רוצה להתחיל פרוייקט קטנטן שיענה על החוסר הזה. הרעיון הוא לבנות שתי דברים עיקריים:
1. תוכנת סריקה שתסרוק את הטקסט כמו שהוא ותפריד אותו לאובייקטים שונים (כל "בלוק" בגמרא זה פרשן אחר בדרך כלל), תכניס למאגר המידע הנכון (לדוגמא, תוסיף את הרש"י על הדף הזה למאגר שלו, בלי שום קשר למעבר לדף הבא, על אף ששם הוא לא יוצג בצורה רציפה למה שהיה קודם),ותשמור מידע על המיקום, הצורה והגודל של כל עמודה.
בעיות אפשריות: הרבה מהטקסטים מרוחים (הכל מבוסס על הדפסות ישנות מאוד שמהם הכל צולם), לפעמים אין תוס' ובמקום שלו נמצא רש"י, וכו'

2.תוכנה שתדע לשלוף את הטקסט של כל קטע מהמאגר שלו ולהכניס את זה בצורה של הדף לתוך תיבות מתאימות. התוכנה תכלול גם יכול חיפוש במאגרים, ואם תמצא התאמה, זה יציג את הטקסט התוך הדף שלו.
בעיות אפשריות: הטור של הגמרא משנה את העובי שלו כשמסתיים טור של פרשן כלשהו, מה שאומר שצריך להשתמש בתיבות טקסט עם צורות שונות ממלבן (אם זה קיים), או להשתמש במספר תיבות ביחד, מה שימנע יכולת לסמן טקסט באחד ובשני באותו זמן.

לא פתחתי פרוייקט בשום מקום כי אין לי את הידע איך לעבוד עם CVS או דברים כאלה, ולא נראה לי שיש לי צורך לכך. הדבר לא נועד להיות גדול, סתם פרוייקט לכיף בזמן הפנוי שלי (שאין לי האמת, אבל כולם אומרים את זה).

אם למישהו יש רעיונות\הצעות\פתרונות לבעיות\רצון להשתתף, הוא מוזמן להגיב פה או לפנות אלי moshe.wagnerATgmail.com.

תודה,
משה
elcuco - 12/03/2005 - 20:34
נושא ההודעה:
כמה דברים:

תמיד תפריד בין תוכן ולבין תצוגה. ככה יהיה לך אפשרות לחפש, וגם תקבל את התצוגה שאתה רוצה.
אני רואה בראשי HTML עם CSS בסיסי פלוס פלוס...
קוד:

<div class="class1">
טקסט מוקרי
</div>

<div class="class2">
פירוש ראשון
</div>

<div class="class3">
פירוש שני
</div>


בעזרת CSS נכון, אתה תקבל את התצוגה שיש במקור.

בגדול, , אם יש לך את הטקסט (טקסט פשוט, קובץ txt רגיל השמור בפורמט utf8) של כל העמודים, להכניס את זה ל-HTML ולכתוב CSS מתאים לא בעיה.
Inola - 12/03/2005 - 20:56
נושא ההודעה:
זה פרוייקט קטן?
משה - 12/03/2005 - 21:02
נושא ההודעה:
תודה על התגובה. זה בערך מה שתככנתי, אם כי תכנניתי שזה יהיה ככה:
קובץ של הטקסט בלבד, לכל פרשן וכו'. (לדוגמא: פרוש א' על מסכת א').
קובץ במבנה של תגיות, שיכלול לדוגמא:
קוד:

<DATA name=gmara>
     <block>
          <start=0,0>
          <width=10>
          <lenth=5>
     </block>
     <block>
          <start=5,0>
          ....
     </block>
</DATA>
<DATA name=rashi>
     ...
</DATA>


עד כמה שהבנתי זה בערך אותו עקרון.

לגבי איך להציג את זה: הצעת html. אפשר עוד מידע איך זה מתבצע? זה יתן לי לסמן טקסט לוגמא בטור אחד עם רוחב משתנה בלי לגלוש לטור אחר?
ואיך ממשים את זה בתוך תוכנה שלמה (עם תפריטים למעלה, חלון משל עצמו וכו')
אולי בכלל עדיף לממש את זה עם gtk או משהו?

נ.ב. לא ציינתי, אבל חשוב שהתוכנה תהיה פורטיבלית, לכן אני מניח שכדאי להתמקד בספריות פיתוח cross-platform כמו gtk, ואולי גם שפות כאלה כמו פייתון.
משה - 12/03/2005 - 21:04
נושא ההודעה:
Inola :
זה פרוייקט קטן?

זה בציניות?

כן, אני מקווה שזה יהיה קטן כמה שאפשר. אבל, אם ידרש לזה משהו גדול, לי יש זמן, מצדי יכולה לצאת גרסת בטא בעוד שנתיים. אני לא לחוץ שזה יתממש מהר.

משה
רונן - 12/03/2005 - 21:23
נושא ההודעה:
לדעתי HTML יהיה אידיאלי...
אם כבר יש לך XML, כמו מה שהגדרת, להפוך אותו ל-XSL (מראש, או בזמן ריצה) לא יהיה מסובך בכלל, ו-HTML כבר חוסך לך את כל השטויות של סידור, עימוד וכו'.
Inola - 12/03/2005 - 21:30
נושא ההודעה:
משה :
Inola :
זה פרוייקט קטן?

זה בציניות?

כן, אני מקווה שזה יהיה קטן כמה שאפשר. אבל, אם ידרש לזה משהו גדול, לי יש זמן, מצדי יכולה לצאת גרסת בטא בעוד שנתיים. אני לא לחוץ שזה יתממש מהר.

משה


ממש לא בציניות...
זה נראה פרוייקט יחסית גדול.
Anonymous - 12/03/2005 - 22:05
נושא ההודעה:
פעם אחרונה שבדקתי רצו בבר אילן 2500 ש"ח בערך לתקליטור של פרוייקט השו"ת, האים זה השתנה ?

האים יש מקורות חופשיים לחומר בצורה בינרית, מכון ממרא מכיל רק חלק מהחומר, ואני לא יודע מה הרישוי שהוא שם על החומר המוקלד.

הצעה הקודמת להשתמש ב css , נראת לי הכי הגיונית, כך לא צריך לעשות כלום, חוץ מלעטוף את הטקסת בתוית ה css המתאימה והדפדפן כבר יציג לבד את הטקסט במקום והצורה הנכונים, כמו כן מנועי חיפוש בדפי html קימים. כך שבעצם העבודה ( המאוד מאוד גדולה ) תהיה רק לערוך את דפי הטקס.

מה דעתו של מקסים יורש לגבי יצירת גופני ראשי ? זה יהיה נחמד לפרוייקט שלך.
משה - 12/03/2005 - 22:24
נושא ההודעה:
2850 ש"ח אם אני זוכר נכון, למרות שזה לא העניין. אם לבר-אילון היה צורת הדף, בהחלט הייתי משתמש בזה יותר, וזה היה יתרון עצום. בבר אילון אפשר אולי לחפש, אבל בהחלט לא לקרוא כמו שצריך.

לגבי מקורות חופשיים, לא ידוע לי על הרבה, במיוחד לא כאלה עם צורת הדף, ולהתאים חומר רגיל לצורת הדף יקח בדיוק אותו זמן כמו לסרוק מחדש, שזה התפקיד של החלק הראשון בפרוייקט.

לגבי שימוש בcss: קודם כל אין לי שום ידע בנושא, אבל אין לי התנגדות ללמוד אותו אם זה מתאים. אבל השאלות שלי עדיין עומדות: איך css יטפל בעמודות שמשנות גודל באמצע מבחינת סימון טקסט, והאם ניתן לשלב דבר בתוכנה ייעודית, או רק לצפות בו בעזרת דפדפן?


לגבי גודל הפרוייקט: כמו שאמרתי, אני מקווה שהוא יהיה כמה שיותר קטן, אבל גם אם הוא מאוד גדול, זה נטו בשביל ההתנסות (וכמובן בשביל התוצאה, אבל אין לי בעייה שזה יקח זמן), ומבחינתי זה יכול לקחת המון זמן עד לתוצר. כמובן שעזרה תמיד תתקבל בברכה.

נ.ב. באמת צריך פונטים של כתב רש"י, אני מקווה שיש כאלה חופשיים...
VincentGlenn - 13/03/2005 - 16:29
נושא ההודעה: לאטעך
ללאטעך (LaTeX) יש תמיכה מעולה בסידור טקסט בצורות שונות ומשונות בתוך הדף, ובכלל בטיפוגרפיות מוזרות. אולי תצליח לחקות את צורת הדף של דף גמרא בעזרת כתיבת LaTeX class משלך. הבעייה היא שלכתוב הגדרות ללאטעך זה לא כל ולא הרבה אנשים זוכרים איך. היתרון הוא שלאטעך מראש תומך בהגדרות של הבאה לדפוס, כמו תיבות בתוך הדף, בצורה הרבה יותר טובה מאשר HTML. למעשה ל-HTML אין במקור הגדרה של "דף" מודפס.

אני לא בטוח שזה הפתרון הקל ביותר, אבל שווה לך להסתכל על היכולות של לאטעך בנושא הזה.

עוד אפשרות אולי היא להסתכל על פורמטים פתוחים של פרוייקטים של הבאה לדפוס (כמו scribus). אולי אחד מהם מספיק ידידותי כדי לתמוך בפרויקט כזה.

(וחוץ מזה, גם אני חושב ש-css זאת לא אופציה רעה).
elcuco - 13/03/2005 - 16:52
נושא ההודעה:
אני אפרסם סדרת קבצי js המסדרים לך תפריטים בצורה נוחה. אם אתה רוצה preview תתפוס אותי בפרטי.

שוב, נראה שיש הסכמה פה אחד שאתה תעשה את זה ב־html. רק חשבתי שצריך להודיע לך על זה... Smile Wink Wink Crying or Very sad Crying or Very sad Laughing Laughing Laughing Embarassed Embarassed Rolling Eyes Rolling Eyes Rolling Eyes Arrow Arrow Idea Question Exclamation Twisted Evil Twisted Evil Twisted Evil Razz Razz Razz Embarassed
amitay - 13/03/2005 - 18:34
נושא ההודעה: לא הבנתי מה הבעיה לשלב בין שני התצורות
חיפוש עושים במוקלד וקריאה בסרוק.
ואני רוצה אחוזים על הרעיון Wink
nirs - 13/03/2005 - 18:39
נושא ההודעה:
יש שני סוגי פלט שאתה צריך:
* פלט לקריאה על המסך - לך על HTML זה הכי נוח לקרוא, להעתיק ולחפש
* פלט להדפסה - HTML לא ממש מתאים, התמיכה של דפדפנים בחלוקה לעמודים גרועה ביותר, אתה צריך פתרון שמעמד את החומר כולל חלוקה לעמודים וליצור קובץ נוח להדפסה כמו PDF.

הבעייה בפרויקט הזה שהוא ענקי ועיקר המאמץ הוא בכלל לא התכנות, אלא יבוא של המלל מהספרים הקיימים לתוך המערכת, וזה בעיקר עבודה שחורה שלא ברור מי יעשה.

יש כמה חלקים לפרויקט הזה:
* כלי להוספת חומר
* פורמט שישמור על המלל ומטה דטה
* כלי לצפייה - מן הסתם דרך דפדפן
* כלי להדפסה - יאפשר לקבל דף דומה למקור?
* מנוע חיפוש

תאר לעצמך את המאמץ הדרוש לעניין טריוויאלי כמו בדיקה שהמלל הוכנס בצורה נכונה ללא שגיאות הקלדה.

נראה שאתה צריך הרבה זמן פנוי...
meorero - 13/03/2005 - 19:26
נושא ההודעה: לסרוק דפים - זה גראפי. התוכן - זה טקסט
את הצורה המקורית של הדף - הכי מוצלח להראות בעזרת סריקה של הדף המקורי.
אבל זה דבר גראפי, לא טקסט שאפשר לחפש בו.

דבר ראשון: מישהו צריך לשבת ולסרוק דף דף? זה נראה לי דבר לא קטן בכלל.

דבר שני אני לא בטוח שלהקליד ידנית טקסט של כל דף שנסרק זה דבר בר השגה לפרוייקט קטן.
לשני דברים אלו צריך כח אדם, ציוד, כסף (לאנשים או לכל הפחות לציוד) וכו'

דבר שלישי אולי אפשר לפענח את הטקסט בצורה אוטומטית - ע"י מחשב.
יש תוכנות שנקראות OCR שבאות יחד עם סורקים. אר גם עם זה יש בעיות:
תוכנות כאלו עובדות באנגלית, או לגבי טקסטים באותיות לטיניות.
בעברית, לדעתי, זה בעייתי עדיין - ובכלל - לא ידוע לי על תוכנה חופשית. אשמח לשמוע אם אני טועה בזה.

דבר רביעי (הכי חשוב)
הסידור של הטקסט על הדף הוא במעין שכבות שכבות. כלומר: בפנים גרעין (למשל: מדרש).
מסביבו פירושים, ועוד פירושים. החשוב זה היחס בין הגרעין לחלקים שעוטפים אותו. "בלוקים" קראו לזה פה למעלה.
צריך לחשוב איך לממש את היחס בין ה"גרעין" לבין כל ה"מסביב"
Yellow_Dog - 13/03/2005 - 19:41
נושא ההודעה:
סליחה ....
הפרויקט הזה לא קטן ....יש צורך לסרוק שוב את הספרים ...כדי למצוא ולבדוק איזה טעמים ו טיפולגיות חריגות שיש ...מכונה כזו מאוד יקרה ..ואני לא יודע יש דבר כזה בבאר אילן ..ל GOOGLE יש !

שנית ...אני חושב שכדי לבדוק אם GOOGEL מוכנה לקחת פרויקט כזה ל ספרי היהדות....אני חייב לצצין שזה לא פרויקט קטן בכלל ..
כי הם עושים דבר כזה ..

מה שאני אומר הגיוני ..?
Anonymous - 13/03/2005 - 20:07
נושא ההודעה:
הי,

כל דבר גדול מתחלק לדברים קטנים, וקלים לביצוע.

עלה כאן כלל חשוב: להפריד את התוכן מהתצוגה.
לגבי תוכן, הקלדה ידנית, או שימוש ב OCR , בכל מקרה תצתרך לעבור על החומר כדי להכניס תויות css או LATEX או כל סימון אחר שתחליט עליו.

לגבי הצגה, אים תחליט להציג תמונות של הדפים הסרוקים, תחסוך זמן בתכנון מערך css או latex מסודר, אבל תצרך לבנות מילון שיקשר בין דפי התוכן הניתנים לחיפוש לבין התמונות הסרוקות.

אים תחליט להציג את הדפים כדפי html או pdf המתאימים לאחת השיטות שתבחר לשמור בהן את התוכן, תחסוך בתכנון מילון יעיל אבל תצתרך לבנות מערך חכם של תגי css או latex.

חבל להתאץ להכין כלים שאין בהם צורך בתחילת הפרוייקט, הצגה של הדפים ע"י דפדפן או מציג PDF או מציג תמונות תספיק בהחלט לתחילת העבודה.
כלים לחיפוש מחרוזות בקבצי טקסט גם יש מספיק בלי לכתוב קוד כלל.

ההחלטות שלך בהתחלה הן, שיטה לשמור את התוכן ושיטה מתאימה להציג את הדפים.
לאחר מיכן תוכל להכין פרק אחד קצר לניסוי, או אפילו דף אחד, כך תראה כמה עבודה באמת דרושה והאים אתה רוצה להמשיך, אז תוכל גם לכתוב מציג יעודי וכלים חכמים יותר לחיפוש תקסט. אולי אים זה באמת יהיה נחמד ומושך עוד אנשים ירצו לעזור.
עידו - 13/03/2005 - 20:09
נושא ההודעה:
אני מסכים עם ניר, המגבלה העיקרית של פרוייקט כזה (לא שהשאר פשוט אגב) זה השגת המידע.

לפי דעתי - תתחבר לאחד מהפרוייקטים הקיימים - "פרוייקט בן יהודה" או "ויקיפדיה - ויקיטקסט"
ותשתמש במאגר המשתמשים שלהם כאמצעי קלט.

אם לדוגמא אתה מחליט ללכת על ויקיפדיה - תמצא דרך להרחיב את המנגנון הקיים שלהם לתמוך בעימוד גרפי מתוחכם.
תכניס אותו ל cvs ותשכנע את המקימים למה זה חיוני.
לאחר מכן - העבודה של להכניס את המידע תעבור למתנדבים הרבים מסביב לעולם.
Anonymous - 13/03/2005 - 21:02
נושא ההודעה:
משה: התמונה שקישרת לא מוצגת.

לעצם העניין, אני מסכים אם אחרים שאומרים שצריך להפריד בין שני סוגי פלטים: לפט ב־PDF שמעומד ומחולק לדפים (והוא בעברית ויזואלית ובו אי־אפשר לחפש) ומקור שני שבנוי בצורה נוחה יותר לחיפוש.

בכל מקרה, אם אתה צריך עזרה במימוש של הסיפור ב־LaTeX אני אשמח לעזור.

עידו: חסר לך קישור לפרוייקט "A Life"
משה - 15/03/2005 - 22:44
נושא ההודעה:
נחמד שאתם עושים עלי עליהום כשאני בפנמייה ולא יכול להגיב Laughing

אני רוצה להבהיר לכל מי שלא הבין:
אני לא מתכנן לסרוק את כל הגמרא לבד, ואני גם לא מצפה שהקהילה תעשה את זה.
אין לי בעייה שמישהו כן יעשה את זה, אבל זו לא מטרת הפרוייקט. המטרה היא ליצור כלי, פשוט עד כמה שאפשר, שיאפשר קליטה והצגה חכמה. המטרה היא לא להשתמש בזה כדי לסרוק את הכל עכשיו, אלא ליצור את זה בשביל שאחרים (שזה כולל גם אותי) יוכלו להשתמש בזה בעתיד. לא מדובר בפרוייקט לסריקת הגמרא, אלא ליצירת הכלי.
אני ממש לא הולך לסרוק את כל הגמרא לבד, ועם הסורק הגרוע שלי, גם אתם לא תרצו שאני אהיה זה שסורק את הגמרא Laughing

לגבי שימוש בתמונות בשביל תצוגה ומקור בשביל חיפוש:
כמו שקובי הסביר גם זה דורש הרבה עבודה, והעניין היותר גדול הוא כמו שציינתי: בגמרות יש במקרים רבים כתב לא קריא בכלל. אם נשתמש ברעיון שהצעתי, הכתב תמיד יהיה תקין (אבל ידרוש התערבות בעת בעת ההכנסה למאגר, שכמובן מבוססת על OCR שיעבוד בצורה חכמה של ניתוח הדף לפי בלוקים, כמו שחשבתי שהבהרתי).

לגבי html או LaTeX:
תראו, אני באמת לא מבין בשתי הדברם האלה בכלל, ובאמת אין לי מושג מה עדיף.

לגבי html אתם עדיין מתעלמים מהשאלה שלי של איך הוא מטפל בצורות מוזרות של בלוקים (ולמי שעוד לא תפס על מה אני מדבר, אני מצרף תמונה שממחישה את זה בסוף).

לגבי LaTeX, נשמע מאוד מעניין, אבל לא הבנתי איך משלבים class של LaTeX בתוך תכנה אחרת, ואין לי שום נסיון או היכרות עם זה...

נ.ב. יופי שגיליתם את אמיריקה לגבי זה שצריך להפריד בין המקור של החיפוש ומה שמוצג. זה בעצם מה שאמרתי כשפתחתי את הדיון,(אם כי אולי היה אפשר להבין שרציתי להשתמש באותו מקור לשתי הדברים, אבל לפי מה שעניתי לדיאגו רואים שזה לא מה שתכננתי...) אבל תמיד נחמד להתעלם ממה שאני אומר, נכון? Wink

משה

הנה התמונה (שימו לב לשינו הצורה של הבלוקים בצדדים):
http://www.daat.ac.il/daat/toshba/test/pic/gmara99.htm
nirs - 16/03/2005 - 00:05
נושא ההודעה:
HTML לא בנוי להציג עמודים בפורמט כזה. הכלי היחיד שיכול לעשות את זה זה גרפיקאי שישב ויעמד כל דף בנפרד בתוכנת עימוד. ב-HTML, המבנה השל הדף ישבר באופן טבעי (ורצוי) רק מעצם הצגת הדף אצל לקוחות עם גודל פונט וסוג פונט שונה, שלא לדבר על דפדפנים שונים שיש להם כל מיני בגים.

לכן מראש לא הייתי הולך על שיכפול של הדף על הנייר לדף על המחשב - אלא מוצא דרך שבה ניתן להציג את אותו מידע על המחשב, שתשמור על העקרונות החשובים של המלל הזה, אבל יחד עם זה תאפשר לכל אחד להסתכל על הדף בפונט שנוח לו, בגודל שנוח לא וברוחב חלון שנוח לו.

זה יראה אחרת מהדף המקורי, אבל זה יהיה הרבה יותר נוח לשימוש, וזה יוכל להבנות בצורה אוטומטית - כלומר אתה מכניס את המלל ביחד עם מידע על כל סוג של מלל, והמערכת יוצרת פלט באופן אוטומטי לפי כלליי העיצוב שאתה קובע בקובץ ה-CSS.

במנוע החיפוש תוכל לחפש במלל לפי סוג המלל - תוכל לחפש רק בבלוק המרכזי, או רק בבלוקיםֶ המקיפים אותו, או בשניהם, או לפי שם הכותב וכדומה.
landmn - 16/03/2005 - 11:21
נושא ההודעה:
אני מסכים עם nirs. אפילו אם אפשר למצוא איזו דרך שתפרט באיזו שורה בדיוק הרוחב משתנה ולאיזה רוחב היא משתנה, לדעתי זה לא שווה את המאמץ.
הנקודות שחשובות הן -
1. נקודת השבירה בין העמודים. (אולי ניתן להסתפק בסימונים רק בטקסט המרכזי של הגמרא והפרשנים (אם יהיה להם קישור "live" לטקסט העיקרי) ישארו באותו דף).
2. כללים סבירים אחידים לגבי כל הדפים - הרוחב המקסימלי של הפרשנים בצדדים וכמות השורות הרחבות ביחס לשורות הצרות נראה לי שהכללים צריכים לכלול גם גודל פונט, צפיפות שורות וכדו'.
לדעתי, זה החלק המסובך בעניין - לעשות את הכללים כך שיתנו צורה נעימה לעין, סבירה ומזכירה מספיק את התסדיר המקורי (של דף גמרא כללי, לא של דף ספציפי).
התוצאה בסוף אמנם לא תהיה זהה ל"צילום ש"ס וילנא" (זו המהדורה של הגמרא שכמעט כל ההוצאות מאז כמה מאות שנים פשוט מצלמות אותה ואולי משפצות חלק מהפונטים), אבל במילא כמעט כל התיחסויות נוגעות לעמוד שבו הטקסט נמצא ולא לרוחב השורות. עם הדגשה מתאימה של התחלות פיסקה וכדו' (ומנוע חיפוש...) יהיה אפילו יותר קל למצוא את הטקסט המקביל מבתסדיר הדף המקורי.
VincentGlenn - 16/03/2005 - 12:07
נושא ההודעה: LaTeX
בחזרה להצעת ה-LaTeX: מה שLaTeX יכול לעשות, לדעתי, זה את הדבר הבא:
1. להגדיר ב-LaTeX מאקרו או מחלקה שמסדרת את העמוד כמו שרוצים. למשל אפשר להגדיר תיבות טקסט בגדלים ומיקומים שונים כדי לחקות את העיצוב של דף גמרא.
2. להמיר, דרך OCR או הקלדה, את דפי הגמרא למסמכי LaTeX שמשתמשים בהגדרות האלה.
3. לקמפל את המסמכים ל-PDF או PS או משהו (פורמט דפוס)
4. האינדקס יהיה מעל PDF או בעזרת הקבצים המקוריים.

הערות, צפריר, מישהו?
Anonymous - 16/03/2005 - 13:55
נושא ההודעה:
although there is no copyright on the gmara if you want to scan a page
you need to scan it off existing gmara and there you'll get into a lot of copyright problems.
I was trying to pull off something similar a while ago but everywhere I went and whoever I asked I mostly got no or we might sue you if you use it.

it seems the haredim does have copyright over judisim:(
nyh - 16/03/2005 - 14:55
נושא ההודעה:
Anonymous :
although there is no copyright on the gmara if you want to scan a page
you need to scan it off existing gmara and there you'll get into a lot of copyright problems.
I was trying to pull off something similar a while ago but everywhere I went and whoever I asked I mostly got no or we might sue you if you use it.

it seems the haredim does have copyright over judisim:(


כל אחד יכול לאיים עליך בתביעה, ואפילו לתבוע אותך, אבל בשביל לזכות הם צריכים להראות שבאמת הפרת את זכויותיהם - ובמקרה זה כל לא ברור שיש להם כאלו.

קח את מה שאני אומר בעירבון מוגבל, כי אני לא עורך דין, אבל: למיטב הידוע לי, בישראל ניתן לקבל זכויות יוצרים רק על יצירה שהושקעה בה "עבודה יצירתית". העתקת יצירה ישנה וסידורה מחדש במעבד תמלילים, הדפסתה במכונת דפוס חדשה, וכד', איננה עבודה יצירתית, כי אם עבודה טכנית גרידא, ואין זה משנה אם היא הייתה עבודה קשה. מכאן שאם בית דפוס מסוים לוקח גמרא עתיקה, ויוצר גרסה חדשה שלה (ללא שינוי התוכן כהוא-זה, אני מניח...) ומדפיס אותה, אין לו שום זכות יוצרים על הגרסה החדשה.
אגב, מבחינה מוסרית, כאשר אדם לוקח יצירה של איש אחר (או חז"ל, או אפילו יצירה אלוהית Smile), וטוען שתוכן היצירה שייך לא, זאת חזירות, ואפילו רמאות. לכן לטעון לזכויות יוצרים על התנ"ך, הגמרה, או אפילו הדפסה חדשה של ספר ישן מלפני מאה שנה, היא חזירות.

זכותם של בר-אילן לבקש 2850 שקל על הטקסט של הגמרא, אבל זכותך (המוסרית, לפחות - חוקית כנראה יש לך חוזה אתם בנוסף לזכויות היוצרים הרגילות) להפיץ אחר-כך טקסט זה לכל חבריך. אני לא מסוגל להבין איזו זכות מוסרית יש לחברה או אוניברסיטה מסוימת על יצירה שנכתבה מאות רבות של שנים לפני כן על-ידי אנשים אחרים.
Anonymous - 16/03/2005 - 15:11
נושא ההודעה: אני חושב שבבר -אילן, יש מידע על המיקום של כל טקסט, מסויים,
והעמוד שהוא נמצא בו
רק תבדוק באמת איך זה מתנהג שם, ואיך ת'יכול לקבל ת'מידע הזה
אני לא חושב שהם יתעצבנו יותר מדי, אם יהיה כלי, שרק יעזור ב"פרוייקט" שלהם בעצם
nirs - 16/03/2005 - 15:18
נושא ההודעה:
גם אם המלל של הספרים הוא רכוש הציבור, זה לא הופך את התקליטור של בר אילן לרכוש הציבור. זכותם לדרוש כסף על העבודה שהושקעה בהמרה מהספרים למלל ממוחשב.

מדוע שלא תפיק תקליטור משלך (לא על בסיס החומר שלהם) ותשחרר אותו באופן חופשי?
shaykid - 16/03/2005 - 15:35
נושא ההודעה: בעניין זכויות יוצרים
למיטב זכרוני יש גבול של 70 שנה לזכויות יוצרים על יצירה
כך שבעצם אם תקח גמרא מלפני שבעים שנה או יותר
תוכל לסרוק אותה ללא חשש לפגיעה בזכויות יוצרים
ו\או התחבטויות מוסריות עם דוסים...

שי

______________
חופש חופש תרדוף
Anonymous - 16/03/2005 - 16:01
נושא ההודעה:
אוצר כתבי יד תלמודיים:
http://jnul.huji.ac.il/dl/talmud/
nirs - 16/03/2005 - 16:39
נושא ההודעה:
שם לב לתנאי השימוש:
http://jnul.huji.ac.il/dl/talmud/terms.htm

היה ראוי שהמדינה תממן פרויקטים כאלו. אישית אין לי עניין בזה, אבל בכסף שהולך לתמיכה בגופים דתיים היה אפשר בקלות לממן דיגיטציה של החומר הזה ושיחרור שלו ברשיון חופשי, כך שכל אחד עם דפדפן יוכל לענין ולחפש.
Anonymous - 16/03/2005 - 17:06
נושא ההודעה:
מכון ממרא מפרסם באתרו עותק של התנך, התלמוד ומשנה תורה של הרמב"ם. ניתן להוריד עותק zip של כל אחד משלושת החלקים הללו (בעברית או באנגלית). הרשיון מרשה שימוש לא מסחרי בלבד.

http://www.mechon-mamre.org
משה - 22/03/2005 - 21:39
נושא ההודעה:
לגבי זכויות יוצרים לא הייתי דואג, כל מה שיכול להיות עליו זכויות זה הסידור של הדפוס, ומאחר והוא זהה מאז דפוס וילנא (שהיה מזמן) לא נראה לי ששיך על זה זכויות יוצרים.

לגבי ההצעות לעשות את זה "דומה" לגמרא אבל לא זהה:
זה בדיוק מה שאני לא רוצה לעשות. יש עניין גדול שזה יהיה זהה לחלוטין , ואם זה לא היה כל כך חשוב, לא היה שום סיבה לפרוייקט הזה.

אני גם לא רוצה שזה יוצג כדף html, pdf או משהו כזה, משום שאז באמת קיימת הבעייה של פונטים שונים, גודל שונה וכו'.
אבל זה לא שייך, כי אני לא רוצה שזה יהיה בפונט שונה, זה אמור להיות זהה לגמרא!
לכן אני רוצה שהתוכנה תהיה תוכנה ייעודית לנושא, עם פונטים כלולים (שהתכנה תעבוד איתם), וגם אם תהיה בה אפשרות לשינוי גודל, זה יהיה בפרופורציות, ז"א: העמוד גדל והפונט גדל בהתאם.

לכן ההצעות הכי הגיוניות נראות לי שימוש בתיבות טקסט מיוחדות (אם יש דבר כזה) שהם לא בצורת ריבוע, או לחילופין למצוא דרך לשלב את הclass שך LaTeX בתכנה אחרת.

צפריר, יש דרך לממש class של LaTeX בתכנה אחרת? אם כן, אני אשמח ליצור איתך קשר ולברר איך עושים את זה.

למישהו יש רעיון איך לממש את הרעיון עם תיבות הטקסט?

משה
משה - 26/03/2005 - 20:30
נושא ההודעה:
אני רוצה לממש כבר משהו בסיסי עם תיבות טקסט, אבל עד עכשיו לא הצלחתי למצוא תיבת טקסט שהיא לא מלבנית.

מישהו מכיר דבר כזה שכבר קיים?

משה
Anonymous - 26/03/2005 - 23:20
נושא ההודעה:
משה :


לגבי ההצעות לעשות את זה "דומה" לגמרא אבל לא זהה:
זה בדיוק מה שאני לא רוצה לעשות. יש עניין גדול שזה יהיה זהה לחלוטין , ואם זה לא היה כל כך חשוב, לא היה שום סיבה לפרוייקט הזה.

משה


תעזוב את זה וזהו.
אין לך מושג איזה סיוט זה לעצב דף כך שיראה כמו גמרא (אני עשיתי אחד כזה ב- word באמצעות תיבות טקסט ולמרות שהיה לי את כל המידע (רוחב, גודל טקסט, וכו') לקח לי כמה לילות לעשות את זה.

שלא לדבר על כך שכל דף שונה ממשנהו ואי אפשר לעצב תבנית אחת לכל הדפים.

כמו כן, המעצבים המקוריים (של דפוס וילנא) שיחקו עם הרווחים בין המילים ובין האותיות כך שאין רווח אחיד אפילו בשורה בודדת.

עוד בעיה (שאיתה אפשר דווקא להסתדר) היא העובדה שעמודים שונים באותו דף מודפסים הפוך (מיקום הפירושים והתוספות השונות).

אני לא רוצה לייאש אבל נראה לי שהעבודה היא מעל ומעבר למה שיכול אדם פרטי ללא מימון לעשות.
The-Q - 26/03/2005 - 23:32
נושא ההודעה:
משה :
אני רוצה לממש כבר משהו בסיסי עם תיבות טקסט, אבל עד עכשיו לא הצלחתי למצוא תיבת טקסט שהיא לא מלבנית.

מישהו מכיר דבר כזה שכבר קיים?

משה

אתה יכול לממש תכונה של union ו-intersection של תיבות מלבניות וככה ליצור תבניות יותר מורכבות.

הנה רעיון קטן - ליצור אובייקט בסיסי שיכיל ערכים של: סוג, ורשימה של תת אובייקטים. כל אובייקט הוא מלבן, כשהאובייקט הראשון הוא הדף עצמו, ותת האובייקטים הם מלבנים שערכיהם הם או טקסט, או רשימה של תת אובייקטים אחרים. אתה יכול ליצור גם סוג אובייקט של union למשל, שיכיל כמה מלבנים אחרים ויחבר את השטחים שלהם לצורה שלמה אחת.
משה - 27/03/2005 - 10:09
נושא ההודעה:
חשבתי על רעיון כזה בערך, הבעייה היא שאז אין אפשרות לסמן קטע שמופיע בשתי תיבות שונות, למרות שהן שייכות לאותה קבוצה של מלבנים(ולאותו בלוק),

אם יש למישהו רעיון איך לעקוף את זה, אני מניח שאני באמת אלך על האפשרות הזאת.

תודה,
משה
משה - 27/03/2005 - 13:19
נושא ההודעה:
התקדמות קלה!
גיליתי את זה: http://developer.gnome.org/doc/API/2.0/gtk/GtkWidget.html#gtk-widget-shape-combine-mask

הבנתי שהפקודה הזאת יכולה לשנות צורה של widget בgtk לפי תמונה.
עכשיו נשאר לי ליצור מימוש ראשוני בעזרת זה, ואולי לחקור קצת איך אני יוצר תמונות מתאימות עם ImageMagic...

נ.ב. כנראה שאסור לסמוך רק על גוגל. חיפוש של כמה דקות בארכיון רשימת התפוצה של gtk מצא את זה, בזמן שחיפוש הרבה יותר ארוך בגוגל לא הצליח.

משה
Anonymous - 18/06/2005 - 23:21
נושא ההודעה:
טוב, עוד שבועיים מתחיל לי החופש (כן, כולם מתחילים לפני, לא פייר, אבל אין לי ברירה), וחבל לא לנצל את החופש לפרוייקט הזה. אז אני מפרסם פה תגובה שתסביר לפחות בבסיס מה אני מתכנן לעשות בתקווה שעד שאני אתחיל לעבוד התגובות פה (אם יהיו) יוסיפו לי קצת חומר למחשבה.

כרגע, המטרה של הפרוייקט (רק מבחינת הקטע שמציג כרגע) היא כזו (החלטתי לנסח מחדש כדי למנוע את חוסר ההבנה שהייתה לכולם קודם):
בניית פורמט טקסטואלי פשוט של דף גמרא, שיכיל בתוכו הן את המידע ה'נקי' שעל הדף (לדוגמא מילים שמודפסות צמודות הן לא אותה מילה מבחינת חיפוש), שישמש לאיפשור חיפוש מידע,
והן את מידע התצוגה (גודל רווחים בין מילים, סימנים מיוחדים, שינויי פונט, ועוד), על מנת לאפשר תצוגה זהה לחלוטין לזו של הדף המקורי.

הסיבות שהפרוייקט לא מפריד בין הדברים ומשתמש בתמונה לתצוגה וטקסט מוקלד לחיפוש הם בעקרון אלו:
- חסכון במקום. זה לא צחוק, תמונה תופסת הרבה הרבה יותר מקום מאשר טקסט (עם מידע רב על התצוגה ככל שיהיה), וזה מאוד משמעותי כשמדובר בסדרי גודל של ספרות יהודית (לאו דווקא הגמרא) שזאת כמות עצומה של ספרות.
- תצוגה 'נקייה'. הגמרות היום כתובות בכתב מטושטש ומרוח (כתוצאה מכך שמדובר בצילומים של צילומים), ולפעמים הכתב כמעט בלתי קריא. גם סריקה של גמרא מאוד איכותית לא תיצור תמונה מושלמת, בגלל הסריקה. לעומת זאת שימוש בהצעה שלי גורם לטקסט להיות טקסט מחשב נטו, בלי שום גריעת איכות.
- הקלדה זה דבר רצחני. לבר-אילן אולי יש מימון, לי אין. הרעיון שלי אמור לאפשר שימוש בocr , גם לא דבר שבן-אדם עושה בקלות, אבל הרבה פחות מהקלדה.
- יש כנראה עוד סיבות שחשבתי עליהן, אני פשוט לא זוכר. אולי בהזדמנות.

בעיות טכניות אפשריות (וקשות):
- רווחים בגדלים מאוד לא סטנדרטיים. לא מדובר ברווח כפול, משולש או חצוי, מדובר בגודל בלתי תלוי שהמדפיסים קבעו. אולי יש דרך לארגן איזה פונט שיש לו גודל רווח של פיקסל שאותו אני אשים כמה פעמים שצריך.
- צורות 'בלוקים' לא סטנדרטיים. הצורות של כל בלוק לא יוצאות מרובעות כמעט אף פעם, מה שיקשה על אפשרות של סימון ובחירה של טקסט.(ובכלל שאין תיבות בצורות כאלה) חשבתי על רעיון של שימוש בתיבה נפרדת לכל שורה ולעשות שסימון טקסט יעשה רק ב'כאילו' (שהרי אלו תיבות נפרדות). נשמע לי קצת מוזר, אבל אולי.
- אני בקושי יודע לתכנת, שלא לדבר על תכנות עם tool kits. יהיה מעניין.
- צפריר לא עונה למיילים (לפחות מתי שפניתי אליו). צריך מישהו שידע מה הוא עושה שישגיח עלי, לא?

טוב, נראה לי שזהו לכרגע, אולי אני אפרט עוד בהמשך.

משה
landmn - 19/06/2005 - 12:23
נושא ההודעה:
Anonymous :

- הקלדה זה דבר רצחני. לבר-אילן אולי יש מימון, לי אין. הרעיון שלי אמור לאפשר שימוש בocr , גם לא דבר שבן-אדם עושה בקלות, אבל הרבה פחות מהקלדה.


למיטב ידיעתי, אתה טועה לחלוטין.
נניח שה-OCR בעל יכולת זיהוי של 99% (למיטב ידיעתי, OCR באנגלית בקושי מגיע לזה. קל-וחומר OCR לעברית) - המשמעות היא שיש לך טעות אחת בכל מאה אותיות!
כיון שבדף גמרא יש אלפי אותיות. יהיו לך עשרות טעויות לגלות בכל דף. כדי לגלות אותן, אתה צריך המון שעות עבודה של כוח אדם איכותי.
אם יהיה לך מילון מוצלח מאד לארמית (!) כולל הטיות וקיצורים וכו', תוכל אולי לצמצם את הטעויות בחצי.
זה עדיין משאיר אותך עם עשרות טעויות שדורשות הגהה קפדנית.

אגב, לבר-אילן יש מנוע מצויין של הטיות מילים בעברית וארמית שהוא בסיס החיפוש בתקליטור, אבל משמש מן הסתם גם להגהת החומר המוזן.

(נדמה לי שמפתח של התוכנה שדיברתי איתו לפני שנים דיבר על הקלדה של החומר, אולי אפילו בחו"ל, אבל אני לא זוכר בבירור).
Anonymous - 19/06/2005 - 14:17
נושא ההודעה:
כדאי להציץ במאמר
http://www.inn.co.il/newspaper.php?id=4472
על חברת אימגסטור בבעלות דתית העוסקת בתעשית הסריקה.
אולי הם יכולים\רוצים לסייע.
nyh - 19/06/2005 - 15:32
נושא ההודעה: מחיר כוח האדם הארמי
> למיטב ידיעתי, זו הסיבה הכלכלית שבר-אילן הלכו על הקלדה, נדמה לי שהם השתמשו בעובדים במזרח
> הרחוק שעושים את העבודה במחיר אפסי

כנראה שאתה צודק. הרי ידוע היטב שמספר דוברי הארמית והעברית במזרח הרחוק הוא פשוט עצום. Very Happy
Anonymous - 23/06/2005 - 20:57
נושא ההודעה:
landmn :
Anonymous :

- הקלדה זה דבר רצחני. לבר-אילן אולי יש מימון, לי אין. הרעיון שלי אמור לאפשר שימוש בocr , גם לא דבר שבן-אדם עושה בקלות, אבל הרבה פחות מהקלדה.


למיטב ידיעתי, אתה טועה לחלוטין.
נניח שה-OCR בעל יכולת זיהוי של 99% (למיטב ידיעתי, OCR באנגלית בקושי מגיע לזה. קל-וחומר OCR לעברית) - המשמעות היא שיש לך טעות אחת בכל מאה אותיות!
כיון שבדף גמרא יש אלפי אותיות. יהיו לך עשרות טעויות לגלות בכל דף. כדי לגלות אותן, אתה צריך המון שעות עבודה של כוח אדם איכותי.
אם יהיה לך מילון מוצלח מאד לארמית (!) כולל הטיות וקיצורים וכו', תוכל אולי לצמצם את הטעויות בחצי.
זה עדיין משאיר אותך עם עשרות טעויות שדורשות הגהה קפדנית.

אגב, לבר-אילן יש מנוע מצויין של הטיות מילים בעברית וארמית שהוא בסיס החיפוש בתקליטור, אבל משמש מן הסתם גם להגהת החומר המוזן.

(נדמה לי שמפתח של התוכנה שדיברתי איתו לפני שנים דיבר על הקלדה של החומר, אולי אפילו בחו"ל, אבל אני לא זוכר בבירור).

קודם כל תודה על ההתייחסות, אבל אני נאלץ לא להסכים איתך גם.
טעות כל 100 אותיות זה אולי המון, אבל גם למי שמקליד יש המון שגיאות כתיב, ואני מדבר על כמות עצומה. (ראית פעם ספר לפני הגהה? )
בנוסף, בצורה של ocr אפשר לסרוק לדוגמא דף זהה בשתי גמרות שונות (אפילו שני אנשים שונים יכולים לעשות את זה), ולהצליב ביניהם מידע. אני יודע שזה לא מושלם אבל לדעתי זה עדיין יותר פשוט מהקלדה.
בכל מקרה, גם אם לא, היתרונות האחרים של מה שהצגתי עדיין קיימים.

משה
משה - 09/08/2005 - 10:53
נושא ההודעה:
טוב, הגיע הזמן לעדכון שדברתי עליו:
עבדתי קצת על הפרוייקט, וכרגע יש לי תכנה קטנה ומגעילה שמנתחת קובץ במבנה שתארתי קודם (טקסט מקורי ותצוגה ביחד) ומדפיסה פלט של מה היא הייתה עושה לו היה לה ממשק. משהו כמו: "הייתי שם תיבת טקסט במיקום זה וזה עם טקסט כזה וכזה".
זה אמנם לא הרבה, וכל המיקומים והערכים הם בדר"כ שרירותים (ז"א קובץ המידע שהוא מנתח הוא לא משהו), אבל לפחות קיים כבר משהו פחות תיאורטי ויותר פרקטי.

כרגע, אני צריך להתחיל לעבוד על ה gui. וזה די בעייתי, כי אני פשוט לא מבין בנושא כלום.
החלטתי (בלי סיבה מיוחדת) לנסות לעבוד עם gtk. כרגע יש לי בעייה מרכזית שהיא ה packing. אני פשוט לא מבין מה הולך שם... אני מסכים שצריך שהתוכנה תוכל לשמור על פרופורציות ולכן fixedpacking לא מתאים, אבל אני לא מבין איך אפשר למשש את מה שאני רוצה עם boxes!
אם מישהו מוכן לעזור לי בנושא, אני אשמח לכל סיוע.


יותר מידע על מה שיש, קוד המקור שקיים, הבעיות, המבנה ועוד אני אנסה לפרסם בזמן הקרוב.

תודה,
משה
Anonymous - 29/03/2007 - 18:55
נושא ההודעה: פתרון פשוט יחסית
א. כדי לחסוך עבודה וכדי להשיג את הדיוק המירבי, לא נשתמש בסריקת OCR של הטקסט עצמו, אלא נשתמש בטקסט המוקלד הקיים (מכל מאגר מידע כלשהו).
ב. יש לאתר (באופן אנושי או ע"י סורק OCR) את המילה הראשונה והאחרונה של כל מקטע מהדף (גמרא או פרשן: רש"י, תוספות).
ג. יש לדגום את גבולותיו של כל מקטע (גמרא, רש"י וכו') בדף האמיתי ע"י תוכנת OCR פשוטה שמזהה את המעבר מטקסט לדף ריק, ויוצרת מאגר נתוני מסגרות לכל דף ודף.
ד. כעת כשיש לנו את כל הנתונים הללו: נבנה אליגוריתם שימלא את המסגרת הריקה בטקסט מן מאגר המידע, כאשר גבולות המידע הן עפ"י המילה הראשונה והאחרונה. יכול להיות שעדיין התוצר הסופי לא יהיה זהה לגמרי לצורת הדף האמיתית, כיוון שסדרני הדפוס בטח הכניסו עוד שיקולים לסידור של הדף. בכל מקרה, חובה לאסוף עוד נתונים על מבנה הדף: גודל האותיות, הגופן, צפיפות השורות וכדו', המשפיעים על צורת הדף האמיתית.

בהצלחה.

אני חייב לציין שאין לי ניסיון בתכנות מעשי בשפות בנות-ימינו, רק בשפות ישנות ולא ויזואליות.

אליהו.

אשמח לתגובות, לטוב ולמוטב.
משה - 05/05/2007 - 23:53
נושא ההודעה:
אם כבר הקפצתם לי את הדיון, (למרות שלא כל כך הבנתי מה ההודעה האחרונה ניסתה לומר) אז אני כבר אשחיל כמה מילים.
קודם כל, הפרוייקט לא מת. נכון, הוא לא כל כך זז בזמן האחרון, אבל אני עדיין עובד עליו קצת ובע"ה בחופש אני אנסה לעבוד עליו יותר.
לגבי כל הוויכוחים על הפורמט - אני עובד על לעשות אותו קצת יותר נורמלי, הרבה על בסיס ההצעות פה בדיון. כשמשהו יתקדם אני אשתדל לדווח.

רק שאלה שתעזור לי בהמשך - יש למישהו מושג מה הרשיון על הפונטים של חברת כיוון (Kivun computers Ltd(? החברה בכלל קיימת עדיין?
הפונטים לא באים עם שום מידע על רשיון, הם מופצים בלי שום הגבלות באינטרנט, וכל מה שרשום עליהם זה:
- Copyright
(c) 1991-1993 Kivun Computers Ltd. all Rights Reserved.

מה זה בדיוק אומר? האם לתת להם קרדיט זה מספיק? ומה עם להתעלל בפונט, זה מותר לי?

תודה,
משה
כל הזמנים הם GMT + 2 שעות