פורסם: 12/03/2005 - 20:21
נושא ההודעה: פרוייקט קטן משלי: "מקורות"
|
אחד החסרונות העיקריים בפרוייקט השו"ת של אוניברסיטת בר-אילן (פרוייקט שמכיל מאגר של כמעט כל הטקסטים היהודיים, מהתנ"ך והגמרא ועד ספרים של רבנים שחיים היום ) הוא חוסר התמיכה במה שנקרא "צורת הדף". שזה אומר הצגה של הטקסט כפי שהוא מופיע בספר המקורי ולא פשוט כטקסט רגיל, מאחר ולספרים רבים יש צורה ספציפית וחשובה מאוד של סידור הטקסט (לדוגמא בגמרא: http://www.daat.ac.il/daat/toshba/test/pic/gmara99.htm ).
הבעייה ממה שאני הבנתי היא בעיקר טכנית:
מצד אחד אם סורקים דפים (כמו שעושה פרוייקט אחד ופחות מוכר), אז יש "צורת הדף" אבל אי אפשר לבצע חיפוש או העתקה של הטקסט(דבר חשוב והכרחי).
לעומת זאת אם מקלידים את הטקסטים (כפי שנעשה בפרוייקט השו"ת) אז אי אפשר שהטקסט יוצג בצורה המקורית, גם מבחינת ההכנסה של הטקסט (אי אפשר לעשות enter אחרי כל כמה מילים, 2 רווחים מדי פעם בין שתי מילים, בלי רווחים מדי פעם בין שתי מילים,ועוד לעשות את זה ככה שיצא בדיוק כמו המקורי.).
לכן אני רוצה להתחיל פרוייקט קטנטן שיענה על החוסר הזה. הרעיון הוא לבנות שתי דברים עיקריים:
1. תוכנת סריקה שתסרוק את הטקסט כמו שהוא ותפריד אותו לאובייקטים שונים (כל "בלוק" בגמרא זה פרשן אחר בדרך כלל), תכניס למאגר המידע הנכון (לדוגמא, תוסיף את הרש"י על הדף הזה למאגר שלו, בלי שום קשר למעבר לדף הבא, על אף ששם הוא לא יוצג בצורה רציפה למה שהיה קודם),ותשמור מידע על המיקום, הצורה והגודל של כל עמודה.
בעיות אפשריות: הרבה מהטקסטים מרוחים (הכל מבוסס על הדפסות ישנות מאוד שמהם הכל צולם), לפעמים אין תוס' ובמקום שלו נמצא רש"י, וכו'
2.תוכנה שתדע לשלוף את הטקסט של כל קטע מהמאגר שלו ולהכניס את זה בצורה של הדף לתוך תיבות מתאימות. התוכנה תכלול גם יכול חיפוש במאגרים, ואם תמצא התאמה, זה יציג את הטקסט התוך הדף שלו.
בעיות אפשריות: הטור של הגמרא משנה את העובי שלו כשמסתיים טור של פרשן כלשהו, מה שאומר שצריך להשתמש בתיבות טקסט עם צורות שונות ממלבן (אם זה קיים), או להשתמש במספר תיבות ביחד, מה שימנע יכולת לסמן טקסט באחד ובשני באותו זמן.
לא פתחתי פרוייקט בשום מקום כי אין לי את הידע איך לעבוד עם CVS או דברים כאלה, ולא נראה לי שיש לי צורך לכך. הדבר לא נועד להיות גדול, סתם פרוייקט לכיף בזמן הפנוי שלי (שאין לי האמת, אבל כולם אומרים את זה).
אם למישהו יש רעיונות\הצעות\פתרונות לבעיות\רצון להשתתף, הוא מוזמן להגיב פה או לפנות אלי moshe.wagnerATgmail.com.
תודה,
משה
נערך לאחרונה על-ידי משה בתאריך 08/05/2005 - 13:20, סך-הכל נערך פעם אחת
|
|
חזרה לתוכן הדיון |
פורסם: 12/03/2005 - 20:34
נושא ההודעה:
|
כמה דברים:
תמיד תפריד בין תוכן ולבין תצוגה. ככה יהיה לך אפשרות לחפש, וגם תקבל את התצוגה שאתה רוצה.
אני רואה בראשי HTML עם CSS בסיסי פלוס פלוס...
קוד: |
<div class="class1">
טקסט מוקרי
</div>
<div class="class2">
פירוש ראשון
</div>
<div class="class3">
פירוש שני
</div>
|
בעזרת CSS נכון, אתה תקבל את התצוגה שיש במקור.
בגדול, , אם יש לך את הטקסט (טקסט פשוט, קובץ txt רגיל השמור בפורמט utf8) של כל העמודים, להכניס את זה ל-HTML ולכתוב CSS מתאים לא בעיה.
|
|
חזרה לתוכן הדיון |
פורסם: 12/03/2005 - 20:56
נושא ההודעה:
|
זה פרוייקט קטן?
|
|
חזרה לתוכן הדיון |
פורסם: 12/03/2005 - 21:02
נושא ההודעה:
|
תודה על התגובה. זה בערך מה שתככנתי, אם כי תכנניתי שזה יהיה ככה:
קובץ של הטקסט בלבד, לכל פרשן וכו'. (לדוגמא: פרוש א' על מסכת א').
קובץ במבנה של תגיות, שיכלול לדוגמא:
קוד: |
<DATA name=gmara>
<block>
<start=0,0>
<width=10>
<lenth=5>
</block>
<block>
<start=5,0>
....
</block>
</DATA>
<DATA name=rashi>
...
</DATA>
|
עד כמה שהבנתי זה בערך אותו עקרון.
לגבי איך להציג את זה: הצעת html. אפשר עוד מידע איך זה מתבצע? זה יתן לי לסמן טקסט לוגמא בטור אחד עם רוחב משתנה בלי לגלוש לטור אחר?
ואיך ממשים את זה בתוך תוכנה שלמה (עם תפריטים למעלה, חלון משל עצמו וכו')
אולי בכלל עדיף לממש את זה עם gtk או משהו?
נ.ב. לא ציינתי, אבל חשוב שהתוכנה תהיה פורטיבלית, לכן אני מניח שכדאי להתמקד בספריות פיתוח cross-platform כמו gtk, ואולי גם שפות כאלה כמו פייתון.
|
|
חזרה לתוכן הדיון |
פורסם: 12/03/2005 - 21:04
נושא ההודעה:
|
זה בציניות?
כן, אני מקווה שזה יהיה קטן כמה שאפשר. אבל, אם ידרש לזה משהו גדול, לי יש זמן, מצדי יכולה לצאת גרסת בטא בעוד שנתיים. אני לא לחוץ שזה יתממש מהר.
משה
|
|
חזרה לתוכן הדיון |
פורסם: 12/03/2005 - 21:23
נושא ההודעה:
|
לדעתי HTML יהיה אידיאלי...
אם כבר יש לך XML, כמו מה שהגדרת, להפוך אותו ל-XSL (מראש, או בזמן ריצה) לא יהיה מסובך בכלל, ו-HTML כבר חוסך לך את כל השטויות של סידור, עימוד וכו'.
|
|
חזרה לתוכן הדיון |
פורסם: 12/03/2005 - 21:30
נושא ההודעה:
|
משה : |
זה בציניות?
כן, אני מקווה שזה יהיה קטן כמה שאפשר. אבל, אם ידרש לזה משהו גדול, לי יש זמן, מצדי יכולה לצאת גרסת בטא בעוד שנתיים. אני לא לחוץ שזה יתממש מהר.
משה |
ממש לא בציניות...
זה נראה פרוייקט יחסית גדול.
|
|
חזרה לתוכן הדיון |
פורסם: 12/03/2005 - 22:05
נושא ההודעה:
|
פעם אחרונה שבדקתי רצו בבר אילן 2500 ש"ח בערך לתקליטור של פרוייקט השו"ת, האים זה השתנה ?
האים יש מקורות חופשיים לחומר בצורה בינרית, מכון ממרא מכיל רק חלק מהחומר, ואני לא יודע מה הרישוי שהוא שם על החומר המוקלד.
הצעה הקודמת להשתמש ב css , נראת לי הכי הגיונית, כך לא צריך לעשות כלום, חוץ מלעטוף את הטקסת בתוית ה css המתאימה והדפדפן כבר יציג לבד את הטקסט במקום והצורה הנכונים, כמו כן מנועי חיפוש בדפי html קימים. כך שבעצם העבודה ( המאוד מאוד גדולה ) תהיה רק לערוך את דפי הטקס.
מה דעתו של מקסים יורש לגבי יצירת גופני ראשי ? זה יהיה נחמד לפרוייקט שלך.
|
|
חזרה לתוכן הדיון |
פורסם: 12/03/2005 - 22:24
נושא ההודעה:
|
2850 ש"ח אם אני זוכר נכון, למרות שזה לא העניין. אם לבר-אילון היה צורת הדף, בהחלט הייתי משתמש בזה יותר, וזה היה יתרון עצום. בבר אילון אפשר אולי לחפש, אבל בהחלט לא לקרוא כמו שצריך.
לגבי מקורות חופשיים, לא ידוע לי על הרבה, במיוחד לא כאלה עם צורת הדף, ולהתאים חומר רגיל לצורת הדף יקח בדיוק אותו זמן כמו לסרוק מחדש, שזה התפקיד של החלק הראשון בפרוייקט.
לגבי שימוש בcss: קודם כל אין לי שום ידע בנושא, אבל אין לי התנגדות ללמוד אותו אם זה מתאים. אבל השאלות שלי עדיין עומדות: איך css יטפל בעמודות שמשנות גודל באמצע מבחינת סימון טקסט, והאם ניתן לשלב דבר בתוכנה ייעודית, או רק לצפות בו בעזרת דפדפן?
לגבי גודל הפרוייקט: כמו שאמרתי, אני מקווה שהוא יהיה כמה שיותר קטן, אבל גם אם הוא מאוד גדול, זה נטו בשביל ההתנסות (וכמובן בשביל התוצאה, אבל אין לי בעייה שזה יקח זמן), ומבחינתי זה יכול לקחת המון זמן עד לתוצר. כמובן שעזרה תמיד תתקבל בברכה.
נ.ב. באמת צריך פונטים של כתב רש"י, אני מקווה שיש כאלה חופשיים...
|
|
חזרה לתוכן הדיון |
פורסם: 13/03/2005 - 16:29
נושא ההודעה: לאטעך
|
ללאטעך (LaTeX) יש תמיכה מעולה בסידור טקסט בצורות שונות ומשונות בתוך הדף, ובכלל בטיפוגרפיות מוזרות. אולי תצליח לחקות את צורת הדף של דף גמרא בעזרת כתיבת LaTeX class משלך. הבעייה היא שלכתוב הגדרות ללאטעך זה לא כל ולא הרבה אנשים זוכרים איך. היתרון הוא שלאטעך מראש תומך בהגדרות של הבאה לדפוס, כמו תיבות בתוך הדף, בצורה הרבה יותר טובה מאשר HTML. למעשה ל-HTML אין במקור הגדרה של "דף" מודפס.
אני לא בטוח שזה הפתרון הקל ביותר, אבל שווה לך להסתכל על היכולות של לאטעך בנושא הזה.
עוד אפשרות אולי היא להסתכל על פורמטים פתוחים של פרוייקטים של הבאה לדפוס (כמו scribus). אולי אחד מהם מספיק ידידותי כדי לתמוך בפרויקט כזה.
(וחוץ מזה, גם אני חושב ש-css זאת לא אופציה רעה).
|
|
חזרה לתוכן הדיון |
פורסם: 13/03/2005 - 16:52
נושא ההודעה:
|
|
|
חזרה לתוכן הדיון |
פורסם: 13/03/2005 - 18:34
נושא ההודעה: לא הבנתי מה הבעיה לשלב בין שני התצורות
|
חיפוש עושים במוקלד וקריאה בסרוק.
ואני רוצה אחוזים על הרעיון
|
|
חזרה לתוכן הדיון |
פורסם: 13/03/2005 - 18:39
נושא ההודעה:
|
יש שני סוגי פלט שאתה צריך:
* פלט לקריאה על המסך - לך על HTML זה הכי נוח לקרוא, להעתיק ולחפש
* פלט להדפסה - HTML לא ממש מתאים, התמיכה של דפדפנים בחלוקה לעמודים גרועה ביותר, אתה צריך פתרון שמעמד את החומר כולל חלוקה לעמודים וליצור קובץ נוח להדפסה כמו PDF.
הבעייה בפרויקט הזה שהוא ענקי ועיקר המאמץ הוא בכלל לא התכנות, אלא יבוא של המלל מהספרים הקיימים לתוך המערכת, וזה בעיקר עבודה שחורה שלא ברור מי יעשה.
יש כמה חלקים לפרויקט הזה:
* כלי להוספת חומר
* פורמט שישמור על המלל ומטה דטה
* כלי לצפייה - מן הסתם דרך דפדפן
* כלי להדפסה - יאפשר לקבל דף דומה למקור?
* מנוע חיפוש
תאר לעצמך את המאמץ הדרוש לעניין טריוויאלי כמו בדיקה שהמלל הוכנס בצורה נכונה ללא שגיאות הקלדה.
נראה שאתה צריך הרבה זמן פנוי...
|
|
חזרה לתוכן הדיון |
פורסם: 13/03/2005 - 19:26
נושא ההודעה: לסרוק דפים - זה גראפי. התוכן - זה טקסט
|
את הצורה המקורית של הדף - הכי מוצלח להראות בעזרת סריקה של הדף המקורי.
אבל זה דבר גראפי, לא טקסט שאפשר לחפש בו.
דבר ראשון: מישהו צריך לשבת ולסרוק דף דף? זה נראה לי דבר לא קטן בכלל.
דבר שני אני לא בטוח שלהקליד ידנית טקסט של כל דף שנסרק זה דבר בר השגה לפרוייקט קטן.
לשני דברים אלו צריך כח אדם, ציוד, כסף (לאנשים או לכל הפחות לציוד) וכו'
דבר שלישי אולי אפשר לפענח את הטקסט בצורה אוטומטית - ע"י מחשב.
יש תוכנות שנקראות OCR שבאות יחד עם סורקים. אר גם עם זה יש בעיות:
תוכנות כאלו עובדות באנגלית, או לגבי טקסטים באותיות לטיניות.
בעברית, לדעתי, זה בעייתי עדיין - ובכלל - לא ידוע לי על תוכנה חופשית. אשמח לשמוע אם אני טועה בזה.
דבר רביעי (הכי חשוב)
הסידור של הטקסט על הדף הוא במעין שכבות שכבות. כלומר: בפנים גרעין (למשל: מדרש).
מסביבו פירושים, ועוד פירושים. החשוב זה היחס בין הגרעין לחלקים שעוטפים אותו. "בלוקים" קראו לזה פה למעלה.
צריך לחשוב איך לממש את היחס בין ה"גרעין" לבין כל ה"מסביב"
|
|
חזרה לתוכן הדיון |
פורסם: 13/03/2005 - 19:41
נושא ההודעה:
|
סליחה ....
הפרויקט הזה לא קטן ....יש צורך לסרוק שוב את הספרים ...כדי למצוא ולבדוק איזה טעמים ו טיפולגיות חריגות שיש ...מכונה כזו מאוד יקרה ..ואני לא יודע יש דבר כזה בבאר אילן ..ל GOOGLE יש !
שנית ...אני חושב שכדי לבדוק אם GOOGEL מוכנה לקחת פרויקט כזה ל ספרי היהדות....אני חייב לצצין שזה לא פרויקט קטן בכלל ..
כי הם עושים דבר כזה ..
מה שאני אומר הגיוני ..?
|
|
חזרה לתוכן הדיון |
פורסם: 13/03/2005 - 20:07
נושא ההודעה:
|
הי,
כל דבר גדול מתחלק לדברים קטנים, וקלים לביצוע.
עלה כאן כלל חשוב: להפריד את התוכן מהתצוגה.
לגבי תוכן, הקלדה ידנית, או שימוש ב OCR , בכל מקרה תצתרך לעבור על החומר כדי להכניס תויות css או LATEX או כל סימון אחר שתחליט עליו.
לגבי הצגה, אים תחליט להציג תמונות של הדפים הסרוקים, תחסוך זמן בתכנון מערך css או latex מסודר, אבל תצרך לבנות מילון שיקשר בין דפי התוכן הניתנים לחיפוש לבין התמונות הסרוקות.
אים תחליט להציג את הדפים כדפי html או pdf המתאימים לאחת השיטות שתבחר לשמור בהן את התוכן, תחסוך בתכנון מילון יעיל אבל תצתרך לבנות מערך חכם של תגי css או latex.
חבל להתאץ להכין כלים שאין בהם צורך בתחילת הפרוייקט, הצגה של הדפים ע"י דפדפן או מציג PDF או מציג תמונות תספיק בהחלט לתחילת העבודה.
כלים לחיפוש מחרוזות בקבצי טקסט גם יש מספיק בלי לכתוב קוד כלל.
ההחלטות שלך בהתחלה הן, שיטה לשמור את התוכן ושיטה מתאימה להציג את הדפים.
לאחר מיכן תוכל להכין פרק אחד קצר לניסוי, או אפילו דף אחד, כך תראה כמה עבודה באמת דרושה והאים אתה רוצה להמשיך, אז תוכל גם לכתוב מציג יעודי וכלים חכמים יותר לחיפוש תקסט. אולי אים זה באמת יהיה נחמד ומושך עוד אנשים ירצו לעזור.
|
|
חזרה לתוכן הדיון |
פורסם: 13/03/2005 - 20:09
נושא ההודעה:
|
אני מסכים עם ניר, המגבלה העיקרית של פרוייקט כזה (לא שהשאר פשוט אגב) זה השגת המידע.
לפי דעתי - תתחבר לאחד מהפרוייקטים הקיימים - "פרוייקט בן יהודה" או "ויקיפדיה - ויקיטקסט"
ותשתמש במאגר המשתמשים שלהם כאמצעי קלט.
אם לדוגמא אתה מחליט ללכת על ויקיפדיה - תמצא דרך להרחיב את המנגנון הקיים שלהם לתמוך בעימוד גרפי מתוחכם.
תכניס אותו ל cvs ותשכנע את המקימים למה זה חיוני.
לאחר מכן - העבודה של להכניס את המידע תעבור למתנדבים הרבים מסביב לעולם.
|
|
חזרה לתוכן הדיון |
פורסם: 13/03/2005 - 21:02
נושא ההודעה:
|
משה: התמונה שקישרת לא מוצגת.
לעצם העניין, אני מסכים אם אחרים שאומרים שצריך להפריד בין שני סוגי פלטים: לפט ב־PDF שמעומד ומחולק לדפים (והוא בעברית ויזואלית ובו אי־אפשר לחפש) ומקור שני שבנוי בצורה נוחה יותר לחיפוש.
בכל מקרה, אם אתה צריך עזרה במימוש של הסיפור ב־LaTeX אני אשמח לעזור.
עידו: חסר לך קישור לפרוייקט "A Life"
|
|
חזרה לתוכן הדיון |
פורסם: 15/03/2005 - 22:44
נושא ההודעה:
|
נחמד שאתם עושים עלי עליהום כשאני בפנמייה ולא יכול להגיב
אני רוצה להבהיר לכל מי שלא הבין:
אני לא מתכנן לסרוק את כל הגמרא לבד, ואני גם לא מצפה שהקהילה תעשה את זה.
אין לי בעייה שמישהו כן יעשה את זה, אבל זו לא מטרת הפרוייקט. המטרה היא ליצור כלי, פשוט עד כמה שאפשר, שיאפשר קליטה והצגה חכמה. המטרה היא לא להשתמש בזה כדי לסרוק את הכל עכשיו, אלא ליצור את זה בשביל שאחרים (שזה כולל גם אותי) יוכלו להשתמש בזה בעתיד. לא מדובר בפרוייקט לסריקת הגמרא, אלא ליצירת הכלי.
אני ממש לא הולך לסרוק את כל הגמרא לבד, ועם הסורק הגרוע שלי, גם אתם לא תרצו שאני אהיה זה שסורק את הגמרא
לגבי שימוש בתמונות בשביל תצוגה ומקור בשביל חיפוש:
כמו שקובי הסביר גם זה דורש הרבה עבודה, והעניין היותר גדול הוא כמו שציינתי: בגמרות יש במקרים רבים כתב לא קריא בכלל. אם נשתמש ברעיון שהצעתי, הכתב תמיד יהיה תקין (אבל ידרוש התערבות בעת בעת ההכנסה למאגר, שכמובן מבוססת על OCR שיעבוד בצורה חכמה של ניתוח הדף לפי בלוקים, כמו שחשבתי שהבהרתי).
לגבי html או LaTeX:
תראו, אני באמת לא מבין בשתי הדברם האלה בכלל, ובאמת אין לי מושג מה עדיף.
לגבי html אתם עדיין מתעלמים מהשאלה שלי של איך הוא מטפל בצורות מוזרות של בלוקים (ולמי שעוד לא תפס על מה אני מדבר, אני מצרף תמונה שממחישה את זה בסוף).
לגבי LaTeX, נשמע מאוד מעניין, אבל לא הבנתי איך משלבים class של LaTeX בתוך תכנה אחרת, ואין לי שום נסיון או היכרות עם זה...
נ.ב. יופי שגיליתם את אמיריקה לגבי זה שצריך להפריד בין המקור של החיפוש ומה שמוצג. זה בעצם מה שאמרתי כשפתחתי את הדיון,(אם כי אולי היה אפשר להבין שרציתי להשתמש באותו מקור לשתי הדברים, אבל לפי מה שעניתי לדיאגו רואים שזה לא מה שתכננתי...) אבל תמיד נחמד להתעלם ממה שאני אומר, נכון?
משה
הנה התמונה (שימו לב לשינו הצורה של הבלוקים בצדדים):
http://www.daat.ac.il/daat/toshba/test/pic/gmara99.htm
נערך לאחרונה על-ידי משה בתאריך 08/05/2005 - 13:25, סך-הכל נערך פעם אחת
|
|
חזרה לתוכן הדיון |
פורסם: 16/03/2005 - 00:05
נושא ההודעה:
|
HTML לא בנוי להציג עמודים בפורמט כזה. הכלי היחיד שיכול לעשות את זה זה גרפיקאי שישב ויעמד כל דף בנפרד בתוכנת עימוד. ב-HTML, המבנה השל הדף ישבר באופן טבעי (ורצוי) רק מעצם הצגת הדף אצל לקוחות עם גודל פונט וסוג פונט שונה, שלא לדבר על דפדפנים שונים שיש להם כל מיני בגים.
לכן מראש לא הייתי הולך על שיכפול של הדף על הנייר לדף על המחשב - אלא מוצא דרך שבה ניתן להציג את אותו מידע על המחשב, שתשמור על העקרונות החשובים של המלל הזה, אבל יחד עם זה תאפשר לכל אחד להסתכל על הדף בפונט שנוח לו, בגודל שנוח לא וברוחב חלון שנוח לו.
זה יראה אחרת מהדף המקורי, אבל זה יהיה הרבה יותר נוח לשימוש, וזה יוכל להבנות בצורה אוטומטית - כלומר אתה מכניס את המלל ביחד עם מידע על כל סוג של מלל, והמערכת יוצרת פלט באופן אוטומטי לפי כלליי העיצוב שאתה קובע בקובץ ה-CSS.
במנוע החיפוש תוכל לחפש במלל לפי סוג המלל - תוכל לחפש רק בבלוק המרכזי, או רק בבלוקיםֶ המקיפים אותו, או בשניהם, או לפי שם הכותב וכדומה.
|
|
חזרה לתוכן הדיון |
פורסם: 16/03/2005 - 11:21
נושא ההודעה:
|
אני מסכים עם nirs. אפילו אם אפשר למצוא איזו דרך שתפרט באיזו שורה בדיוק הרוחב משתנה ולאיזה רוחב היא משתנה, לדעתי זה לא שווה את המאמץ.
הנקודות שחשובות הן -
1. נקודת השבירה בין העמודים. (אולי ניתן להסתפק בסימונים רק בטקסט המרכזי של הגמרא והפרשנים (אם יהיה להם קישור "live" לטקסט העיקרי) ישארו באותו דף).
2. כללים סבירים אחידים לגבי כל הדפים - הרוחב המקסימלי של הפרשנים בצדדים וכמות השורות הרחבות ביחס לשורות הצרות נראה לי שהכללים צריכים לכלול גם גודל פונט, צפיפות שורות וכדו'.
לדעתי, זה החלק המסובך בעניין - לעשות את הכללים כך שיתנו צורה נעימה לעין, סבירה ומזכירה מספיק את התסדיר המקורי (של דף גמרא כללי, לא של דף ספציפי).
התוצאה בסוף אמנם לא תהיה זהה ל"צילום ש"ס וילנא" (זו המהדורה של הגמרא שכמעט כל ההוצאות מאז כמה מאות שנים פשוט מצלמות אותה ואולי משפצות חלק מהפונטים), אבל במילא כמעט כל התיחסויות נוגעות לעמוד שבו הטקסט נמצא ולא לרוחב השורות. עם הדגשה מתאימה של התחלות פיסקה וכדו' (ומנוע חיפוש...) יהיה אפילו יותר קל למצוא את הטקסט המקביל מבתסדיר הדף המקורי.
|
|
חזרה לתוכן הדיון |
פורסם: 16/03/2005 - 12:07
נושא ההודעה: LaTeX
|
בחזרה להצעת ה-LaTeX: מה שLaTeX יכול לעשות, לדעתי, זה את הדבר הבא:
1. להגדיר ב-LaTeX מאקרו או מחלקה שמסדרת את העמוד כמו שרוצים. למשל אפשר להגדיר תיבות טקסט בגדלים ומיקומים שונים כדי לחקות את העיצוב של דף גמרא.
2. להמיר, דרך OCR או הקלדה, את דפי הגמרא למסמכי LaTeX שמשתמשים בהגדרות האלה.
3. לקמפל את המסמכים ל-PDF או PS או משהו (פורמט דפוס)
4. האינדקס יהיה מעל PDF או בעזרת הקבצים המקוריים.
הערות, צפריר, מישהו?
|
|
חזרה לתוכן הדיון |
פורסם: 16/03/2005 - 13:55
נושא ההודעה:
|
although there is no copyright on the gmara if you want to scan a page
you need to scan it off existing gmara and there you'll get into a lot of copyright problems.
I was trying to pull off something similar a while ago but everywhere I went and whoever I asked I mostly got no or we might sue you if you use it.
it seems the haredim does have copyright over judisim:(
|
|
חזרה לתוכן הדיון |
פורסם: 16/03/2005 - 14:55
נושא ההודעה:
|
Anonymous : | although there is no copyright on the gmara if you want to scan a page
you need to scan it off existing gmara and there you'll get into a lot of copyright problems.
I was trying to pull off something similar a while ago but everywhere I went and whoever I asked I mostly got no or we might sue you if you use it.
it seems the haredim does have copyright over judisim:( |
כל אחד יכול לאיים עליך בתביעה, ואפילו לתבוע אותך, אבל בשביל לזכות הם צריכים להראות שבאמת הפרת את זכויותיהם - ובמקרה זה כל לא ברור שיש להם כאלו.
קח את מה שאני אומר בעירבון מוגבל, כי אני לא עורך דין, אבל: למיטב הידוע לי, בישראל ניתן לקבל זכויות יוצרים רק על יצירה שהושקעה בה "עבודה יצירתית". העתקת יצירה ישנה וסידורה מחדש במעבד תמלילים, הדפסתה במכונת דפוס חדשה, וכד', איננה עבודה יצירתית, כי אם עבודה טכנית גרידא, ואין זה משנה אם היא הייתה עבודה קשה. מכאן שאם בית דפוס מסוים לוקח גמרא עתיקה, ויוצר גרסה חדשה שלה (ללא שינוי התוכן כהוא-זה, אני מניח...) ומדפיס אותה, אין לו שום זכות יוצרים על הגרסה החדשה.
אגב, מבחינה מוסרית, כאשר אדם לוקח יצירה של איש אחר (או חז"ל, או אפילו יצירה אלוהית ), וטוען שתוכן היצירה שייך לא, זאת חזירות, ואפילו רמאות. לכן לטעון לזכויות יוצרים על התנ"ך, הגמרה, או אפילו הדפסה חדשה של ספר ישן מלפני מאה שנה, היא חזירות.
זכותם של בר-אילן לבקש 2850 שקל על הטקסט של הגמרא, אבל זכותך (המוסרית, לפחות - חוקית כנראה יש לך חוזה אתם בנוסף לזכויות היוצרים הרגילות) להפיץ אחר-כך טקסט זה לכל חבריך. אני לא מסוגל להבין איזו זכות מוסרית יש לחברה או אוניברסיטה מסוימת על יצירה שנכתבה מאות רבות של שנים לפני כן על-ידי אנשים אחרים.
|
|
חזרה לתוכן הדיון |
פורסם: 16/03/2005 - 15:11
נושא ההודעה: אני חושב שבבר -אילן, יש מידע על המיקום של כל טקסט, מסויים,
|
והעמוד שהוא נמצא בו
רק תבדוק באמת איך זה מתנהג שם, ואיך ת'יכול לקבל ת'מידע הזה
אני לא חושב שהם יתעצבנו יותר מדי, אם יהיה כלי, שרק יעזור ב"פרוייקט" שלהם בעצם
|
|
חזרה לתוכן הדיון |
פורסם: 16/03/2005 - 15:18
נושא ההודעה:
|
גם אם המלל של הספרים הוא רכוש הציבור, זה לא הופך את התקליטור של בר אילן לרכוש הציבור. זכותם לדרוש כסף על העבודה שהושקעה בהמרה מהספרים למלל ממוחשב.
מדוע שלא תפיק תקליטור משלך (לא על בסיס החומר שלהם) ותשחרר אותו באופן חופשי?
|
|
חזרה לתוכן הדיון |
פורסם: 16/03/2005 - 15:35
נושא ההודעה: בעניין זכויות יוצרים
|
למיטב זכרוני יש גבול של 70 שנה לזכויות יוצרים על יצירה
כך שבעצם אם תקח גמרא מלפני שבעים שנה או יותר
תוכל לסרוק אותה ללא חשש לפגיעה בזכויות יוצרים
ו\או התחבטויות מוסריות עם דוסים...
שי
______________
חופש חופש תרדוף
|
|
חזרה לתוכן הדיון |
פורסם: 16/03/2005 - 16:01
נושא ההודעה:
|
|
|
חזרה לתוכן הדיון |
פורסם: 16/03/2005 - 16:39
נושא ההודעה:
|
שם לב לתנאי השימוש:
http://jnul.huji.ac.il/dl/talmud/terms.htm
היה ראוי שהמדינה תממן פרויקטים כאלו. אישית אין לי עניין בזה, אבל בכסף שהולך לתמיכה בגופים דתיים היה אפשר בקלות לממן דיגיטציה של החומר הזה ושיחרור שלו ברשיון חופשי, כך שכל אחד עם דפדפן יוכל לענין ולחפש.
|
|
חזרה לתוכן הדיון |
פורסם: 16/03/2005 - 17:06
נושא ההודעה:
|
מכון ממרא מפרסם באתרו עותק של התנך, התלמוד ומשנה תורה של הרמב"ם. ניתן להוריד עותק zip של כל אחד משלושת החלקים הללו (בעברית או באנגלית). הרשיון מרשה שימוש לא מסחרי בלבד.
http://www.mechon-mamre.org
|
|
חזרה לתוכן הדיון |
|