ווטסאפ - לינוקס, BSD, קוד פתוח ותוכנה חופשית בעברית. Whatsup - Linux, BSD, open source and free software in Hebrew

 
 
  כניסת חברים · רישום · שכחתי סיסמה  
tux the penguin
תגובה לנושא
צפיה בנושא הבא Printable version התחבר כדי לבדוק הודעות פרטיות צפיה בנושא הקודם
משהלא בפורום כעתSite Moderator ת.הצטרפות: 30/08/2003 · הודעות: 985 · מיקום: אלקנה, ישראל
 

הודעה פורסם: 12/03/2005 - 20:21
נושא ההודעה: פרוייקט קטן משלי: "מקורות"

אחד החסרונות העיקריים בפרוייקט השו"ת של אוניברסיטת בר-אילן (פרוייקט שמכיל מאגר של כמעט כל הטקסטים היהודיים, מהתנ"ך והגמרא ועד ספרים של רבנים שחיים היום ) הוא חוסר התמיכה במה שנקרא "צורת הדף". שזה אומר הצגה של הטקסט כפי שהוא מופיע בספר המקורי ולא פשוט כטקסט רגיל, מאחר ולספרים רבים יש צורה ספציפית וחשובה מאוד של סידור הטקסט (לדוגמא בגמרא: http://www.daat.ac.il/daat/toshba/test/pic/gmara99.htm ).

הבעייה ממה שאני הבנתי היא בעיקר טכנית:
מצד אחד אם סורקים דפים (כמו שעושה פרוייקט אחד ופחות מוכר), אז יש "צורת הדף" אבל אי אפשר לבצע חיפוש או העתקה של הטקסט(דבר חשוב והכרחי).

לעומת זאת אם מקלידים את הטקסטים (כפי שנעשה בפרוייקט השו"ת) אז אי אפשר שהטקסט יוצג בצורה המקורית, גם מבחינת ההכנסה של הטקסט (אי אפשר לעשות enter אחרי כל כמה מילים, 2 רווחים מדי פעם בין שתי מילים, בלי רווחים מדי פעם בין שתי מילים,ועוד לעשות את זה ככה שיצא בדיוק כמו המקורי.).

לכן אני רוצה להתחיל פרוייקט קטנטן שיענה על החוסר הזה. הרעיון הוא לבנות שתי דברים עיקריים:
1. תוכנת סריקה שתסרוק את הטקסט כמו שהוא ותפריד אותו לאובייקטים שונים (כל "בלוק" בגמרא זה פרשן אחר בדרך כלל), תכניס למאגר המידע הנכון (לדוגמא, תוסיף את הרש"י על הדף הזה למאגר שלו, בלי שום קשר למעבר לדף הבא, על אף ששם הוא לא יוצג בצורה רציפה למה שהיה קודם),ותשמור מידע על המיקום, הצורה והגודל של כל עמודה.
בעיות אפשריות: הרבה מהטקסטים מרוחים (הכל מבוסס על הדפסות ישנות מאוד שמהם הכל צולם), לפעמים אין תוס' ובמקום שלו נמצא רש"י, וכו'

2.תוכנה שתדע לשלוף את הטקסט של כל קטע מהמאגר שלו ולהכניס את זה בצורה של הדף לתוך תיבות מתאימות. התוכנה תכלול גם יכול חיפוש במאגרים, ואם תמצא התאמה, זה יציג את הטקסט התוך הדף שלו.
בעיות אפשריות: הטור של הגמרא משנה את העובי שלו כשמסתיים טור של פרשן כלשהו, מה שאומר שצריך להשתמש בתיבות טקסט עם צורות שונות ממלבן (אם זה קיים), או להשתמש במספר תיבות ביחד, מה שימנע יכולת לסמן טקסט באחד ובשני באותו זמן.

לא פתחתי פרוייקט בשום מקום כי אין לי את הידע איך לעבוד עם CVS או דברים כאלה, ולא נראה לי שיש לי צורך לכך. הדבר לא נועד להיות גדול, סתם פרוייקט לכיף בזמן הפנוי שלי (שאין לי האמת, אבל כולם אומרים את זה).

אם למישהו יש רעיונות\הצעות\פתרונות לבעיות\רצון להשתתף, הוא מוזמן להגיב פה או לפנות אלי moshe.wagnerATgmail.com.

תודה,
משה


נערך לאחרונה על-ידי משה בתאריך 08/05/2005 - 13:20, סך-הכל נערך פעם אחת
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית שלח דוא\ ביקור באתר המפרסם מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
elcucoלא בפורום כעת ת.הצטרפות: 14/10/2003 · הודעות: 6255 ·
 

הודעה פורסם: 12/03/2005 - 20:34
נושא ההודעה:

כמה דברים:

תמיד תפריד בין תוכן ולבין תצוגה. ככה יהיה לך אפשרות לחפש, וגם תקבל את התצוגה שאתה רוצה.
אני רואה בראשי HTML עם CSS בסיסי פלוס פלוס...
קוד:

<div class="class1">
טקסט מוקרי
</div>

<div class="class2">
פירוש ראשון
</div>

<div class="class3">
פירוש שני
</div>


בעזרת CSS נכון, אתה תקבל את התצוגה שיש במקור.

בגדול, , אם יש לך את הטקסט (טקסט פשוט, קובץ txt רגיל השמור בפורמט utf8) של כל העמודים, להכניס את זה ל-HTML ולכתוב CSS מתאים לא בעיה.
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
Inolaלא בפורום כעת ת.הצטרפות: 08/02/2003 · הודעות: 1261 ·
 

הודעה פורסם: 12/03/2005 - 20:56
נושא ההודעה:

זה פרוייקט קטן?
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם MSN Messenger מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
משהלא בפורום כעתSite Moderator ת.הצטרפות: 30/08/2003 · הודעות: 985 · מיקום: אלקנה, ישראל
 

הודעה פורסם: 12/03/2005 - 21:02
נושא ההודעה:

תודה על התגובה. זה בערך מה שתככנתי, אם כי תכנניתי שזה יהיה ככה:
קובץ של הטקסט בלבד, לכל פרשן וכו'. (לדוגמא: פרוש א' על מסכת א').
קובץ במבנה של תגיות, שיכלול לדוגמא:
קוד:

<DATA name=gmara>
     <block>
          <start=0,0>
          <width=10>
          <lenth=5>
     </block>
     <block>
          <start=5,0>
          ....
     </block>
</DATA>
<DATA name=rashi>
     ...
</DATA>


עד כמה שהבנתי זה בערך אותו עקרון.

לגבי איך להציג את זה: הצעת html. אפשר עוד מידע איך זה מתבצע? זה יתן לי לסמן טקסט לוגמא בטור אחד עם רוחב משתנה בלי לגלוש לטור אחר?
ואיך ממשים את זה בתוך תוכנה שלמה (עם תפריטים למעלה, חלון משל עצמו וכו')
אולי בכלל עדיף לממש את זה עם gtk או משהו?

נ.ב. לא ציינתי, אבל חשוב שהתוכנה תהיה פורטיבלית, לכן אני מניח שכדאי להתמקד בספריות פיתוח cross-platform כמו gtk, ואולי גם שפות כאלה כמו פייתון.
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית שלח דוא\ ביקור באתר המפרסם מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
משהלא בפורום כעתSite Moderator ת.הצטרפות: 30/08/2003 · הודעות: 985 · מיקום: אלקנה, ישראל
 

הודעה פורסם: 12/03/2005 - 21:04
נושא ההודעה:

Inola :
זה פרוייקט קטן?

זה בציניות?

כן, אני מקווה שזה יהיה קטן כמה שאפשר. אבל, אם ידרש לזה משהו גדול, לי יש זמן, מצדי יכולה לצאת גרסת בטא בעוד שנתיים. אני לא לחוץ שזה יתממש מהר.

משה
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית שלח דוא\ ביקור באתר המפרסם מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
רונןלא בפורום כעת ת.הצטרפות: 26/01/2003 · הודעות: 463 · מיקום: גבעת אלה
 

הודעה פורסם: 12/03/2005 - 21:23
נושא ההודעה:

לדעתי HTML יהיה אידיאלי...
אם כבר יש לך XML, כמו מה שהגדרת, להפוך אותו ל-XSL (מראש, או בזמן ריצה) לא יהיה מסובך בכלל, ו-HTML כבר חוסך לך את כל השטויות של סידור, עימוד וכו'.
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית שלח דוא\ ביקור באתר המפרסם מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
Inolaלא בפורום כעת ת.הצטרפות: 08/02/2003 · הודעות: 1261 ·
 

הודעה פורסם: 12/03/2005 - 21:30
נושא ההודעה:

משה :
Inola :
זה פרוייקט קטן?

זה בציניות?

כן, אני מקווה שזה יהיה קטן כמה שאפשר. אבל, אם ידרש לזה משהו גדול, לי יש זמן, מצדי יכולה לצאת גרסת בטא בעוד שנתיים. אני לא לחוץ שזה יתממש מהר.

משה


ממש לא בציניות...
זה נראה פרוייקט יחסית גדול.
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם MSN Messenger מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
קוביאורח · ·
 

הודעה פורסם: 12/03/2005 - 22:05
נושא ההודעה:

פעם אחרונה שבדקתי רצו בבר אילן 2500 ש"ח בערך לתקליטור של פרוייקט השו"ת, האים זה השתנה ?

האים יש מקורות חופשיים לחומר בצורה בינרית, מכון ממרא מכיל רק חלק מהחומר, ואני לא יודע מה הרישוי שהוא שם על החומר המוקלד.

הצעה הקודמת להשתמש ב css , נראת לי הכי הגיונית, כך לא צריך לעשות כלום, חוץ מלעטוף את הטקסת בתוית ה css המתאימה והדפדפן כבר יציג לבד את הטקסט במקום והצורה הנכונים, כמו כן מנועי חיפוש בדפי html קימים. כך שבעצם העבודה ( המאוד מאוד גדולה ) תהיה רק לערוך את דפי הטקס.

מה דעתו של מקסים יורש לגבי יצירת גופני ראשי ? זה יהיה נחמד לפרוייקט שלך.
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
משהלא בפורום כעתSite Moderator ת.הצטרפות: 30/08/2003 · הודעות: 985 · מיקום: אלקנה, ישראל
 

הודעה פורסם: 12/03/2005 - 22:24
נושא ההודעה:

2850 ש"ח אם אני זוכר נכון, למרות שזה לא העניין. אם לבר-אילון היה צורת הדף, בהחלט הייתי משתמש בזה יותר, וזה היה יתרון עצום. בבר אילון אפשר אולי לחפש, אבל בהחלט לא לקרוא כמו שצריך.

לגבי מקורות חופשיים, לא ידוע לי על הרבה, במיוחד לא כאלה עם צורת הדף, ולהתאים חומר רגיל לצורת הדף יקח בדיוק אותו זמן כמו לסרוק מחדש, שזה התפקיד של החלק הראשון בפרוייקט.

לגבי שימוש בcss: קודם כל אין לי שום ידע בנושא, אבל אין לי התנגדות ללמוד אותו אם זה מתאים. אבל השאלות שלי עדיין עומדות: איך css יטפל בעמודות שמשנות גודל באמצע מבחינת סימון טקסט, והאם ניתן לשלב דבר בתוכנה ייעודית, או רק לצפות בו בעזרת דפדפן?


לגבי גודל הפרוייקט: כמו שאמרתי, אני מקווה שהוא יהיה כמה שיותר קטן, אבל גם אם הוא מאוד גדול, זה נטו בשביל ההתנסות (וכמובן בשביל התוצאה, אבל אין לי בעייה שזה יקח זמן), ומבחינתי זה יכול לקחת המון זמן עד לתוצר. כמובן שעזרה תמיד תתקבל בברכה.

נ.ב. באמת צריך פונטים של כתב רש"י, אני מקווה שיש כאלה חופשיים...
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית שלח דוא\ ביקור באתר המפרסם מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
VincentGlennלא בפורום כעת ת.הצטרפות: 24/09/2003 · הודעות: 271 · מיקום: באר-שבע
 

הודעה פורסם: 13/03/2005 - 16:29
נושא ההודעה: לאטעך

ללאטעך (LaTeX) יש תמיכה מעולה בסידור טקסט בצורות שונות ומשונות בתוך הדף, ובכלל בטיפוגרפיות מוזרות. אולי תצליח לחקות את צורת הדף של דף גמרא בעזרת כתיבת LaTeX class משלך. הבעייה היא שלכתוב הגדרות ללאטעך זה לא כל ולא הרבה אנשים זוכרים איך. היתרון הוא שלאטעך מראש תומך בהגדרות של הבאה לדפוס, כמו תיבות בתוך הדף, בצורה הרבה יותר טובה מאשר HTML. למעשה ל-HTML אין במקור הגדרה של "דף" מודפס.

אני לא בטוח שזה הפתרון הקל ביותר, אבל שווה לך להסתכל על היכולות של לאטעך בנושא הזה.

עוד אפשרות אולי היא להסתכל על פורמטים פתוחים של פרוייקטים של הבאה לדפוס (כמו scribus). אולי אחד מהם מספיק ידידותי כדי לתמוך בפרויקט כזה.

(וחוץ מזה, גם אני חושב ש-css זאת לא אופציה רעה).
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
elcucoלא בפורום כעת ת.הצטרפות: 14/10/2003 · הודעות: 6255 ·
 

הודעה פורסם: 13/03/2005 - 16:52
נושא ההודעה:

אני אפרסם סדרת קבצי js המסדרים לך תפריטים בצורה נוחה. אם אתה רוצה preview תתפוס אותי בפרטי.

שוב, נראה שיש הסכמה פה אחד שאתה תעשה את זה ב־html. רק חשבתי שצריך להודיע לך על זה... Smile Wink Wink Crying or Very sad Crying or Very sad Laughing Laughing Laughing Embarassed Embarassed Rolling Eyes Rolling Eyes Rolling Eyes Arrow Arrow Idea Question Exclamation Twisted Evil Twisted Evil Twisted Evil Razz Razz Razz Embarassed
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
amitayלא בפורום כעת ת.הצטרפות: 25/05/2002 · הודעות: 114 · מיקום: חיפה
 

הודעה פורסם: 13/03/2005 - 18:34
נושא ההודעה: לא הבנתי מה הבעיה לשלב בין שני התצורות

חיפוש עושים במוקלד וקריאה בסרוק.
ואני רוצה אחוזים על הרעיון Wink
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית שלח דוא\  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
nirsלא בפורום כעת ת.הצטרפות: 05/10/2003 · הודעות: 256 ·
 

הודעה פורסם: 13/03/2005 - 18:39
נושא ההודעה:

יש שני סוגי פלט שאתה צריך:
* פלט לקריאה על המסך - לך על HTML זה הכי נוח לקרוא, להעתיק ולחפש
* פלט להדפסה - HTML לא ממש מתאים, התמיכה של דפדפנים בחלוקה לעמודים גרועה ביותר, אתה צריך פתרון שמעמד את החומר כולל חלוקה לעמודים וליצור קובץ נוח להדפסה כמו PDF.

הבעייה בפרויקט הזה שהוא ענקי ועיקר המאמץ הוא בכלל לא התכנות, אלא יבוא של המלל מהספרים הקיימים לתוך המערכת, וזה בעיקר עבודה שחורה שלא ברור מי יעשה.

יש כמה חלקים לפרויקט הזה:
* כלי להוספת חומר
* פורמט שישמור על המלל ומטה דטה
* כלי לצפייה - מן הסתם דרך דפדפן
* כלי להדפסה - יאפשר לקבל דף דומה למקור?
* מנוע חיפוש

תאר לעצמך את המאמץ הדרוש לעניין טריוויאלי כמו בדיקה שהמלל הוכנס בצורה נכונה ללא שגיאות הקלדה.

נראה שאתה צריך הרבה זמן פנוי...
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
meoreroלא בפורום כעת ת.הצטרפות: 22/04/2003 · הודעות: 686 · מיקום: גוש דן, ירושלים
 

הודעה פורסם: 13/03/2005 - 19:26
נושא ההודעה: לסרוק דפים - זה גראפי. התוכן - זה טקסט

את הצורה המקורית של הדף - הכי מוצלח להראות בעזרת סריקה של הדף המקורי.
אבל זה דבר גראפי, לא טקסט שאפשר לחפש בו.

דבר ראשון: מישהו צריך לשבת ולסרוק דף דף? זה נראה לי דבר לא קטן בכלל.

דבר שני אני לא בטוח שלהקליד ידנית טקסט של כל דף שנסרק זה דבר בר השגה לפרוייקט קטן.
לשני דברים אלו צריך כח אדם, ציוד, כסף (לאנשים או לכל הפחות לציוד) וכו'

דבר שלישי אולי אפשר לפענח את הטקסט בצורה אוטומטית - ע"י מחשב.
יש תוכנות שנקראות OCR שבאות יחד עם סורקים. אר גם עם זה יש בעיות:
תוכנות כאלו עובדות באנגלית, או לגבי טקסטים באותיות לטיניות.
בעברית, לדעתי, זה בעייתי עדיין - ובכלל - לא ידוע לי על תוכנה חופשית. אשמח לשמוע אם אני טועה בזה.

דבר רביעי (הכי חשוב)
הסידור של הטקסט על הדף הוא במעין שכבות שכבות. כלומר: בפנים גרעין (למשל: מדרש).
מסביבו פירושים, ועוד פירושים. החשוב זה היחס בין הגרעין לחלקים שעוטפים אותו. "בלוקים" קראו לזה פה למעלה.
צריך לחשוב איך לממש את היחס בין ה"גרעין" לבין כל ה"מסביב"

_________________
יום אחד, אולי אפרוש כנפיים
http://oren.maurer.org.il
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
Yellow_Dogלא בפורום כעת ת.הצטרפות: 05/01/2005 · הודעות: 139 · מיקום: הרצליה
 

הודעה פורסם: 13/03/2005 - 19:41
נושא ההודעה:

סליחה ....
הפרויקט הזה לא קטן ....יש צורך לסרוק שוב את הספרים ...כדי למצוא ולבדוק איזה טעמים ו טיפולגיות חריגות שיש ...מכונה כזו מאוד יקרה ..ואני לא יודע יש דבר כזה בבאר אילן ..ל GOOGLE יש !

שנית ...אני חושב שכדי לבדוק אם GOOGEL מוכנה לקחת פרויקט כזה ל ספרי היהדות....אני חייב לצצין שזה לא פרויקט קטן בכלל ..
כי הם עושים דבר כזה ..

מה שאני אומר הגיוני ..?
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
קוביאורח · ·
 

הודעה פורסם: 13/03/2005 - 20:07
נושא ההודעה:

הי,

כל דבר גדול מתחלק לדברים קטנים, וקלים לביצוע.

עלה כאן כלל חשוב: להפריד את התוכן מהתצוגה.
לגבי תוכן, הקלדה ידנית, או שימוש ב OCR , בכל מקרה תצתרך לעבור על החומר כדי להכניס תויות css או LATEX או כל סימון אחר שתחליט עליו.

לגבי הצגה, אים תחליט להציג תמונות של הדפים הסרוקים, תחסוך זמן בתכנון מערך css או latex מסודר, אבל תצרך לבנות מילון שיקשר בין דפי התוכן הניתנים לחיפוש לבין התמונות הסרוקות.

אים תחליט להציג את הדפים כדפי html או pdf המתאימים לאחת השיטות שתבחר לשמור בהן את התוכן, תחסוך בתכנון מילון יעיל אבל תצתרך לבנות מערך חכם של תגי css או latex.

חבל להתאץ להכין כלים שאין בהם צורך בתחילת הפרוייקט, הצגה של הדפים ע"י דפדפן או מציג PDF או מציג תמונות תספיק בהחלט לתחילת העבודה.
כלים לחיפוש מחרוזות בקבצי טקסט גם יש מספיק בלי לכתוב קוד כלל.

ההחלטות שלך בהתחלה הן, שיטה לשמור את התוכן ושיטה מתאימה להציג את הדפים.
לאחר מיכן תוכל להכין פרק אחד קצר לניסוי, או אפילו דף אחד, כך תראה כמה עבודה באמת דרושה והאים אתה רוצה להמשיך, אז תוכל גם לכתוב מציג יעודי וכלים חכמים יותר לחיפוש תקסט. אולי אים זה באמת יהיה נחמד ומושך עוד אנשים ירצו לעזור.
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
עידולא בפורום כעת ת.הצטרפות: 28/11/2003 · הודעות: 1816 · מיקום: dev/null/
 

הודעה פורסם: 13/03/2005 - 20:09
נושא ההודעה:

אני מסכים עם ניר, המגבלה העיקרית של פרוייקט כזה (לא שהשאר פשוט אגב) זה השגת המידע.

לפי דעתי - תתחבר לאחד מהפרוייקטים הקיימים - "פרוייקט בן יהודה" או "ויקיפדיה - ויקיטקסט"
ותשתמש במאגר המשתמשים שלהם כאמצעי קלט.

אם לדוגמא אתה מחליט ללכת על ויקיפדיה - תמצא דרך להרחיב את המנגנון הקיים שלהם לתמוך בעימוד גרפי מתוחכם.
תכניס אותו ל cvs ותשכנע את המקימים למה זה חיוני.
לאחר מכן - העבודה של להכניס את המידע תעבור למתנדבים הרבים מסביב לעולם.
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
צפריראורח · ·
 

הודעה פורסם: 13/03/2005 - 21:02
נושא ההודעה:

משה: התמונה שקישרת לא מוצגת.

לעצם העניין, אני מסכים אם אחרים שאומרים שצריך להפריד בין שני סוגי פלטים: לפט ב־PDF שמעומד ומחולק לדפים (והוא בעברית ויזואלית ובו אי־אפשר לחפש) ומקור שני שבנוי בצורה נוחה יותר לחיפוש.

בכל מקרה, אם אתה צריך עזרה במימוש של הסיפור ב־LaTeX אני אשמח לעזור.

עידו: חסר לך קישור לפרוייקט "A Life"
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
משהלא בפורום כעתSite Moderator ת.הצטרפות: 30/08/2003 · הודעות: 985 · מיקום: אלקנה, ישראל
 

הודעה פורסם: 15/03/2005 - 22:44
נושא ההודעה:

נחמד שאתם עושים עלי עליהום כשאני בפנמייה ולא יכול להגיב Laughing

אני רוצה להבהיר לכל מי שלא הבין:
אני לא מתכנן לסרוק את כל הגמרא לבד, ואני גם לא מצפה שהקהילה תעשה את זה.
אין לי בעייה שמישהו כן יעשה את זה, אבל זו לא מטרת הפרוייקט. המטרה היא ליצור כלי, פשוט עד כמה שאפשר, שיאפשר קליטה והצגה חכמה. המטרה היא לא להשתמש בזה כדי לסרוק את הכל עכשיו, אלא ליצור את זה בשביל שאחרים (שזה כולל גם אותי) יוכלו להשתמש בזה בעתיד. לא מדובר בפרוייקט לסריקת הגמרא, אלא ליצירת הכלי.
אני ממש לא הולך לסרוק את כל הגמרא לבד, ועם הסורק הגרוע שלי, גם אתם לא תרצו שאני אהיה זה שסורק את הגמרא Laughing

לגבי שימוש בתמונות בשביל תצוגה ומקור בשביל חיפוש:
כמו שקובי הסביר גם זה דורש הרבה עבודה, והעניין היותר גדול הוא כמו שציינתי: בגמרות יש במקרים רבים כתב לא קריא בכלל. אם נשתמש ברעיון שהצעתי, הכתב תמיד יהיה תקין (אבל ידרוש התערבות בעת בעת ההכנסה למאגר, שכמובן מבוססת על OCR שיעבוד בצורה חכמה של ניתוח הדף לפי בלוקים, כמו שחשבתי שהבהרתי).

לגבי html או LaTeX:
תראו, אני באמת לא מבין בשתי הדברם האלה בכלל, ובאמת אין לי מושג מה עדיף.

לגבי html אתם עדיין מתעלמים מהשאלה שלי של איך הוא מטפל בצורות מוזרות של בלוקים (ולמי שעוד לא תפס על מה אני מדבר, אני מצרף תמונה שממחישה את זה בסוף).

לגבי LaTeX, נשמע מאוד מעניין, אבל לא הבנתי איך משלבים class של LaTeX בתוך תכנה אחרת, ואין לי שום נסיון או היכרות עם זה...

נ.ב. יופי שגיליתם את אמיריקה לגבי זה שצריך להפריד בין המקור של החיפוש ומה שמוצג. זה בעצם מה שאמרתי כשפתחתי את הדיון,(אם כי אולי היה אפשר להבין שרציתי להשתמש באותו מקור לשתי הדברים, אבל לפי מה שעניתי לדיאגו רואים שזה לא מה שתכננתי...) אבל תמיד נחמד להתעלם ממה שאני אומר, נכון? Wink

משה

הנה התמונה (שימו לב לשינו הצורה של הבלוקים בצדדים):
http://www.daat.ac.il/daat/toshba/test/pic/gmara99.htm


נערך לאחרונה על-ידי משה בתאריך 08/05/2005 - 13:25, סך-הכל נערך פעם אחת
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית שלח דוא\ ביקור באתר המפרסם מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
nirsלא בפורום כעת ת.הצטרפות: 05/10/2003 · הודעות: 256 ·
 

הודעה פורסם: 16/03/2005 - 00:05
נושא ההודעה:

HTML לא בנוי להציג עמודים בפורמט כזה. הכלי היחיד שיכול לעשות את זה זה גרפיקאי שישב ויעמד כל דף בנפרד בתוכנת עימוד. ב-HTML, המבנה השל הדף ישבר באופן טבעי (ורצוי) רק מעצם הצגת הדף אצל לקוחות עם גודל פונט וסוג פונט שונה, שלא לדבר על דפדפנים שונים שיש להם כל מיני בגים.

לכן מראש לא הייתי הולך על שיכפול של הדף על הנייר לדף על המחשב - אלא מוצא דרך שבה ניתן להציג את אותו מידע על המחשב, שתשמור על העקרונות החשובים של המלל הזה, אבל יחד עם זה תאפשר לכל אחד להסתכל על הדף בפונט שנוח לו, בגודל שנוח לא וברוחב חלון שנוח לו.

זה יראה אחרת מהדף המקורי, אבל זה יהיה הרבה יותר נוח לשימוש, וזה יוכל להבנות בצורה אוטומטית - כלומר אתה מכניס את המלל ביחד עם מידע על כל סוג של מלל, והמערכת יוצרת פלט באופן אוטומטי לפי כלליי העיצוב שאתה קובע בקובץ ה-CSS.

במנוע החיפוש תוכל לחפש במלל לפי סוג המלל - תוכל לחפש רק בבלוק המרכזי, או רק בבלוקיםֶ המקיפים אותו, או בשניהם, או לפי שם הכותב וכדומה.
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
landmnלא בפורום כעת ת.הצטרפות: 01/10/2004 · הודעות: 127 ·
 

הודעה פורסם: 16/03/2005 - 11:21
נושא ההודעה:

אני מסכים עם nirs. אפילו אם אפשר למצוא איזו דרך שתפרט באיזו שורה בדיוק הרוחב משתנה ולאיזה רוחב היא משתנה, לדעתי זה לא שווה את המאמץ.
הנקודות שחשובות הן -
1. נקודת השבירה בין העמודים. (אולי ניתן להסתפק בסימונים רק בטקסט המרכזי של הגמרא והפרשנים (אם יהיה להם קישור "live" לטקסט העיקרי) ישארו באותו דף).
2. כללים סבירים אחידים לגבי כל הדפים - הרוחב המקסימלי של הפרשנים בצדדים וכמות השורות הרחבות ביחס לשורות הצרות נראה לי שהכללים צריכים לכלול גם גודל פונט, צפיפות שורות וכדו'.
לדעתי, זה החלק המסובך בעניין - לעשות את הכללים כך שיתנו צורה נעימה לעין, סבירה ומזכירה מספיק את התסדיר המקורי (של דף גמרא כללי, לא של דף ספציפי).
התוצאה בסוף אמנם לא תהיה זהה ל"צילום ש"ס וילנא" (זו המהדורה של הגמרא שכמעט כל ההוצאות מאז כמה מאות שנים פשוט מצלמות אותה ואולי משפצות חלק מהפונטים), אבל במילא כמעט כל התיחסויות נוגעות לעמוד שבו הטקסט נמצא ולא לרוחב השורות. עם הדגשה מתאימה של התחלות פיסקה וכדו' (ומנוע חיפוש...) יהיה אפילו יותר קל למצוא את הטקסט המקביל מבתסדיר הדף המקורי.
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
VincentGlennלא בפורום כעת ת.הצטרפות: 24/09/2003 · הודעות: 271 · מיקום: באר-שבע
 

הודעה פורסם: 16/03/2005 - 12:07
נושא ההודעה: LaTeX

בחזרה להצעת ה-LaTeX: מה שLaTeX יכול לעשות, לדעתי, זה את הדבר הבא:
1. להגדיר ב-LaTeX מאקרו או מחלקה שמסדרת את העמוד כמו שרוצים. למשל אפשר להגדיר תיבות טקסט בגדלים ומיקומים שונים כדי לחקות את העיצוב של דף גמרא.
2. להמיר, דרך OCR או הקלדה, את דפי הגמרא למסמכי LaTeX שמשתמשים בהגדרות האלה.
3. לקמפל את המסמכים ל-PDF או PS או משהו (פורמט דפוס)
4. האינדקס יהיה מעל PDF או בעזרת הקבצים המקוריים.

הערות, צפריר, מישהו?
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם מספר ICQ 
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
אורח · ·
 

הודעה פורסם: 16/03/2005 - 13:55
נושא ההודעה:

although there is no copyright on the gmara if you want to scan a page
you need to scan it off existing gmara and there you'll get into a lot of copyright problems.
I was trying to pull off something similar a while ago but everywhere I went and whoever I asked I mostly got no or we might sue you if you use it.

it seems the haredim does have copyright over judisim:(
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
nyhלא בפורום כעת ת.הצטרפות: 11/06/2003 · הודעות: 38 ·
 

הודעה פורסם: 16/03/2005 - 14:55
נושא ההודעה:

Anonymous :
although there is no copyright on the gmara if you want to scan a page
you need to scan it off existing gmara and there you'll get into a lot of copyright problems.
I was trying to pull off something similar a while ago but everywhere I went and whoever I asked I mostly got no or we might sue you if you use it.

it seems the haredim does have copyright over judisim:(


כל אחד יכול לאיים עליך בתביעה, ואפילו לתבוע אותך, אבל בשביל לזכות הם צריכים להראות שבאמת הפרת את זכויותיהם - ובמקרה זה כל לא ברור שיש להם כאלו.

קח את מה שאני אומר בעירבון מוגבל, כי אני לא עורך דין, אבל: למיטב הידוע לי, בישראל ניתן לקבל זכויות יוצרים רק על יצירה שהושקעה בה "עבודה יצירתית". העתקת יצירה ישנה וסידורה מחדש במעבד תמלילים, הדפסתה במכונת דפוס חדשה, וכד', איננה עבודה יצירתית, כי אם עבודה טכנית גרידא, ואין זה משנה אם היא הייתה עבודה קשה. מכאן שאם בית דפוס מסוים לוקח גמרא עתיקה, ויוצר גרסה חדשה שלה (ללא שינוי התוכן כהוא-זה, אני מניח...) ומדפיס אותה, אין לו שום זכות יוצרים על הגרסה החדשה.
אגב, מבחינה מוסרית, כאשר אדם לוקח יצירה של איש אחר (או חז"ל, או אפילו יצירה אלוהית Smile), וטוען שתוכן היצירה שייך לא, זאת חזירות, ואפילו רמאות. לכן לטעון לזכויות יוצרים על התנ"ך, הגמרה, או אפילו הדפסה חדשה של ספר ישן מלפני מאה שנה, היא חזירות.

זכותם של בר-אילן לבקש 2850 שקל על הטקסט של הגמרא, אבל זכותך (המוסרית, לפחות - חוקית כנראה יש לך חוזה אתם בנוסף לזכויות היוצרים הרגילות) להפיץ אחר-כך טקסט זה לכל חבריך. אני לא מסוגל להבין איזו זכות מוסרית יש לחברה או אוניברסיטה מסוימת על יצירה שנכתבה מאות רבות של שנים לפני כן על-ידי אנשים אחרים.
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
Tomer32אורח · ·
 

הודעה פורסם: 16/03/2005 - 15:11
נושא ההודעה: אני חושב שבבר -אילן, יש מידע על המיקום של כל טקסט, מסויים,

והעמוד שהוא נמצא בו
רק תבדוק באמת איך זה מתנהג שם, ואיך ת'יכול לקבל ת'מידע הזה
אני לא חושב שהם יתעצבנו יותר מדי, אם יהיה כלי, שרק יעזור ב"פרוייקט" שלהם בעצם
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
nirsלא בפורום כעת ת.הצטרפות: 05/10/2003 · הודעות: 256 ·
 

הודעה פורסם: 16/03/2005 - 15:18
נושא ההודעה:

גם אם המלל של הספרים הוא רכוש הציבור, זה לא הופך את התקליטור של בר אילן לרכוש הציבור. זכותם לדרוש כסף על העבודה שהושקעה בהמרה מהספרים למלל ממוחשב.

מדוע שלא תפיק תקליטור משלך (לא על בסיס החומר שלהם) ותשחרר אותו באופן חופשי?
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
shaykidלא בפורום כעת ת.הצטרפות: 24/02/2005 · הודעות: 64 ·
 

הודעה פורסם: 16/03/2005 - 15:35
24 נושא ההודעה: בעניין זכויות יוצרים

למיטב זכרוני יש גבול של 70 שנה לזכויות יוצרים על יצירה
כך שבעצם אם תקח גמרא מלפני שבעים שנה או יותר
תוכל לסרוק אותה ללא חשש לפגיעה בזכויות יוצרים
ו\או התחבטויות מוסריות עם דוסים...

שי

______________
חופש חופש תרדוף
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
עמיתאורח · ·
 

הודעה פורסם: 16/03/2005 - 16:01
נושא ההודעה:

אוצר כתבי יד תלמודיים:
http://jnul.huji.ac.il/dl/talmud/
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
nirsלא בפורום כעת ת.הצטרפות: 05/10/2003 · הודעות: 256 ·
 

הודעה פורסם: 16/03/2005 - 16:39
נושא ההודעה:

שם לב לתנאי השימוש:
http://jnul.huji.ac.il/dl/talmud/terms.htm

היה ראוי שהמדינה תממן פרויקטים כאלו. אישית אין לי עניין בזה, אבל בכסף שהולך לתמיכה בגופים דתיים היה אפשר בקלות לממן דיגיטציה של החומר הזה ושיחרור שלו ברשיון חופשי, כך שכל אחד עם דפדפן יוכל לענין ולחפש.
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
צפריראורח · ·
 

הודעה פורסם: 16/03/2005 - 17:06
נושא ההודעה:

מכון ממרא מפרסם באתרו עותק של התנך, התלמוד ומשנה תורה של הרמב"ם. ניתן להוריד עותק zip של כל אחד משלושת החלקים הללו (בעברית או באנגלית). הרשיון מרשה שימוש לא מסחרי בלבד.

http://www.mechon-mamre.org
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
הצגת הודעות מלפני:     
מעבר אל:  
כל הזמנים הם GMT + 2 שעות
תגובה לנושא
צפיה בנושא הבא Printable version התחבר כדי לבדוק הודעות פרטיות צפיה בנושא הקודם
PNphpBB2 © 2003-2004 

תוכן הדיון

  1. משה
  2. elcuco
  3. Inola
  4. משה
  5. משה
  6. רונן
  7. Inola
  8. אורח [קובי]
  9. משה
  10. VincentGlenn
  11. elcuco
  12. amitay
  13. nirs
  14. meorero
  15. Yellow_Dog
  16. אורח [קובי]
  17. עידו
  18. אורח [צפריר]
  19. משה
  20. nirs
  21. landmn
  22. VincentGlenn
  23. אורח
  24. nyh
  25. אורח [Tomer32]
  26. nirs
  27. shaykid
  28. אורח [עמית]
  29. nirs
  30. אורח [צפריר]
  31. משה
  32. משה
  33. אורח
  34. The-Q
  35. משה
  36. משה
  37. אורח
  38. landmn
  39. אורח
  40. nyh
  41. אורח
  42. משה
  43. אורח [אליהו ג.]
  44. משה