Whatsup - לינוקס, תוכנה חופשית וקוד פתוח בעברית

תיכנות בלינוקס - pdftotext not handle multi platform well

queency - 06/11/2019 - 18:06
נושא ההודעה: pdftotext not handle multi platform well
שלום לכולם .

אני מעוניין לשלוף שם בעברית מתוך קובץ PDF ולשנות את שם הקובץ
שיכיל גם את השם בעברית ששלפתי.

כאשר אני משתמש ב pdftotext בגרסת לינוקס ישנה אפשרות לבצע
encoding ל iso-8859-8 וכאשר אני מעביר את התוצר למחשב ווינדוס
ומבצע בpython.str.encode עם משתנה ISO-8859-8 הכל עובד בסדר .

כאשר אני משתמש ב pdftotext בגרסת ווינדוס . לא ניתן לשנות encoding
מלבד הדיפולטי "UTF8" ולא משנה איזה encoding \ decoding אני מבצע
בפייתון תמיד אני נופל על קידוד לא בסדר .

כמו כן הבינרי בוינדוס לא יודע לגשת לקובץ חיצוני עם MAP מתאים..

רעיונות יתקבלו בברכה.
Anonymous - 07/11/2019 - 01:07
נושא ההודעה: בטח לא הבנתי, אבל בכל זאת
queency :
שלום לכולם .

سلام عليكم
queency :
אני מעוניין לשלוף שם בעברית
כלומר שם ידוע מראש. למשל, אתה מחפש מחרוזת, נניח קווינסי, בקובץ.
queency :
מתוך קובץ PDF ולשנות את שם הקובץ
שיכיל גם את השם בעברית ששלפתי.

כאשר אני משתמש ב pdftotext בגרסת לינוקס ישנה אפשרות לבצע
encoding ל iso-8859-8 וכאשר אני מעביר את התוצר למחשב ווינדוס
ומבצע בpython.str.encode עם משתנה ISO-8859-8 הכל עובד בסדר .

כאשר אני משתמש ב pdftotext בגרסת ווינדוס . לא ניתן לשנות encoding
מלבד הדיפולטי "UTF8" ולא משנה איזה encoding \ decoding אני מבצע
בפייתון תמיד אני נופל על קידוד לא בסדר .

כמו כן הבינרי בוינדוס לא יודע לגשת לקובץ חיצוני עם MAP מתאים..

רעיונות יתקבלו בברכה.

האם pdftotext בווינדוס לא נותן קובץ טקסט? אז תקדד קווינסי ב UTF8 ותחפש אותו בקובץ הטקסט.
Anonymous - 07/11/2019 - 14:39
נושא ההודעה: Re: בטח לא הבנתי, אבל בכל זאת
טועה סדרתי :
queency :
שלום לכולם .

سلام عليكم
queency :
אני מעוניין לשלוף שם בעברית
כלומר שם ידוע מראש. למשל, אתה מחפש מחרוזת, נניח קווינסי, בקובץ.
queency :
מתוך קובץ PDF ולשנות את שם הקובץ
שיכיל גם את השם בעברית ששלפתי.

כאשר אני משתמש ב pdftotext בגרסת לינוקס ישנה אפשרות לבצע
encoding ל iso-8859-8 וכאשר אני מעביר את התוצר למחשב ווינדוס
ומבצע בpython.str.encode עם משתנה ISO-8859-8 הכל עובד בסדר .

כאשר אני משתמש ב pdftotext בגרסת ווינדוס . לא ניתן לשנות encoding
מלבד הדיפולטי "UTF8" ולא משנה איזה encoding \ decoding אני מבצע
בפייתון תמיד אני נופל על קידוד לא בסדר .

כמו כן הבינרי בוינדוס לא יודע לגשת לקובץ חיצוני עם MAP מתאים..

רעיונות יתקבלו בברכה.

האם pdftotext בווינדוס לא נותן קובץ טקסט? אז תקדד קווינסי ב UTF8 ותחפש אותו בקובץ הטקסט.


ולא משנה איזה encoding \ decoding אני מבצע
בפייתון תמיד אני נופל על קידוד לא בסדר .
Anonymous - 07/11/2019 - 17:22
נושא ההודעה: Re: אם הבעיה עברה לקוד עצמי בפייתון זה נראה לי בדרך הנכונה
Anonymous :
טועה סדרתי :
queency :
שלום לכולם .

سلام عليكم
queency :
אני מעוניין לשלוף שם בעברית
כלומר שם ידוע מראש. למשל, אתה מחפש מחרוזת, נניח קווינסי, בקובץ.
queency :
מתוך קובץ PDF ולשנות את שם הקובץ
שיכיל גם את השם בעברית ששלפתי.

כאשר אני משתמש ב pdftotext בגרסת לינוקס ישנה אפשרות לבצע
encoding ל iso-8859-8 וכאשר אני מעביר את התוצר למחשב ווינדוס
ומבצע בpython.str.encode עם משתנה ISO-8859-8 הכל עובד בסדר .

כאשר אני משתמש ב pdftotext בגרסת ווינדוס . לא ניתן לשנות encoding
מלבד הדיפולטי "UTF8" ולא משנה איזה encoding \ decoding אני מבצע
בפייתון תמיד אני נופל על קידוד לא בסדר .

כמו כן הבינרי בוינדוס לא יודע לגשת לקובץ חיצוני עם MAP מתאים..

רעיונות יתקבלו בברכה.

האם pdftotext בווינדוס לא נותן קובץ טקסט? אז תקדד קווינסי ב UTF8 ותחפש אותו בקובץ הטקסט.


ולא משנה איזה encoding \ decoding אני מבצע
בפייתון תמיד אני נופל על קידוד לא בסדר .

האם הבעיה עברה לכך שבפיתון אינך מסתדר? נסה לרשום תוכנית קצרה בפיתון. הקלט שלה יהיה מחרוזת ב UTF8. והפלט יהיה שינוי פשוט. או הוספה של תו אחד. או זיהוי הקידוד. משהו קצר. אם זה לא יעבוד, אולי תפרסם את הקוד, ותשאל למה זה לא עובד. תפרסם כאן, או במקום אחר. או שתחפש בגוגל, או תבדוק באתר פיתון את התעוד שלהם. כנראה שיש לך טעויות שאינך מודע להן. אולי אינך מכיר טוב את השפה. או שהתקנת פייתון אצלך לא בסדר. או הגדרות ווינדוס. למעשה, תוכל לבדוק את התוכנית גם בלינוקס. אם בלינוקס התוכנית הקצרה שלך תעבוד, אך לא בווינדוס, זה עשוי לעזור לך לאתר את הבעיה. האם קוד פייתון לא אמור להיות פורטבילי?
queency - 07/11/2019 - 22:44
נושא ההודעה:
נפתר
Anonymous - 08/11/2019 - 15:31
נושא ההודעה: איך נפתר?
queency :
נפתר
איך נפתר?
Anonymous - 08/11/2019 - 17:33
נושא ההודעה: Re: איך נפתר?
לא מבין :
queency :
נפתר
איך נפתר?

גם 11 שנה לא הספיקו לו להבין את הפרנציפ של הפורום פה Smile
Anonymous - 08/11/2019 - 19:59
נושא ההודעה: Re: למה 11 שנה? מה הפרינציפ של הפורום פה? איך נפתר?
Anonymous :
לא מבין :
queency :
נפתר
איך נפתר?

גם 11 שנה לא הספיקו לו להבין את הפרנציפ של הפורום פה Smile

למה 11 שנה? מה הפרינציפ של הפורום פה? איך נפתר? Sad
queency - 08/11/2019 - 20:37
נושא ההודעה:
יש אפשרות להשתמש ב קובץ CFG ולהצביע על מפת קידוד ה ISO
כל הזמנים הם GMT + 2 שעות