Anonymous : |
טועה סדרתי : |
سلام عليكم
queency : | אני מעוניין לשלוף שם בעברית | כלומר שם ידוע מראש. למשל, אתה מחפש מחרוזת, נניח קווינסי, בקובץ.
queency : | מתוך קובץ PDF ולשנות את שם הקובץ
שיכיל גם את השם בעברית ששלפתי.
כאשר אני משתמש ב pdftotext בגרסת לינוקס ישנה אפשרות לבצע
encoding ל iso-8859-8 וכאשר אני מעביר את התוצר למחשב ווינדוס
ומבצע בpython.str.encode עם משתנה ISO-8859-8 הכל עובד בסדר .
כאשר אני משתמש ב pdftotext בגרסת ווינדוס . לא ניתן לשנות encoding
מלבד הדיפולטי "UTF8" ולא משנה איזה encoding \ decoding אני מבצע
בפייתון תמיד אני נופל על קידוד לא בסדר .
כמו כן הבינרי בוינדוס לא יודע לגשת לקובץ חיצוני עם MAP מתאים..
רעיונות יתקבלו בברכה. |
האם pdftotext בווינדוס לא נותן קובץ טקסט? אז תקדד קווינסי ב UTF8 ותחפש אותו בקובץ הטקסט. |
ולא משנה איזה encoding \ decoding אני מבצע
בפייתון תמיד אני נופל על קידוד לא בסדר . |
האם הבעיה עברה לכך שבפיתון אינך מסתדר? נסה לרשום תוכנית קצרה בפיתון. הקלט שלה יהיה מחרוזת ב UTF8. והפלט יהיה שינוי פשוט. או הוספה של תו אחד. או זיהוי הקידוד. משהו קצר. אם זה לא יעבוד, אולי תפרסם את הקוד, ותשאל למה זה לא עובד. תפרסם כאן, או במקום אחר. או שתחפש בגוגל, או תבדוק באתר פיתון את התעוד שלהם. כנראה שיש לך טעויות שאינך מודע להן. אולי אינך מכיר טוב את השפה. או שהתקנת פייתון אצלך לא בסדר. או הגדרות ווינדוס. למעשה, תוכל לבדוק את התוכנית גם בלינוקס. אם בלינוקס התוכנית הקצרה שלך תעבוד, אך לא בווינדוס, זה עשוי לעזור לך לאתר את הבעיה. האם קוד פייתון לא אמור להיות פורטבילי?