מהי אנטרופיית קבצים

מהי אנטרופיית קבצים
מהי אנטרופיית קבצים

וִידֵאוֹ: מהי אנטרופיית קבצים

וִידֵאוֹ: מהי אנטרופיית קבצים
וִידֵאוֹ: מבוא לכימיה, יחידה 6ד - אנטרופיה 2024, נוֹבֶמבֶּר
Anonim

כל קובץ מחשב מורכב מבתים. בתים יכולים לקחת ערכים בין 0 ל 255. אנטרופיית מידע היא פרמטר סטטיסטי שמראה את ההסתברות להופעת בתים מסוימים בקובץ.

מהי אנטרופיית קבצים
מהי אנטרופיית קבצים

ניתן להעריך באופן חזותי את מידת האנטרופיה באמצעות היסטוגרמה - חלוקת ההסתברות לחזור על אותם בתים בקובץ. מתוך האנטרופיה של הקובץ נוכל לנחש איזה סוג קובץ נמצא לפנינו, ורואים רק את ההיסטוגרמה שלו.

לצורך הדגמה, ניקח שלושה קבצים מסוגים שונים ונשווה את ההיסטוגרמות שלהם. תן לראשון להיות קובץ טקסט (*. TXT). ההיסטוגרמה שלה מוצגת באיור:

гистограмма=
гистограмма=

קובץ הטקסט מכיל טקסט בלבד. כל תו של הטקסט מקודד בתים מסוימים בהתאם לטבלת הקידוד. למרות שיש מספר רב של סוגי קידוד, ברור שיש מספר מוגבל של תווים אלפאנומריים, שהם בדרך כלל פחות מ 255. לכן, רק אזורים מסוימים תפוסים בהיסטוגרמה הראשונה, וחלק מהבתים כלל אינם.

הקובץ הבא יהיה בפורמט PDF:

гистограмма=
гистограмма=

קובץ זה מכיל את כל הבתים האפשריים, שכן PDF מקודד באופן שונה מקבצי טקסט. הוא שומר מידע רב על שירותים: עיצוב, גופנים, תמונות וכו '. אך ההיסטוגרמה שלה מראה שחלק מהבתים מתרחשים בסבירות שווה בערך, בעוד שאחרים - לעתים קרובות הרבה יותר מאחרים. מכאן ההתפרצויות החדות המרובות על ההיסטוגרמה, ובאופן כללי יש לה מראה "מרופט" למדי, אם כי היא תופסת את כל הרוחב הזמין.

והקובץ האחרון רוכסן בפורמט 7Z:

гистограмма=
гистограмма=

היסטוגרמה זו כוללת שתי מאפיינים עיקריים: ראשית, כל הבייטים נמצאים בקובץ הרוכסן עם סבירות שווה פחות או יותר (קצה עליון שטוח למדי), ושנית, אין כמעט מקום פנוי מעל ההיסטוגרמה, מה שמעיד על היעדרות כמעט מוחלטת של יתירות קובץ כזה. מכאן, אנו יכולים להסיק כי האלגוריתם של הארכיב באופן מיוחד "מערבב" את בתים של הקובץ על מנת להשיג את תפוצתם האחידה המרבית.

לפיכך, אנטרופיה במדעי המחשב, כמו בפיזיקה, היא מדד להפרעה במערכת, במקרה זה, להפרעה בהפצת בתים בקובץ. אנטרופיה מאפשרת לך לשפוט את מידת הדחיסה של הקובץ ובעקיפין על סוגו.

מוּמלָץ: