Хомогенизиране на данните

При използването на различни източници, като правило данните, които се получават, са хетерогенни. Това не позволява директното им съвместяване и използване в обобщени модели, процедури и/или схеми за постигане на целите на съответното изследване. Задачата за привеждане на данните в хомогенен вид е най-сериозната задача при предварителната обработка и е ключова за коректността на последващите анализ и оценка на проблемната ситуация, а също така и за решенията взети на базата този анализ и получени оценки.

В този раздел ще се разгледаме следните проблеми:
източници на хетерогенност – според използваните размерности, форми на представяне, носител;
скали на измерване – разграничаване, основни свойства и приложимост на данни измервани според интервални скали, скали на наредба и номинални скали;
процедури, подходи и ограничения при преобразуване, с цел хомогенизиране, на данни измерени в разнородни скали.

Източници на хетерогенност

Можем да направим следната класификация на източниците на хетерогенност на данните:
Според използваната размерност – един и същ тип данни може да бъде измерван с различни мерни единици, например разтояние може да се измерва в километри и мили. Очевидно, че ако искаме да сравним две разстояния, едното зададено в километри, а другото – в мили, трябва предварително да преобразуваме едното число (например това зададено в километри) в размерността на другото, така че всички данни от тази група да се измерват с една и съща мерна единица.
Според формата на представяне – различаваме данни представени като числа, текст, графика, таблица, звук, картина и т.н. (тук ще разграничим графиките от картините, като под графика ще разбираме графично представяне на количествена информация като хистограми, бар-диаграми, pie-charts и други подобни форми; докато картините представят качествена информация – снимка на даден обект, карта на местност, схема на административна структура и т. н.). Хомогенизирането на хетерогенни според формата на представяне данни като правило не може да се автоматизира и изисква участие на човек.
Според носителя – данни могат да бъдат получени на различен носител – в “елкторнен” вид, като хартиен документ, като устно предадено съобщение (не записано), като запис на съобщение (например от телефонен секретар), и т.н. Тук отново, човешкият фактор остава незаменим, независимо от напредъка на технологиите в областта на “voice и pattern recognition” (разпознаване на глас и образи).
Според типа на скалата на измерване – най-общо говорим за количествени и качествени данни, но това разделение е доста грубо, особено когато под количествени данни разбираме числа, а под качестевени – описание, текст или друга форма на представяне. Често данни зададени с числа имат характеристики на качествено определени данни, а данни представени чрез графика носят количествена информация. Затова тук ще разгледаме проблема от гледна точка на скалите с които мерим свойствата на обектите и явленията, а не чрез системата, използвана за кодиране на тези данни.
Докато при първите три категории хетерогенност проблемите и подходите за преобразуването на данните с цел хомогенизиране са малко (в първия случай) или очевидни, то хетерогенността, породена от използването на различни скали на измерване, изисква по-задълбочено изучаване.

Скали на измерване

Тук ще разгледаме трите основни типа скали за измерване на свойствата на обектите и явленията:
А)    Номинални скали.
При този вид, свойствата се определят чрез мерки, характеризиращи ги в термините на самото свойсвото – такива, каквито са. Например, свойството “цвят” се задава в категории “син”, “червен”, “зелен” и т. н. Обекти, свойствата на които са определени чрез номинални скали, не могат нито да бъдат оценявани количествено, нито да бъдат нареждани. Такива обекти могат да бъдат сравнявани само “номинално”.

Скали за наредба

Свойствата, измервани чрез този скалите за наредба, позволяват обектите да бъдат нередени според избраната мярка. Например, свойството “знания на студент по определен предмет” (или по-точно “представянето на студент на даден изпит”) се мери чрез скалата на оценките, която има две форми “с цифри”: 6,5,4,3 и 2 или с “с думи”: “отличен”, “много добър”, “добър”, “среден” и “слаб”. В зависимост от оценката веднага можем да сравним представянето на двама студенти X и Y. Ако X е получил 4, а Y – 2, то очевидно X знае повече (представил се е по-добре) от Y, но не можем да твърдим, че X знае два пъти повече (или се е представил точно два пъти по-добре) от Y.
Друг пример за данни в скала за наредба е скалата за измерване твърдостта на кристали – ако един кристал оставя драскотина върху друг, то той е потвърд от него. Използването на това свойство на кристалите, позволява те да бъдат наредени по твърдост, като кристали като талк и диамант са в двата края на скалата.

Интервални скали

При интервалните скали, мерките, с които се определят свойствата позволяват сравняване не само на самите обекти, но и на разстоянията (интервалите) между тях. Например, ако разстоянието от точка X до точка Y е 100 километра, а от точка X до точка Z – 120 километра, ние можем да твърдим не само, че разстоянието {X,Y} е по-малко от разстоянието {X,Z}, но също и че разстоянието {X,Y} е по-малко от разстоянието {X,Z} с точно 20 километра. Разбира се, винаги трябва да се отчита и еталона, който се използва за измерване. Така твърдението “точно 20 километра” е вярно с определено приближение или грешка, зависеща от използвания еталон, в случая “километър”, т. е. можем да очакваме, че грешката в твърдението “точно 20 километра” е по-малка от един километър.
Свойства, измервани чрез интервални скали, могат да бъдат използвани в различни математически модели, изискващи дори сложни изчисления; докато данни, зададени в скали за наредба (и в още по-голяма степен – в номинални скали), това е некоректно и може да доведе до грешни резултати и подвеждащи оценки. Например, често използваната статистика “среден успех”, неявно предполага, че оценките на студентите са зададени в интервална скала. В такива случаи, статистики като “медиана” или “мода”, характеризират много по-адекватно и коректно популацията.

Класически пример илюстриращ свойствата на статистиките “средно” и “медиана” е следният: “Получавате предложение за работа в компания, в която средната годишна заплата е 100,000 лева. Приемате предложението, като очаквате вашата заплата да е по-ниска от средната, но все пак предложението изглежда много атрактивно. Когато подписвате договора, разбирате, че в компанията работят 11 души – един от тях получава заплата от 1,000,000 (един милион) лева, докато останалите 10 – по 10,000 лева. Средната заплата наистина е 100,000 лева. В същиат случай, “медианата” е 10,000 лева. Ако вместо “средно” за оценка бяхте използвали “медиана”, оценката на ситуацията би била значително по-вярна и следователно решението, което ще вземете въз основа на тази оценка – значително по-правилно.” Средното предполага, че данните са измерени в интервална скала, докато медианата може да се изчисли коректно и при данни, измерени в интервална скала.

“Безразмерни скали”

Използването на т. нар. “безразмерни скали” за нормиране на данните;  при които вместо оригиналните данни се използват отношения на данните към определена статистика като средно, максимум или минимум; също предполага, че свойството се измерва в интервална скала. Използването на понятието “безразмерен”, твърде широко разпространено в инженерната практика, също е некоректно –такива данни се измерват в “части от дадено цяло” и размерността е процент, ако еталона, с който цялото се разделя е 1/100.

Подходи, методи, модели и и ограничания при хомогенизиране на данни мерени в различни скали

Коректното решаване на задачата за хомогенизирането на данните, събрани от различни източници, е критично по отношение използваемостта на техниките за обобщаване и оценяване на дадена съвкупност от данни. Механичното прилагане на определени математически модели, методи, процедури, подходи и други подобни, без да са осигурени условията, които се изискват от тези техники, може да доведе до неверни резултати, и оттам до грешни изводи и вземане на неправилни решения. Всяка техника има свои специфични условия, които задължително трябва да са изпълнени, за да се осигури коректното й използване и верността на получените резултати. Измежду всички възможни условия изискванията към данните са с най-висок приоритет и обикновено най-трудно се осигуряват. Често се налагат компромиси, които водят до грешки и изкривяване на резултатите. Такива компромиси трябва да се паравят съзнателно, с разбиране и със сравнително точна преценка за неточностите, изкривяванията и другите потенциални негативни последици. Този раздел е посветен описание и коментар на техниките използвани за преобразуване на данни измерени в даден тип скала в данни притежаващи свойствата на друг тип скала. При такова преобразуване, интерес представляват преходите от номинална към скала за наредба и от скала за наредба към интервална скала. Преобразуването на данните в обратна посока е тривиално и се осъществява само чрез използване на част от свойствата на данните (елиминиране на свойства).

Основни подходи:

Преход от номинална скала към скала за наредба

Такъв преход може да се осъществи чрез надстрояване на номиналната скала с “йерархия на концепциите” . Към дадена концепция (например цвят) се изгражда йерархия позволяваща наредба на различните инстанции на концепцията (например йерархия на предпочитаният цвят: оранжев, зелен, жълт, син, розов, червен, черен и т. н., като оранжевият е най-предпочитан, а черният – най-нежелан). Това, разбира се, позволява използването на такива данни в модели, изискващи данни измерени в скала за наредба. Сериозно ограничение на този подход е, че построената йерархия е валидна само за конкретният случай. Ако човек си избира кола йерархията на цветовете по предпочитание е една, ако си купува тапети за спалнята – друга.

Преход от скала за наредба към интервална скала

За да си изясним естеството на предлаганата тук техника, трябва първо да коментираме по-подробно начина, по-който измерваме дадена величина. Нека разгледаме величината разстояние. За измерване на разстоянията използваме еталон – метър. Сравняваме разстянието, което искаме да измерим, с еталона. Ако разстоянието е по-малко от еталона (имаме релация “наредба”) използваме подразделение на еталона, например сантиметър, и отново сравняваме разстоянието с еталона. Ако разстоянието е по-голямо от еталона, проверяваме колко пъти еталона се нанася изцяло върху разстоянието и за остатъка отново използваме подразделение на еталона. В системата СИ използваме метър, сантиметър, милиметър и т. н. Може да използваме и други еталони – миля, ярд, фут. На всяка стъпка от процеса на измерване използваме релацията за наредба (по-голямо, по-малко) и подразделения на избрания еталон. Следователно, в същината си, мерките, използвани в дадена интервална скала са мерки от скала за наредба при използване на достатъчно добре развита система от еталони, позволяваща измерване с пренебрежимо малка грешка. За разстояние мвжду градове – грешка от порядъка на един километър е допустима, в технически системи понякога и грешка от един микрон е твърде голяма.
Техниките за преобразуване на данни, естествено мерени в скала за наредба, към интервална скала се базират на изграждане на подходяща система от еталони, с достатъчно развита система от подразделения, позволяваща измерване на обектите с нужната точност.

Два често използвани метода

Разнообразни са методите и моделите, използвани от изследователите, при представяне на данни, произхода на които естестествено предполага измерение в скала на наредба, в интервална скала. Такива модели, като правило, се предопределят от два фактора – от природата на данните и от обработката, която е планирана за постигане на целите на изследването.
Първият метод експлоатира директно идеята за измерване чрез използването на еталон с подразделения. Към основните категории на принадлежност на обектите се добавят подкатегории. Например, към основните категории оценки отличен, много добър и т. н. се добавят оценки от вида 4.50 или 4.00-, 5.00+ за по-прецизно представяне на наблюдаваната характеристика. Така категориите, на които се разделят данните от пет, могат да достигнат (с добавяне на половинка, един или два плюса или минуса) до 25. Ако сравним точността при тези оценки с точността получена при измерване на разстояние с еталон метър – то точността ще е равна на 4.00 см., което е едно не-лошо приближение за такъв вид данни.
При втория метод се прави опит да се избегне асоциирането на данните с определена категория. Често се използва в социологицески анкети, при които анкетираният се очаква да отговори на въпрос избирайки определена категория отговор.

В работата си информационния брокер непрекъснато трябва да решава проблема за баланса между коректното използване на определен математически апарат и качеството на наличните данни. Компромиси по отношение на данните, които не задоволяват напълно изискванията за коректно прилагане на математическия апарат трябва да се правят с ясното съзнание за последиците до които такъв компромис води и тези потенциални рискове да бъдат оценени и интерпретирани за потребителите.

Сходни статии:

  1. Релационни база данни – основен модел БД използван в реалната практика SQL – стандартен език за управление на данните в база данни Под понятието заявка се разбира форма на питане към обектите и релациите на база данни. Подход при организация на...
  2. Видове информационни технологии На базата на анализа на информационните дейности в информатиката са създадени и се прилагат следните информационни технологии:  Информационна технология за събиране на информация (научна, образователна, икономическа, управленческа, фирмена и др)....
  3. Модели бази данни Моделите помагат да се приложат схеми на логическо развитие на базите данни. Дървовиден модел на данни, съдържа основен ствол и клони. От всеки клон се появяват други малки клони, следващо...
  4. Метод за достъп с управляващ маркер Предаването на маркер е несъстезателен метод, при който два компютъра не могат да предават сигнал по едно и също време. Той действа донякъде подобно на съвещание на комитет, където на...

You can leave a response, or trackback from your own site.

2 Responses to “Хомогенизиране на данните”

  1. [...] създаване на разбираеми и полезни за неговата работа извадки от данни, събиране от няколко таблици. Microsoft-Access осигурява [...]

  2. [...] обем от знания в областта на анализ, конструиране и администриране на данни и DB. Създаването, използването и управлението на DB и [...]

Leave a Reply

You must be logged in to post a comment.

Subscribe to RSS Feed Follow me on Twitter!