23 април, 2015

Всичко, което бихте искали да знаете за “големите данни” (част 1)

Всичко, което бихте искали да знаете за “големите данни” (част 1)

С какви особености, нови идеи и нови възможности са свързани Big Data технологиите? В този и в следващите броеве на сп. CIO ще отговорим на поредица от въпроси, свързани с тази актуална тема

от , 23 февруари 20150671 прочитания,
Всичко, което бихте искали да знаете за “големите данни” (част 1)Така наречените “големи данни” (Big Data), вече няколко години се посочват от всички водещи анализатори като една от най-перспективните тенденции в областта на ИТ. С този термин, най-общо, се обозначават масиви от данни, които са толкова огромни и комплексни, че трудно могат да се обработват с традиционни приложения, както предизвикателствата са на всички нива – анализ, търсене, споделяне, съхраняване, трансфер, визуализация, поверителност и т.н.
Все пак, очевидно е, че границата, след която данните стават “големи” е условна и тенденцията е тя да се отмества към все по-големи обеми, тъй като изчислителната техника постоянно се усъвършенства и става все по-достъпна. Неслучайно анализаторите от Gartner разглеждат “големите данни” едновременно в три измерения – ръст на обемите, ръст на скоростта на обмен на данните и все по-голямо информационно разнообразие.
Една важна особеност на концепцията Big Data е стремежът за обработка на огромния информационен масив като цяло с цел получаване на по-точни резултати от провежданите анализи. По-старият алтернативен подход предполагаше да се разчита на т.нар. “представителна извадка” или подмножество от цялата информация – логично, този подход е по-неточен, а освен това изисква определени ресурси за подготовка на данните.
С какви други особености, нови идеи и нови възможности са свързани Big Data технологиите? Ще се опитаме да предоставим информация по тази тема като отговорим на поредица от въпроси в няколко статии в този и в следващите броеве на сп. CIO. И така …
Какво представляват “големите данни”?
>> Определение. От названието можем да предположим, че става дума просто за анализ на големи обеми от данни. Според доклад на McKinsey Institute, озаглавен “Големите данни: новата граница за иновации, конкуренция и производителност” (Big data: The next frontier for innovation, competition and productivity), терминът Big data означава масив от данни, размерът на който надхвърля възможностите на типичните бази данни за съхранение, управление и анализ на информация. Трябва да признаем обаче, че това определение изглежда непълно, като се има предвид, че хранилищата за данни по света продължават да растат с бързи темпове. Според прогнозата на IDC в доклада “Изследване на цифровата вселена” (Digital Universe Study), публикуван през 2011 г., данните ще нараснат около 50 пъти до 2020г. вследствие на повишаващия се брой на вградени системи като сензори в дрехи, медицински устройства и т.н., а неструктурираната информация като файлове, имейли и видео ще съставлява 90% от всички данни, създадени през следващото десетилетие.
>> Уточнение. Следва да отбележим, “големите данни” предполагат нещо повече от анализ на огромни обеми информация. Проблемът не е в това, че организациите създават огромни обеми от данни, а в това, че голяма част от тях е във формат, който не съответства на традиционния структуриран формат на базите данни – става дума за видео записи, текстови документи, машинен код, геопространствени данни и т.н. Цялата тази информация се пази в разнообразни хранилища, понякога дори извън пределите на организацията. В резултат, макар и да имат достъп до огромен обем от данни, корпорациите нямат необходимите инструменти, за да намират зависимости между тези данни и на тази основа да правят значими изводи.
В допълнение, от ден на ден данните се обновяват все по-често. Стигаме до ситуация, в която традиционните методи за анализ на информацията не могат да се справят с огромните обеми постоянно обновявани данни, което ни води до необходимостта от нови “Big Data” технологии.
>> Обобщение. Всъщност понятието “големи данни” предполага работа с информация с огромен обем и разнообразен състав, която се обновява често и се намира в различни източници, като целта е създаване на нови продукти и повишаване на ефективността и конкурентоспособността.
Изследователската компания Forrester предлага следната дефиниция: “Големите данни обединяват техники и технологии, които извличат смисъл от данните на екстремалната граница на практичността”.
Защо данните станаха големи?
Източниците на големи данни в днешния свят са много. Сред тях са непрекъснато постъпващи данни от измерващи устройства, събития от радиочестотни идентификатори, потоци съобщения от социалните мрежи, метеорологически данни, потоци от данни за местоположението на абонати на клетъчни мрежи, устройства за аудио и видеорегистрация и т.н. Именно масовото разпространение на изброените технологии и модели за използване на различни типове устройства и Интернет услуги са отправната точка, от която започна проникването на Big Data във всички сфери на човешката дейност и най-вече в научните изследвания, в комерсиалния сектор и в държавното управление.
Ето няколко интересни и показателни факти:
  • Към 2010 г. корпоративните потребители по света са натрупали 7 ексабайта данни (1 EB =1018 B), а на персоналните компютри и ноутбуци на индивидуалните потребители са съхраняват 6 ексабайта информация.
  • Цялата музика на света може да се съхрани на диск с цена $600.
  • Към 2010 г. в мрежите на мобилните оператори по света са обслужвани 5 млрд. телефони.
  • Всеки месец в социалната мрежа Facebook със свободен достъп се публикуват 30 млрд. нови източници на информация.
  • Всяка година обемът на съхраняваната информация нараства с 40%, докато глобалните разходи за ИТ растат с по-малко от 5%.
  • Към април 2011 г. в библиотеката на Конгреса на САЩ са съхранявани 235 TB данни (1 TB =1012 B).
  • Американските компании от 15 сектора (от общо 17 сектора на икономиката) разполагат с обеми от данни, които са по-големи от тези на библиотеката на Конгреса на САЩ.
Така например, датчиците монтирани на авиодвигател генерират около 10 TB данни за половин час. Приблизително същите потоци от данни се генерират от датчиците инсталирани на сондажни платформи и нефтопреработващи комплекси. Услугата за разпространение на кратки съобщения Twitter, въпреки ограниченията за дължина на посланието до 140 символа, генерира поток от 8 TB за денонощие. Ако всички подобни данни се натрупват за бъдеща обработка, техният общ обем ще се измерва с десетки и стотици петабайти (1 PB = 1015 B).
Допълнително ситуацията се усложнява от вариантността на данните – техният състав и структура постоянно се променя при пускане на нови услуги, инсталиране на усъвършенствани сензори, провеждане на нови маркетингови компании и т.н.
Пазарът на Big Data
 Според прогноза на IDC, публикувана през септември 2014 г., пазарът на технологии и услуги в областта на “големите данни” ще расте средно с 26,4% годишно и към 2018 г. ще достигне $41,5 млрд.
Така на практика сегментът Big Data ще расте 6 пъти по-бързо от ИТ пазара като цяло.
Доколко сме готови да използваме “големи данни”?
През есента на 2013 г. Cisco и анализаторската компания InsightExpress проведоха проучване в 18 страни сред 1 800 студенти и 1 800 млади специалисти на възраст до 30 години. Целта на изследването бе да се установи доколко ИТ отделите са готови за реализацията на Big Data проекти и да се получи представа за проблемите, свързани с такива инициативи, а също така за технологичните аспекти и за стратегическата им ценност.
Проучването констатира, че повечето компании събират, записват и анализират данни. Въпреки това, във връзка с Big Data, много компании се сблъскват с редица сложни бизнес и ИТ проблеми. Така например 60% от анкетираните твърдят, че анализите на Big Data могат да усъвършенстват техните процеси за вземане на решения и да повишат конкурентоспособността им, но само 28% съобщават, че вече получават реални стратегически предимства от натрупаната информация.
Как се събират big data?
Компаниите събират и използват данни от най-различен тип, както структурирани, така и неструктурирани. Ето от какви източници получават своите данни участниците в проучването на Cisco и InsightExpress:
  • 74% събират текущи данни
  • 55% събират исторически данни
  • 48% получават данни от монитори и датчици
  • 40% ползват данни в реално време, а след това ги изтриват
  • 32% събират неструктурирани данни – например видео.
 Как се анализират “големи данни”?
Съществуват множество разнообразни методи за анализ на масиви от данни, в основата на които са инструменти, взаимствани от статистиката и информатиката (особено машинното обучение). Списъкът, който привеждаме тук, въпреки че е дълъг, не претендира за пълнота, но дава представа за най-често прилаганите подходи в различните индустрии. При това, изследователите продължават да разработват нови методи и да усъвършенстват съществуващите. Редно е да отбележим също, че някои от изброените методи не са предназначени изключително за големи данни и могат съвсем успешно да се ползват за по-малки масиви (например A/B testing, регресионен анализ и др.). Но разбира се, колкото по-обемист и диверсифициран масив се анализира, толкова по-точни и релевантни са резултатите.
Ето какви са някои от методите за Big Data анализи:
- A/B testing. При този метод контролна група от елементи се сравнява с други тестови групи, в които един или няколко показателя са били променени. Целта е да се изясни какви промени подобряват целевите показатели. С този метод може да се намери оптимална комбинация от показатели за достигане на определена цел – например най-добро възприемане на ново маркетингово предложение от страна на потребителите. “Големите данни” позволяват да бъдат проведени огромен брой итерации и да се получи статистически достоверен резултат.
Сред компаниите, които използват A/B testing са Amazon и Zynga.
- Association rule learning. Това е набор от методи за идентифициране на взаимовръзки, т.е. асоциативни правила за връзки между променливи величини в големи обеми от данни. Тези методи се ползват в решенията за data mining.
- Classification. Група методи, които позволяват да се предскаже поведението на потребителите в определен пазарен сегмент - например за вземане на решение за покупка, за обем на потребление, за отказ от използване на даден продукт и т.н.). Ползват се в решенията за data mining.
- Cluster analysis. Статистически метод за класификация на обекти по групи на базата на откроени общи признаци, които не са били известни предварително. Използва се в решенията за data mining.
- Crowdsourcing. Метод за събиране на данни от голям брой източници.
- Data fusion and data integration. Група методи, които позволяват да се анализират коментари на потребители на социалните мрежи и да се съпоставят с резултати от продажби в режим на реално време.
- Data mining. Група методи, които дават възможност за откриване на смислени корелации, зависимости, повтарящи се образци, тенденции и аномалии в масиви от данни. С инструменти за Data mining се реализират Big Data проекти които имат за цел да се предскаже модел на поведение на потребители или например да се определи каква група потребители ще възприеме най-добре някакъв нов продукт, какви качества са характерни за най-успешните служители и т.н.
- Ensemble learning. Разработван за целите на машинното обучение, този метод включва в действие множество предикативни модели, благодарение на което постига високо качество на изведените прогнози.
- Genetic algorithms. При този метод възможните решения се представят във вид на “хромозоми”, които могат да се комбинират и да мутират. Както и в процеса на еволюцията в природата, оцеляват най-приспособените. Казано по-друг начин, това е евристичен алгоритъм за търсене, използван за решаване на задачи за оптимизация и моделиране чрез случаен подбор, комбиниране и вариации на целеви параметри и използване на механизми аналогични на естествения подбор.
- Machine learning. Направление от областта на изкуствения интелект, насочено към създаването на алгоритми за самообучение на базата на емпирични данни.
- Natural language processing (NLP). Методи за разпознаване и обработка на естествен език, взаимствани от информатиката и лингвистиката.
- Network analysis. Група методи за анализ на връзки между възли в мрежи. Прилагат се към данни от социалните мрежи, като позволяват да се анализират връзки между отделни потребители, компании, общности и т.н.
- Optimization. Група от числени методи за редизайн на сложни системи и процеси с цел подобряване на един или няколко техни показатели. Прилагат се за подпомагане вземането на стратегически решения – например за състава на извежданата на пазара продуктова линия, за провеждане на инвестиционни анализи и т.н.
- Pattern recognition. Методи с елементи на самообучение, прилагани за предсказване на модели на поведение.
- Predictive modeling. Методи, които позволяват да бъде създаден математически модел за предварително зададен вероятен сценарий за развитието на дадени събития. Типичен пример за приложението на Predictive modeling е за анализ на данни от CRM система, с цел да се прогнозират възможните условия, при които част от абонатите на дадена компания ще се откажат от нейните услуги и ще започнат да използват тези на конкурентите.
- Regression. Група статистически методи за намиране на закономерности между изменението на зависима променлива и една или няколко независими. Използва се за прогнозни анализи и при data mining. Широко се прилага методът “линейна регресия”, който определя влиянието на един числов параметър върху друг. Например, с каква средна стойност се променя обемът на продажбите при промяна ма маркетинговия бюджет със 100 лв. Друг вариант е “логическата регресия” – т.е. когато зависимата променлива може да приема само две стойности (0 и 1) – това е един от най-разпространените методи за анализ на вероятността за настъпване на дадено събитие в зависимост от стойностите на някакви параметри.
- Sentiment analysis. Това са методи за оценка на настроенията на потребителите, базирани на технологии за разпознаване на естествен език. Те позволяват от общия информационен поток да бъдат извлечени съобщения, свързани с определена тема или предмет (например за даден продукт), а също така да се оцени дали изказваните по темата съждения са положителни или отрицателни, каква е степента на тяхната емоционалност и т.н.
- Signal processing. Група методи взаимствани от радиотехниката, които имат за цел разпознаването на сигнал на фона на шум и анализ на този сигнал.
- Spatial analysis. Група методи взаимствани от статистиката за анализ на пространствени данни – топология на местност, географски координати, геометрия на обекти. Източник на големи обеми от такива данни често са ГИС системите на крупни организации.
- Supervised learning. Методи базирани на технологиите за машинно обучение, които позволяват да бъдат открити функционални взаимовръзки в анализираните масиви от данни.
- Simulation. Моделирането на поведението на сложни системи често се използва за прогнозиране и изпробване на различни сценарии за целите на планирането.
- Time series analysis. Група методи взаимствани от статистиката и от теорията за обработка на цифрови сигнали. Използват се за анализ на повтарящи се във времето поредици от данни. Типични приложения – проследяване на пазара на ценни книжа, проследяване на броя пациенти с някакво заболяване и т.н.
- Unsupervised learning. Методи базирани на технологиите за машинно обучение, които позволяват да бъдат идентифицирани скрити функционални взаимовръзки в анализираните масиви от данни. Тези методи имат общи черти с Cluster Analysis.
- Visualization. Методи за графично представяне на резултатите от анализи на “големи данни” във вид на диаграми или анимирани изображения с цел опростяване на интерпретацията и по-лесно разбиране на получените резултати.
В следващия брой на списание CIO очаквайте втората част на тази статия, в която ще разкажем как ИТ директорите от различни организации извличат ползи от Big Data технологиите и с какви предизвикателства е свързано тяхното внедряване.

ОПЕРАЦИОННИ СИСТЕМИ - СЪЩНОСТ И ФУНКЦИИ


Uploaded on authorSTREAM by Tarzen