Информационные системы - статьи




Потоки данных в WWW


На протяжении нескольких десятилетий при анализе моделей, возникающих в теории вычислительных систем, исследователи привыкли считать входные потоки пуассоновскими, а распределения длин заявок кспоненциальными. Такие предположения позволяют строить марковский процесс и получать аналитические результаты, которые носят если и не предсказательный, то хотя бы объясняющий характер. Разумеется, когда в первой половине 90-х годов специалисты занялись моделированием столь сложной структуры, как Всемирная паутина, не мог не возникнуть вопрос, насколько эти предположения близки к реальности. Основополагающей явилась работа [9], авторы которой показали, что потоки в Web описываются не пуассоновскими, а иными законами распределения тяжелым хвостомeavy-tailed) или степенными.

Такие распределения описываются зависимостью Pr(X>x)~x-a, 0<a<2, Pr(X>x) ероятность превышения случайной величиной аданного числа Для подобного распределения характерно бесконечное значение дисперсии, а при a<1 бесконечное математическое ожидание. Кроме того, оказывается, что большая часть загрузки приходится на очень малую часть (<1%) линныхнтервалов.

Типичными примерами распределения с яжелым хвостомвляются распределения Парето и Вейбулла. Приведем оценки параметра a для некоторых характеристик, подчиняющихся распределению Парето (меньшее значение параметра соответствует большей выраженности свойств случайной величины):

  • размеры файлов, передаваемых по протоколу HTTP: 1,1<a<1,3;
  • размеры файлов, передаваемых по протоколу FTP: 0,9<a<1,1.

    Авторы работы [5] собрали статистику по множеству запрашиваемых файлов (могут запрашиваться многократно), множеству передаваемых с сервера файлов (не обнаруженные в кэше и повторные файлы), множеству уникальных файлов. На ее основании был сделан вывод, что размеры файлов в каждом из множеств хорошо описываются распределением Парето. Более полная классификация статистических данных приведена в [2], где введено понятие инвариантов, т.е. характеристик, отражающих особенности некоторой целостной совокупности данных в Web:




    Содержание  Назад  Вперед