Лекции и учебные пособия по системному анализу

Системный анализ

«Основы теории систем и системного анализа»

Г. И. Корнилов

Оглавление    
Глава 1, «Особенности системного подхода к решению задач управления» Глава 3, «Этапы системного анализа»

2. Основные понятия математической статистики

2.1 Случайные события и величины, их основные характеристики

Как уже говорилось, при анализе больших систем наполнителем каналов связи между элементами, подсистемами и системы в целом могут быть:

  • продукция, т. е. реальные, физически ощутимые предметы с заранее заданным способом их количественного и качественного описания;
  • деньги, с единственным способом описания — суммой;
  • информация, в виде сообщений о событиях в системе и значениях описывающих ее поведение величин.

Начнем с того, что обратим внимание на тесную (системную!) связь показателей продукции и денег с информацией об этих показателях. Если рассматривать некоторую физическую величину, скажем — количество проданных за день образ­цов продукции, то сведения об этой величине после продажи могут быть получены без проблем и достаточно точно или достоверно. Но, уже должно быть ясно, что при системном анализе нас куда больше интересует будущее — а сколько этой продукции будет продано за день? Этот вопрос совсем не праздный — наша цель управлять, а по об­разному выражению «управлять — значит предвидеть».

Итак, без предварительной информации, знаний о количественных показателях в системе нам не обой­тись. Величины, которые могут принимать различные значения в зависимости от внешних по отношению к ним условий, принято называть случайными (стохастичными по природе). Так, например: пол встреченного нами человека может быть женским или мужским (дискретная случайная величина); его рост также может быть различным, но это уже непрерывная случайная величина — с тем или иным количеством возможных значений (в зависимости от единицы измерения).

Для случайных величин (далее — СВ) приходится использовать особые, статистические методы их описания. В зависимости от типа самой СВ — дискретная или непрерывная это делается по разному.

Дискретное описание заключается в том, что указываются все возможные значения данной величины (например — 7 цветов обычного спектра) и для каждой из них указывается вероятность или частота наблюдений именного этого значения при бесконечно большом числе всех наблюдений.

Можно доказать (и это давно сделано), что при увеличении числа наблюдений в определенных усло­виях за значениями некоторой дискретной величины частота повторений данного значения будет все больше приближаться к некоторому фиксированному значению — которое и есть вероятность этого значения.

К понятию вероятности значения дискретной СВ можно подойти и иным путем — через случайные собы­тия. Это наиболее простое понятие в теории вероятностей и математической статистике — событие с вероятностью 0.5 или 50% в 50 случаях из 100 может произойти или не произойти, если же его вероятность более 0.5 — оно чаще происходит, чем не происходит. События с вероятностью 1 называют достоверными, а с вероятностью 0 — невозможными.

Отсюда про­стое правило: для случайного события X вероятности P(X) (событие происходит) и P(X) (событие не происходит), в сумме для простого события дают 1.

Если мы наблюдаем за сложным событием — например, выпадением чисел 1..6 на верхней грани игральной кости, то можно считать, что такое событие имеет множество исходов и для каждого из них вероятность составляет 1/6 при симметрии кости.

Если же кость несимметрична, то вероятности отдельных чисел будут разными, но сумма их равна 1.

Стоит только рассматривать итог бросания кости как дискретную случайную величину и мы придем к понятию распределения вероятностей такой величины.

Пусть в результате достаточно большого числа наблюдений за игрой с помощью одной и той же кости мы получили следующие данные:

Грани 1 2 3 4 5 6 Итого
Наблюдения 140 80 200 400 100 80 1000

Таблица 2.1

Подобную таблицу наблюдений за СВ часто называют выборочным распределением, а соответствующую ей картинку (диаграмму) — гистограммой.

Пример гистограммы выборочного распределения

Рис. 2.1

Какую же информацию несет такая табличка или соответствующая ей гистограмма?

Прежде всего, всю — так как иногда и таких данных о значениях случайной величины нет и их приходится либо добывать (эксперимент, моделирование), либо считать исходы такого сложного события равновероятными — по на любой из исходов.

С другой стороны — очень мало, особенно в цифровом, численном описании СВ. Как, например, ответить на вопрос: — а сколько в среднем мы выигрываем за одно бросание кости, если выигрыш соответствует выпавшему числу на грани?

Нетрудно сосчитать:

1 • 0.140 + 2 • 0.080 + 3 • 0.200 + 4 • 0.400 + 5 • 0.100 + 6 • 0.080 = 3.48

То, что мы вычислили, называется средним значением случайной величины, если нас интересует прошлое.

Если же мы поставим вопрос иначе — оценить по этим данным наш будущий выигрыш, то ответ 3.48 принято называть математическим ожиданием случайной величины, которое в общем случае определяется как

  Mx = ∑ Xi • P(Xi) {2.1}

где P(Xi) — вероятность того, что X примет свое iе очередное значение.

Таким образом, математическое ожидание случайной величины (как дискретной, так и непрерывной)— это то, к чему стремится ее среднее значение при достаточно большом числе наблюдений.

Обращаясь к нашему примеру, можно заметить, что кость несимметрична, в противном случае вероятности составляли бы по 1/6 каждая, а среднее и математическое ожидание составило бы 3.5.

Поэтому уместен следующий вопрос — а какова степень асимметрии кости — как ее оценить по итогам наблюдений?

Для этой цели используется специальная величина — мера рассеяния — так же как мы «усредняли» допустимые значения СВ, можно усреднить ее отклонения от среднего. Но так как разности (Xi − Mx) всегда будут компенсировать друг друга, то приходится усреднять не отклонения от среднего, а квадраты этих отклонений. Величину

  Dx = ∑ (Xi − Mx)2 • P(Xi) {2.2}

принято называть дисперсией случайной величины X.

Вычисление дисперсии намного упрощается, если воспользоваться выражением

  Dx = ∑ Xi2 • P(Xi) − Mx2 {2.3}

т. е. вычислять дисперсию случайной величины через усредненную разность квадратов ее значений и квадрат ее среднего значения.

Выполним такое вычисление для случайной величины с распределением рис. 1.

Грани (X) 1 2 3 4 5 6 Итого
X2 1 4 9 16 25 36  
Pi 0.140 0.080 0.200 0.400 0.100 0.080 1.000
Pi • X2 • 1000 140 320 1800 6400 2500 2880 14040

Таблица 2.2

Таким образом, дисперсия составит 14.04 − 3.482 = 1.930.

Заметим, что размерность дисперсии не совпадает с размерностью самой СВ и это не позволяет оценить величину разброса. Поэтому чаще всего вместо дисперсии используется квадратный корень из ее значения — т. н. среднеквадратичное отклонение или отклонение от среднего значения:

  Sx = √ Dx {2.4}

составляющее в нашем случае = 1.389. Много это или мало?

Сообразим, что в случае наблюдения только одного из возможных значений (разброса нет) среднее было бы равно именно этому значению, а дисперсия составила бы 0. И наоборот — если бы все значения наблюдались одинаково часто (были бы равновероятными), то среднее значение составило бы (1 + 2 + 3 + 4 + 5 + 6) / 6 = 3.500; усредненный квадрат отклонения — (1 + 4 + 9 + 16 + 25 + 36) / 6 = 15.167; а дисперсия 15.167 − 12.25 = 2.917.

Таким образом, наибольшее рассеяние значений СВ имеет место при ее равновероятном или равномерном распределении.

Отметим, что значения Mx и Sx являются размерными и их абсолютные значения мало что говорят. Поэтому часто для грубой оценки «случайности» данной СВ используют т. н. коэффициент вариации или отношение корня квадратного из дисперсии к величине математического ожидания:

  Vx = Sx / Mx {2.5}

В нашем примере эта величина составит 1.389 / 3.48 = 0.399.

Итак, запомним, что неслучайная, детерминированная величина имеет математическое ожидание равное ей самой, нулевую дисперсию и нулевой коэффициент вариации, в то время как равномерно распределенная СВ имеет максимальную дисперсию и максимальный коэффициент вариации.

В ряде ситуаций приходится иметь дело с непрерывно распределенными СВ — весами, расстояниями и т. п. Для них идея оценки среднего значения (математического ожидания) и меры рассеяния (дисперсии) остается той же, что и для дискретных СВ. Приходится только вместо соответствующих сумм вычислять интегралы. Второе отличие — для непрерывной СВ вопрос о том какова вероятность принятия нею конкретного значения обычно не имеет смысла — как проверить, что вес товара составляет точно 242 кг — не больше и не меньше?

Для всех СВ — дискретных и непрерывно распределенных, имеет очень большой смысл вопрос о диапазоне значений. В самом деле, иногда знание вероятности того события, что случайная величина не превзойдет заданный рубеж, является единственным способом использовать имеющуюся информацию для системного анализа и системного подхода к управлению. Правило определения вероятности попадания в диапазон очень просто — надо просуммировать вероятности отдельных дискретных значений диапазона или проинтегрировать кривую распределения на этом диапазоне.

2.2 Взаимосвязи случайных событий

Вернемся теперь к вопросу о случайных событиях. Здесь методически удобнее рассматривать вначале простые события (может произойти или не произойти). Вероятность события X будем обозначать P(X) и иметь ввиду, что вероятность того, что событие не произойдет, составляет

  P(X) = 1 − P(X) {2.6}

Самое важное при рассмотрении нескольких случайных событий (тем более в сложных системах с развитыми связями между элементами и подсистемами) — это понимание способа определения вероятности одновременного наступления нескольких событий или, короче, — совмещения событий.

Рассмотрим простейший пример двух событий X и Y, вероятности которых составляют P(X) и P(Y). Здесь важен лишь один вопрос — это события независимые или, наоборот взаимозависимые и тогда какова мера связи между ними? Попробуем разобраться в этом вопросе на основании здравого смысла.

Оценим вначале вероятность одновременного наступления двух независимых событий. Элементарные рассуждения приведут нас к выводу: если события независимы, то при 80%-й вероятности X и 20%-й вероятности Y одновременное их наступление имеет вероятность всего лишь 0.8 • 0.2 = 0.16 или 16%.

Итак — вероятность наступления двух независимых событий определяется произведением их вероятностей:

  P(XY) = P(X) • P(Y) {2.7}

Перейдем теперь к событиям зависимым. Будем называть вероятность события X при условии, что событие Y уже произошло условной вероятностью P(X/Y), считая при этом P(X) безусловной или полной вероятностью. Столь же простые рассуждения приводят к так называемой формуле Байеса:

  P(X/Y) • P(Y) = P(Y/X) • P(X) {2.8}

где слева и справа записано одно и то же — вероятности одновременного наступления двух «зависимых» или коррелированных событий.

Дополним эту формулу общим выражением безусловной вероятности события X:

  P(X) = P(X/Y) • P(Y) + P(X/Y) • P(Y) {2.9}

означающей, что данное событие X может произойти либо после того как событие Y произошло, либо после того, как оно не произошло (Y) — третьего не дано!

Формулы Байеса или т. н. байесовский подход к оценке вероятностных связей для простых событий и дискретно распределенных СВ играют решающую роль в теории принятия решений в условиях неопределенности последствий этих решений или в условиях противодействия со стороны природы, или других больших систем (конкуренции). В этих условиях ключевой является стратегия управления, основанная на прогнозе т. н. апостериорной (послеопытной) вероятности события

  P(X/Y) = P(Y/X) • P(X) / P(Y) {2.10}

Прежде всего, еще раз отметим взаимную связь событий X и Y — если одно не зависит от другого, то данная формула обращается в тривиальное тождество. Кстати, это обстоятельство используется при решении задач оценки тесноты связей — корреляционном анализе. Если же взаимосвязь событий имеет место, то формула Байеса позволяет вести управление путем оценки вероятности достижения некоторой цели на основе наблюдений над процессом функционирования системы — путем перерасчета вариантов стратегий с учетом изменившихся представлений, т. е. новых значений вероятностей.

Дело в том, что любая стратегия управления будет строиться на базе определенных представлений о вероятности событий в системе — и на первых шагах эти вероятности будут взяты «из головы» или в лучшем случае из опыта управления другими системами. Но по мере «жизни» системы нельзя упускать из виду возможность «коррекции» управления — использования всего накапливаемого опыта.

2.3 Схемы случайных событий и законы распределений случайных величин

Большую роль в теории и практике системного анализа играют некоторые стандартные распределения непрерывных и дискретных СВ.

Эти распределения иногда называют «теоретическими», поскольку для них разработаны методы расчета всех показателей распределения, зафиксированы связи между ними, построены алгоритмы расчета и т. п.

Таких, классических законов распределений достаточно много, хотя «штат» их за последние 30..50 лет практически не пополнился. Необходимость знакомства с этими распределениями для специалистов вашего профиля объясняется тем, что все они соответствуют некоторым «теоретическим» схемам случайных (большей частью — элементарных) событий.

Как уже отмечалось, наличие больших массивов взаимосвязанных событий и обилие случайных величин в системах экономики приводит к трудностям априорной оценки законов распределений этих событий или величин. Пусть, к примеру, мы каким-то образом установили математическое ожидание спроса некоторого товара. Но этого мало — надо хотя бы оценить степень колебания этого спроса, ответить на вопрос — а какова вероятность того, что он будет лежать в таких-то пределах? Вот если бы установить факт принадлежности данной случайной величины к такому классическому распределению как т. н. нормальное, то тогда задача оценки диапазона, доверия к нему (доверительных интервалов) была бы решена безо всяких проблем.

Доказано, например, что с вероятностью более 95% случайная величина X с нормальным законом распределения лежит в диапазоне — математическое ожидание Mx плюс/минус три среднеквадратичных отклонения Sx.

Так вот — все дело в том к какой из схем случайных событий классического образца ближе всего схема функционирования элементов вашей большой системы. Простой пример — надо оценить показатели оплаты за услуги предоставления времени на междугородние переговоры — например, найти вероятность того, что за 1 минуту осуществляется ровно N переговоров, если заранее известно среднее число поступающих в минуту заказов. Оказывается, что схема таких случайных событий прекрасно укладывается в т. н. распределение Пуассона для дискретных случайных величин. Этому распределению подчинены почти все дискретные величины, связанные с так называемыми «редкими» событиями.

Далеко не всегда математическая оболочка классического закона распределения достаточно проста. Напротив — чаще всего это сложный математический аппарат со своими, специфическими приемами. Но дело не в этом, тем более при «повальной» компьютеризации всех областей деятельности человека. Разумеется, нет необходимости знать в деталях свойства всех или хоть какой-то части классических распределений — достаточно иметь в виду саму возможность воспользоваться ими.

Из личного опыта — очень давно, в докомпьютерную эру автору этих строк удалось предложить метод оценки степени надежности энергоснабжения, найти по сути дела игровой метод принятия решения о необходимости затрат на резервирование линий электропередач в условиях неопределенности — игры с природой.

Таким образом, при системном подходе к решению той или иной задачи управления (в том числе и экономического) надо очень взвешено отнестись к выбору элементов системы или отдельных системных операций. Не всегда «укрупнение показателей» обеспечит логическую стройность структуры системы — надо понимать, что заметить близость схемы событий в данной системе к схеме классической чаще всего удается на самом «элементарном» уровне системного анализа.

Завершая вопрос о распределении случайных величин обратим внимание на еще одно важное обстоятельство: даже если нам достаточно одного единственного показателя — математического ожидания данной случайной величины, то и в этом случае возникает вопрос о надежности данных об этом показателя.

В самом деле, пусть нам дано т. н. выборочное распределение случайной величины X (например — ежедневной выручки в $) в виде 100 наблюдений за этой величиной. Пусть мы рассчитали среднее Mx и оно составило $125 при колебаниях от $50 до $200. Попутно мы нашли Sx, равное $5. Теперь уместен вопрос: а насколько правдоподобным будет утверждение о том, что в последующие дни выручка составит точно $125? Или будет лежать в интервале $120..$130? Или окажется более некоторой суммы — например, $90?

Вопросы такого типа чрезвычайно остры — если это всего лишь элемент некоторой экономической системы (один из многих), то выводы на финише системного анализа, их достоверность, конечно же, зависят от ответов на такие вопросы.

Что же говорит теория, отвечая на эти вопросы? С одной стороны очень много, но в некоторых случаях — почти ничего. Так, если у вас есть уверенность в том, что «теоретическое» распределение данной случайной величины относится к некоторому классическому (т. е. полностью описанному в теории) типу, то можно получить достаточно много полезного.

  • С помощью теории можно найти доверительные интервалы для данной случайной величины. Если, например, уже доказано (точнее — принята гипотеза) о нормальном распределении, то зная среднеквадратичное отклонение можно с уверенностью в 5% считать, что окажется вне диапазона (Mx − 3 • Sx)......(Mx + 3 • Sx) или в нашем примере выручка с вероятностью 0.05 будет < $90 или > $140. Надо смириться со своеобразностью теоретического вывода — утверждается не тот факт, что выручка составит от 90 до 140 (с вероятностью 95%), а только то, что сказано выше.
  • Если у нас нет теоретических оснований принять какое либо классическое распределение в качестве подходящего для нашей СВ, то и здесь теория окажет нам услугу — позволит проверить гипотезу о таком распределении на основании имеющихся у нас данных. Правда — исчерпывающего ответа «Да» или «Нет» ждать нечего. Можно лишь получить вероятность ошибиться, отбросив верную гипотезу (ошибка 1 рода) или вероятность ошибиться приняв ложную (ошибка 2 рода).
  • Даже такие «обтекаемые» теоретические выводы в сильной степени зависят от объема выборки (количества наблюдений), а также от «чистоты эксперимента» — условий его проведения.

2.4 Методы непараметрической статистики

Использование классических распределений случайных величин обычно называют «параметрической статистикой» — мы делаем предположение о том, что интересующая нас СВ (дискретная или непрерывная) имеет вероятности, вычисляемые по некоторым формулам или алгоритмам. Однако не всегда у нас имеются основания для этого. Причин тому чаще всего две:

  • некоторые случайные величины просто не имеют количественного описания, обоснованных единиц измерения (уровень знаний, качество продукции и т. п.);
  • наблюдения над величинами возможны, но их количество слишком мало для проверки предположения (гипотезы) о типе распределения.

В настоящее время в прикладной статистике все большей популярностью пользуются методы т. н. непараметрической статистики — когда вопрос о принадлежности распределения вероятностей данной величины к тому или иному классу вообще не подымается, но конечно же — задача оценки самой СВ, получения информации о ней, остается.

Одним из основных понятий непараметрической статистики является понятие ШКАЛЫ или процедуры шкалирования значений СВ. По своему смыслу процедура шкалирования суть решение вопроса о «единицах измерения» СВ. Принято использовать четыре вида шкал:

  • номинальную шкалу Nom;
  • порядковую шкалу Ord;
  • интервальную шкалу Int;
  • относительную шкалу Rel.

Nom. Первой из них рассмотрим НОМИНАЛЬНУЮ шкалу — применяемую к тем величинам, которые не имеют природной единицы измерения. Если некоторая величина может принимать на своей номинальной шкале значения X, Y или Z, то справедливыми считаются только выражения типа: (X#Y), (X#Z), (X=Z), а выражения типа (X > Y), (X < Z), (X + Z) не имеют никакого смысла. Примеры СВ, к которым применимы только номинальные шкалы — пол, цвет, марка автомобиля и т. п.

Ord. Второй способ шкалирования — использование ПОРЯДКОВЫХ шкал. Они незаменимы для СВ, не имеющих природных единиц измерения, но позволяющих применять понятия предпочтения одного значения другому. Типичный пример: оценки знаний (даже при нечисловом описании), служебные уровни и т. п.; для таких величин разрешены не только отношения равенства (= или #), но и знаки предпочтения (> или <). Иногда говорят о рангах значений таких величин.

Int & Rel. Еще два способа шкалирования используются для СВ, имеющих натуральные размерности — это ИНТЕРВАЛЬНАЯ и ОТНОСИТЕЛЬНАЯ шкала. Для таких величин, кроме отношений равенства и предпочтения, допустимы операции сравнения — т. е. все четыре действия арифметики. Главная особенность таких шкал заключается в том, что разность двух значений на шкале (36 и 12) имеет один смысл для любого места шкалы (28 и 4). Различие между интервальной шкалой и относительной — только в понятии нуля — на интервальной шкале 0 Кг веса означает отсутствие веса, а на относительной шкале температур 0 градусов не означает отсутствие теплоты — поскольку возможны температуры ниже 0 градусов (Цельсия).

Можно теперь заметить еще одно преимущество, которое мы получаем при использовании методов непараметрической статистики — если мы сталкиваемся со случайной величиной непрерывной природы, то использование интервальной или относительной шкалы позволит нам иметь дело не со случайными величинами, а со случайными событиями — типа «вероятность того, что вес продукции находится в интервале 17 Кг». Поэтому можно предложить единый подход к описанию всех показателей функционирования сложной системы — описание на уровне простых случайных событий (с вероятностью P(X) может произойти событие X). При том под событием придется понимать то, что случайная величина займет одно из допустимых для нее положений на шкале Nom, Ord, Int или Rel.

Конечно — такой, «микроскопический» подход резко увеличивает объем информации, необходимой для системного анализа. Частично этот недостаток смягчается при использовании компьютерных методов системного анализа, но более важно другое — преимущество на начальных этапах анализа, когда решаются вопросы дезинтеграции большой системы (выделение отдельных ее элементов) и последующей ее интеграции для разработки стратегии управления системой.

Не будет большим преувеличением считать, что методы непараметрической статистики — наиболее мощное средство для решения задач системного анализа во многих областях деятельности человека и, в частности, в экономике.

2.5 Корреляция случайных величин

Прямое токование термина корреляция — стохастическая, вероятная, возможная связь между двумя (парная) или несколькими (множественная) случайными величинами.

Выше говорилось о том, что если для двух СВ (X и Y) имеет место равенство P(XY) = P(X) • P(Y), то величины X и Y считаются независимыми. Ну, а если это не так!?

Ведь всегда важен вопрос — а как сильно зависит одна СВ от другой? И дело в не присущем людям стремлении анализировать что-либо обязательно в числовом измерении. Уже понятно, что системный анализ означает непрерывные вычисления, что использование компьютера вынуждает нас работать с числами, а не понятиями.

Для числовой оценки возможной связи между двумя случайными величинами: Y (со средним My и среднеквадратичным отклонением Sy) и — X (со средним Mx и среднеквадратичным отклонением Sx) принято использовать так называемый коэффициент корреляции

  Rxy = [∑ (Xi − Mx) • (Yi − My)] / [n • Sx • Sy] {2.11}

Этот коэффициент может принимать значения от −1 до +1 — в зависимости от тесноты связи между данными случайными величинами.

Если коэффициент корреляции равен нулю, то X и Y называют некоррелированными. Считать их независимыми обычно нет оснований — оказывается, что существуют такие, как правило — нелинейные связи величин, при которых Rxy = 0, хотя величины зависят друг от друга. Обратное всегда верно — если величины независимы, то Rxy = 0. Но, если модуль Rxy = 1, то есть все основания предполагать наличие линейной связи между Y и X. Именно поэтому часто говорят о линейной корреляции при использовании такого способа оценки связи между СВ.

Отметим еще один способ оценки корреляционной связи двух случайных величин — если просуммировать произведения отклонений каждой из них от своего среднего значения, то полученную величину:

Сxy = ∑ (X − Mx) • (Y − My)

или ковариацию величин X и Y отличает от коэффициента корреляции два показателя: во-первых, усреднение (деление на число наблюдений или пар X, Y) и, во-вторых, нормирование путем деления на соответствующие среднеквадратичные отклонения.

Такая оценка связей между случайными величинами в сложной системе является одним из начальных этапов системного анализа, поэтому уже здесь во всей остроте встает вопрос о доверии к выводу о наличии или отсутствии связей между двумя СВ.

В современных методах системного анализа обычно поступают так. По найденному значению R вычисляют вспомогательную величину:

  W = 0.5 • Ln[(1 + R) / (1 − R)] {2.12}

и вопрос о доверии к коэффициенту корреляции сводят к доверительным интервалам для случайной величины W, которые определяются стандартными таблицами или формулами.

В отдельных случаях системного анализа приходится решать вопрос о связях нескольких (более 2) случайных величин или вопрос о множественной корреляции.

Пусть X, Y и Z — случайные величины, по наблюдениям над которыми мы установили их средние Mx, My,Mz и среднеквадратичные отклонения Sx, Sy, Sz.

Тогда можно найти парные коэффициенты корреляции Rxy, Rxz, Ryz по приведенной выше формуле. Но этого явно недостаточно — ведь мы на каждом из трех этапов попросту забывали о наличии третьей случайной величины! Поэтому в случаях множественного корреляционного анализа иногда требуется отыскивать т. н. частные коэффициенты корреляции — например, оценка виляния Z на связь между X и Y производится с помощью коэффициента

  Rxy,z = (Rxy − Rxz • Ryz) / √ [(1 − Rxz2) • (1 − Ryz2)] {2.13}

И, наконец, можно поставить вопрос — а какова связь между данной СВ и совокупностью остальных? Ответ на такие вопросы дают коэффициенты множественной корреляции Rx,yz, Ry,zx, Rz,xy, формулы для вычисления которых построены по тем же принципам — учету связи одной из величин со всеми остальными в совокупности.

На сложности вычислений всех описанных показателей корреляционных связей можно не обращать особого внимания — программы для их расчета достаточно просты и имеются в готовом виде во многих ППП современных компьютеров.

Достаточно понять главное — если при формальном описании элемента сложной системы, совокупности таких элементов в виде подсистемы или, наконец, системы в целом, мы рассматриваем связи между отдельными ее частями, — то степень тесноты этой связи в виде влияния одной СВ на другую можно и нужно оценивать на уровне корреляции.

В заключение заметим еще одно — во всех случаях системного анализа на корреляционном уровне обе случайные величины при парной корреляции или все при множественной считаются «равноправными» — т. е. речь идет о взаимном влиянии СВ друг на друга.

Так бывает далеко не всегда — очень часто вопрос о связях Y и X ставится в иной плоскости — одна из величин является зависимой (функцией) от другой (аргумента).

2.6 Линейная регрессия

В тех случаях, когда из природы процессов в системе или из данных наблюдений над ней следует вывод о нормальном законе распределения двух СВ — Y и X, из которых одна является независимой, т. е. Y является функцией X, то возникает соблазн определить такую зависимость «формульно», аналитически.

В случае успеха нам будет намного проще вести системный анализ — особенно для элементов системы типа «вход-выход». Конечно, наиболее заманчивой является перспектива линейной зависимости типа Y = a + b*X.

Подобная задача носит название задачи регрессионного анализа и предполагает следующий способ решения.

Выдвигается следующая гипотеза:

H0: случайная величина Y при фиксированном значении величины X распределена нормально с математическим ожиданием

  My = a + b • X, {2.14}

и дисперсией Dy, не зависящей от X.

При наличии результатов наблюдений над парами Xi и Yi предварительно вычисляются средние значения My и Mx, а затем производится оценка коэффициента b в виде:

  b = ∑ (Xi &minus Mx) • (Yi − My) / ∑ (Xi &minus Mx)2 = Rxy • Sy / Sx, {2.15}

что следует из определения коэффициента корреляции {2.11}.

После этого вычисляется оценка для a в виде:

  a = My − b • Mx, {2.16}

и производится проверка значимости полученных результатов. Таким образом, регрессионный анализ является мощным, хотя и далеко не всегда допустимым расширением корреляционного анализа, решая всё ту же задачу оценки связей в сложной системе.

2.7 Элементы теории статистических решений

Что такое — статистическое решение? В качестве простейшего примера рассмотрим ситуацию, в которой вам предлагают сыграть в такую игру:

  • вам заплатят 2 доллара, если подброшенная монета упадет вверх гербом;
  • вы заплатите 1 доллар, если она упадет гербом вниз.

Скорее всего, вы согласитесь сыграть, хотя понимаете степень риска. Вы сознаете, «знаете» о равновероятности появления герба и «вычисляете» свой выигрыш 0.5 • 1 − 0.5 • 1 = +$0.5.

Усложним игру — вы видите, что монета несколько изогнута и возможно будет падать чаще одной из сторон. Теперь решение играть или не играть по-прежнему зависит от вероятности выигрыша, которая не может быть заранее (по латыни — apriori) принята равной 0.5.

Человек, знакомый со статистикой, попытается оценить эту вероятность с помощью опытов, если конечно они возможны и стоят не очень дорого. Немедленно возникает вопрос — сколько таких бросаний вам будет достаточно?

Пусть с вас причитается 5 центов за одно экспериментальное бросание, а ставки в игре составляют $2000 против $1000. Скорее всего, вы согласитесь сыграть, заплатив сравнительно небольшую сумму за 100..200 экспериментальных бросков. Вы, наверное, будете вести подсчет удачных падений и, если их число составит 20 из 100, прекратите эксперимент и сыграете на ставку $2000 против $1000, так как ожидаемый выигрыш оценивается в 0.8 • 2000 + 0.2 • 1000 − 100 • 0.05 = $1795.

В приведенных примерах главным для принятия решения была вероятность благоприятного исхода падения монетки. В первом случае — априорная вероятность, а во втором — апостериорная. Такую информацию принято называть данными о состоянии природы.

Приведенные примеры имеют самое непосредственное отношение к существу нашего предмета. В самом деле — при системном управлении приходится принимать решения в условиях, когда последствия таких решений заранее достоверно неизвестны. При этом вопрос: играть или не играть — не стоит! «Играть» надо, надо управлять системой. Вы спросите — а как же запрет на эксперименты? Ответ можно дать такой — само поведение системы в обычном ее состоянии может рассматриваться как эксперимент, из которого при правильной организации сбора и обработки информации о поведении системы можно ожидать получения данных для выяснения особенности системного подхода к решению задач управления.

Оглавление    
Глава 1, «Особенности системного подхода к решению задач управления» Глава 3, «Этапы системного анализа»


Система Orphus

Яндекс.Метрика