Е. Н. Живицкая
↑ | Оглавление | ||
← | Лекция 12, «Языки описания выбора» | Лекция 14, «Групповой выбор» | → |
Существует класс задач выбора, особенностью которых является наличие неопределенности даже после того, как проведена серия наблюдений, измерений. Дело в том, что данные, полученные в результате эксперимента, связаны с интересующим нас аспектом явления не непосредственно, не однозначно, а в совокупности с другими, неконтролируемыми факторами.
Пусть, например, требуется знать высокоточное значение веса некоторого предмета. Неоднократное его взвешивание на аналитических весах дает хотя и близкие, но разные значения. На показания весов оказывают внимание не только вес самого предмета, но и трение, не идеальность геометрической формы опорной призмы, воздушная турбулентность, тепловой режим и пр. При радиолокационном зондировании Луны мы будем так же за каждым разом получать различные расстояния до нее, чему имеется множество причин.
Аналогичная ситуация — выбор в условиях статистической неопределенности — имеет место не только при оценке некоторой величины, но и при классификации объектов, при необходимости подобрать математическую модель явления, или обнаружить некую закономерность и пр.
Во всех таких задачах есть общее — необходимость выбора на основании косвенных или прямых, но обязательно «зашумленных» данных. Основным, центральным, самым важным предположением для формализации решения таких задач является предположение о статистичности экспериментальных данных. Оно состоит в том, что связь между истинной, но неизвестной искомой альтернативойw и наблюдаемыми данными x1,x2,...,xN адекватно описывается распределением вероятностей F(x1,x2,...,xN) или плотностью вероятностей f(x1,x2,...,xN). Считается, что любая закономерность w, отыскиваемая в протоколе наблюдений, принадлежит множеству W возможных закономерностей, на котором и надо сделать выбор. Другими словами, считается, что:
Вопрос состоит в том, как извлечь эту информацию, т.е. как сделать выбор на множестве W или как принять статистическое решение.
Рассмотрим общие черты для задач выбора в условиях статистической неопределенности. Обстоятельства принятия статистических решений иллюстрирует схема, приведенная на рисунке:
Рис.13.1 — Общая схема принятия статистических решений
На этой схеме точкой w W изображено то, нам не известно, но необходимо определить ; W — множество всех предполагаемых возможностей относительно w. Точкой х Х изображена выборка (протокол наблюдений)
x = (x1,...,xN); Х — множество всех возможных выборок. Тот факт, что на реализовавшееся значение выборки оказывает влияние не только искомая закономерность w, но и совокупность случайных факторов, изображен на схеме как результат совместного отображения w и некоторого случайного воздействия n в пространство Х с помощью некоторого оператора m: х = m(w,n). Зная х, мы должны сделать выбор относительно w, принять решение, какую из множества альтернатив W мы примем за истинную. Чтобы не путать принимаемое решение и «истинное» состояние w, обозначим пространство, на котором производится выбор, через Г. Очевидно, что в Г входят все элементы множества W, но могут быть и дополнительные решения (типа отказа от выбора, увеличить число наблюдений и др.). Процедура выбора изображена как действие некоторого оператораd над выборкой х: каждой выборке х этот оператор, называемый решающей функцией, ставит в соответствие решение g = d(x,i). Здесь аргумент i введен,
Итак, и проблема синтеза статистических процедур (построения решающих функций), и проблема анализа их качества (оценивание степени близости между g и w) тесно связаны с ролью априорной информации.
Определим конкретнее, что именно в статистике понимается под априорной информацией. В нее включают любые сведения, имеющиеся до того, как мы приступили к синтезу новой процедуры d, в том числе и любую информацию о природе наблюдений (но не саму выборку х, считающуюся информацией апостериорной). Конкретнее априорные сведения характеризуют:
Априорная информация может быть более или менее полной; в зависимости от этого по-разному ставятся и решаются статистические задачи выбора. Можно даже утверждать, что разным уровням априорной информации соответствуют различные специфические ветви математической статистики.
Самое полное описание случайного объекта состоит в задании распределения вероятностей на множестве возможных состояний этого объекта. Поэтому наиболее подробное и полное задание априорной информации состоит в том, что считаются известными:
Такой уровень априорной информации соответствует байесову направлению статистики (Т.Байес — известный английский статистик). Среднее значение потерь, связанное с конкретным алгоритмом g обработки наблюдений х, называемое байесовым риском R, принимается за меру качества этого алгоритма. Оптимальная в этом случае процедура g 5* (также называемая байесовой) и считается наилучшим решением задачи:
?,
?.
Наибольшее количество споров относительно байесовых задач вызывала необходимость задавать априорное распределение P(W). В конце концов было признано, что могут существовать и другие уровни априорной информации, для которых требуется создание своих методов синтеза процедур.
Следующим уровнем стал отказ от необходимости знать P(W). На этом уровне в синтезе алгоритмов участвует только информация о семействе функций F(x2W). Оказалось, что если подставить в функцию плотности f(x) выборочные значения x1, ..., xN, и рассматривать ее зависимость от w, то такая зависимость L(w2x1,...,xN) = f(x1,...,xN) обладает замечательными свойствами, из-за которых ее и назвали функцией правдоподобия. Например, если w — неизвестный числовой параметр распределения, то:
wмп = arg max L(w2x1, ..., xN)
является очень хорошей оценкой рассматриваемого параметра. Этот метод оценивания называется методом максимального правдоподобия. В том случае, когда по выборке x1,...,xN следует принять решение в пользу одной из конкурирующих гипотез Ho и H1, т.е. решить — это выборка из распределения с плотностью f(x2Ho) или f(x2H1), лучшей процедурой является вычисление отношения правдоподобия f(x1,..,xN2H1)/ f(x1,...,xN2Ho)
выбор гипотезы H1, если это отношение превышает заданный порог, и гипотезы Ho, если ниже его.
Априорное знание функции F(x) не всегда достижимо, и возникает вопрос, как осуществить выбор, если F(x) неизвестно. Если оставаться в рамках параметрических моделей, то можно снова рассмотреть класс распределений и воспользоваться минимаксной методикой. Подобные алгоритмы также используются в статистике и дают хорошие результаты в рамках принятых предположений.
Надо отметить, что переходя с одного уровня априорной информации на другой, отказываясь от учета недоступной информации, получают в общем случае решения все более «низкого» качества. Байесовы процедуры лучше процедур правдоподобия, которые, в свою очередь, обычно лучше непараметрических.
Мы с вами уже наблюдали, что любой вариант задачи выбора сопряжен со сложностями, парадоксами и «ловушками», когда теоретические методы применяются на практике. Неудачное или неправильное применение статистических методов к решению реальных проблем дало повод к появлению довольно зловещей шутки: «Есть три вида лжи — просто ложь, наглая ложь и статистика». Причины неправильного применения статистических методов немногочисленны, и их знание совершенно необходимо. Рассмотрим перечень условий, связанных с отрицательными последствиями использования статистических решений, т.е. своего рода «инструкцию по технике статистической безопасности».
Если «действительный» уровень априорной информации не очень ясен, то полезно обработать данные несколькими способами. Расхождение выводов должно стать сигналом к поиску причин расхождения. Поучителен пример из реальной жизни : непараметрическая процедура классификации была «обучена» распознавать нефтяные слои от водяных по географическим данным одного месторождения. Внедренная на другом месторождении нефти программа стала давать слишком большие вероятности ошибок распознавания в следствие изменения свойств априорный информации.
Причиной необоснованных претензий к статистике может служить неверная содержательная интерпретация правильного статистического вывода.
Можно привести много примеров парадоксальных выводов, сделанных из статистических наблюдений. Одно из статистических исследований прошлого века установило, что здоровье людей, носящих котелки, значимо лучше здоровья людей в кепках. В другом случае оказалось, что главным фактором, влияющим на различие в урожайности клевера в соседних деревнях, было... число старых дев. Очевидно, что таким выводам можно придать совершенно разный смысл: интерпретация зависимостей лежит вне статистики. Кстати, оказалось, что английские старые девы держат по нескольку кошек, а мыши любят разорять гнезда шмелей — основных опылителей клевера.
Несмотря на все предосторожности, как и в любой практической деятельности, в статистической практике возможны нарушения правил безопасности и неизбежны связанные с эти потери. Возможно именно поэтому одна крупная фирма, поставляющая программную систему для статистического анализа на ЭВМ, включила в договор поставки пункт о том, что «фирма не несет ответственности за возможный ущерб от использования данной системы».
Неопределенность в статистических задачах имеет «двухэтажную» природу. Наблюдаемые данные подчинены конкретному вероятностному распределению, и связанная с этим распределением неопределенность образует «первый этаж». Имеется и другая неопределенность — относительно того, какое же именно распределение из некоторого множества порождало экспериментальные данные. Эту-то вторую неопределенность и требуется снять, осуществив выбор на данном множестве альтернативных распределений. Алгоритм такого выбора самого распределения (или значения некоторого его признака) называется статистической процедурой. При использовании статистических выводов требуется знание и соблюдение правил «статистической безопасности».
↑ | Оглавление | ||
← | Лекция 12, «Языки описания выбора» | Лекция 14, «Групповой выбор» | → |
© Виктор Сафронов, 2006–2017
Пользовательское соглашение | RSS | Поддержать проект | Благодарности