Тау кендалла корреляции уровень значимости таблица. Ранговая корреляция и коэффициент ранговой корреляции кендалла. Решение этих двух уравнений дает

Одним из факторов, ограничивающих применения критериев, основанных на предположении нормальности, является объем выборки. До тех пор пока выборка достаточно большая (например, 100 или больше наблюдений), можно считать, что выборочное распределение нормально, даже если вы не уверены, что распределение переменной в популяции является нормальным. Тем не менее, если выборка мала, эти критерии следует использовать только при наличии уверенности, что переменная действительно имеет нормальное распределение. Однако нет способа проверить это предположение на малой выборке.

Использование критериев, основанных на предположении нормальности, кроме того, ограничено шкалой измерений (см. главу Элементарные понятия анализа данных). Такие статистические методы, как t-критерий, регрессия и т. д. предполагают, что исходные данные непрерывны. Однако имеются ситуации, когда данные, скорее, просто ранжированы (измерены в порядковой шкале), чем измерены точно.

Типичный пример дают рейтинги сайтов в Интернет: первую позицию занимает сайт с максимальным числом посетителей, вторую позицию занимает сайт с максимальным числом посетителей среди оставшихся сайтов (среди сайтов, из которых удален первый сайт) и т. д. Зная рейтинги, мы можем сказать, что число посетителей одного сайта больше числа посетителей другого, но насколько больше, сказать уже нельзя. Представьте, вы имеете 5 сайтов: А, В, С, D, Е, которые располагаются на 5 первых мест. Пусть в текущем месяце мы имели следующую расстановку: А, В, С, D, E, а в предыдущем месяце: D, E, А, В, С. Спрашивается, произошли существенные изменения в рейтингах сайтов или нет? В данной ситуации, очевидно, мы не можем использовать t-критерий, чтобы сравнить эти две группы данных, и переходим в область специфических вероятностных вычислений (а любой статистический критерий содержит в себе вероятностную калькуляцию!). Мы рассуждаем примерно следующим образом: насколько велика вероятность того, что отличие в двух расстановках сайтов вызвано чисто случайными причинами или это отличие слишком велико и не может быть объяснено за счет чистой случайности. В этих рассуждениях мы используем лишь ранги или перестановки сайтов и никак не используем конкретный вид распределения числа посетителей на них.

Для анализа малых выборок и для данных, измеренных в бедных шкалах, применяют непараметрические методы.

Краткий обзор непараметрических процедур

По существу, для каждого параметрического критерия имеется, по крайней мере, одна непараметрическая альтернатива.

В общем, эти процедуры попадают в одну из следующих категорий:

  • критерии различия для независимых выборок;
  • критерии различия для зависимых выборок;
  • оценка степени зависимости между переменными.

Вообще, подход к статистическим критериям в анализе данных должен быть прагматическим и не отягощен лишними теоретическими рассуждениями. Имея в своем распоряжении компьютер с системой STATISTICA, вы легко примените к своим данным несколько критериев. Зная о некоторых подводных камнях методов, вы путем экспериментирования выберете верное решение. Развитие сюжета довольно естественно: если нужно сравнить значения двух переменных, то вы используете t-критерий. Однако следует помнить, что он основан на предположении нормальности и равенстве дисперсий в каждой группе. Освобождение от этих предположений приводит к непараметрическим тестам, которые особенно полезны для малых выборок.

Развитие t-критерия приводит к дисперсионному анализу, который используется, когда число сравниваемых групп больше двух. Соответствующее развитие непараметрических процедур приводит к непараметрическому дисперсионному анализу, правда, существенно более бедному, чем классический дисперсионный анализ.

Для оценки зависимости, или, выражаясь несколько высокопарно, степени тесноты связи, вычисляют коэффициент корреляции Пирсона. Строго говоря, его применение имеет ограничения, связанные, например, с типом шкалы, в которой измерены данные, и нелинейностью зависимости, поэтому в качестве альтернативы используются также непараметрические, или так называемые ранговые, коэффициенты корреляции, применяемые, например, для ранжированных данных. Если данные измерены в номинальной шкале, то их естественно представлять в таблицах сопряженности, в которых используется критерий хи-квадрат Пирсона с различными вариациями и поправками на точность.

Итак, по существу имеется всего несколько типов критериев и процедур, которые нужно знать и уметь использовать в зависимости от специфики данных. Вам нужно определить, какой критерий следует применять в конкретной ситуации.

Непараметрические методы наиболее приемлемы, когда объем выборок мал. Если данных много (например, n >100), часто не имеет смысла использовать непараметрическую статистику.

Если размер выборки очень мал (например, n = 10 или меньше), то уровни значимости для тех непараметрических критериев, которые используют нормальное приближение, можно рассматривать только как грубые оценки.

Различия между независимыми группами . Если имеются две выборки (например, мужчины и женщины), которые нужно сравнить относительно некоторого среднего значения, например, среднего давления или количества лейкоцитов в крови, то можно использовать t-тест для независимых выборок.

Непараметрическими альтернативами этому тесту являются критерий серий Валъда-Волъфовица, Манна-Уитни }/n, где x i - i-е значение, n - число наблюдений. Если переменная содержит отрицательные значения или нуль (0), геометрическое среднее вычислить нельзя.

Гармоническое среднее

Гармоническое среднее иногда используют для усреднения частот. Гармоническое среднее вычисляется по формуле: ГС = n/S(1/х i) где ГС - гармоническое среднее, n - число наблюдений, х i - значение наблюдения с номером i. Если переменная содержит нуль (0), гармоническое среднее вычислить нельзя.

Дисперсия и стандартное отклонение

Выборочная дисперсия и стандартное отклонение - наиболее часто используемые меры изменчивости (вариации) данных. Дисперсия вычисляется как сумма квадратов отклонений значений переменной от выборочного среднего, деленная на п-1 (но не на п). Стандартное отклонение вычисляется как корень квадратный из оценки дисперсии.

Размах

Размах переменной является показателем изменчивости, вычисляется как максимум минус минимум.

Квартильный размах

Квартальный размах, по определению, равен: верхняя квартиль минус нижняя квартиль (75% процентиль минус 25% процентиль). Так как 75% процентиль (верхняя квартиль) - это значение, слева от которого находятся 75% наблюдений, а 25% процентиль (нижняя квартиль) - это значение, слева от которого находится 25% наблюдении, то квартильный размах представляет собой интервал вокруг медианы, который содержит 50% наблюдений (значений переменной).

Асимметрия

Асимметрия - это характеристика формы распределения. Распределение скошено влево, если значение асимметрии отрицательно. Распределение скошено вправо, если асимметрия положительна. Асимметрия стандартного нормального распределения равна 0. Асимметрия связана с третьим моментом и определяется как: асимметрия = n × М 3 /[(n-1) × (n-2) × s 3 ], где М 3 равно: (х i -xсреднее x) 3 , s 3 - стандартное отклонение, возведенное в третью степень, n - число наблюдений.

Эксцесс

Эксцесс - это характеристика формы распределения, а именно мера остроты его пика (относительно нормального распределения, эксцесс которого равен 0). Как правило, распределения с более острым пиком, чем у нормального, имеют положительный эксцесс; распределения, пик которых менее острый, чем пик нормального распределения, имеют отрицательный эксцесс. Эксцесс связан с четвертым моментом и определяется формулой:

эксцесс = /[(n-1) × (n-2) × (n-3) × s 4 ], где M j равно: (х-хсреднее x , s 4 - стандартное отклонение в четвертой степени, n - число наблюдений.

Ранговый коэффициент корреляции характеризует общий характер нелинейной зависимости: возрастание или убывание результативного признака при возрастании факторного. Это показатель тесноты монотонной нелинейной связи.

Назначение сервиса . С помощью данного онлайн-калькулятора производится расчет коэффициента ранговой корреляции Кендэла по всем основным формулам, а также оценка его значимости.

Инструкция . Укажите количество данных (количество строк). Полученное решение сохраняется в файле Word .

Предложенный Кендэлом коэффициент строится на основе отношений типа «больше –меньше», справедливость которых установлена при построении шкал.
Выделим пару объектов и сравним их ранги по одному признаку и по другому. Если по данному признаку ранги образуют прямой порядок (т.е. порядок натурального ряда), то паре приписывается +1, если обратный, то –1. Для выделенной пары соответствующие плюс – минус единицы (по признаку X и по признаку Y) перемножаются. Результат, очевидно, равен +1; если ранги пары обоих признаков расположены в одинаковой последовательности, и –1 , если в обратной.
Если порядки рангов по обоим признакам у всех пар одинаковы, то сумма единиц, приписанных всем парам объектов, максимальна и равна числу пар. Если порядки рангов всех пар обратны, то –C 2 N . В общем случае C 2 N = P + Q, где P – число положительных, а Q – отрицательных единиц, приписанных парам при сопоставлении их рангов по обоим признакам.
Величина называется коэффициентом Кендалла.
Из формулы видно, что коэффициент τ представляет собой разность доли пар объектов, у которых совпадает порядок по обоим признакам (по отношению к числу всех пар) и доли пар объектов, у которых порядок не совпадает .
Например, значение коэффициента 0,60 означает, что у 80% пар порядок объектов совпадает, а у 20% не совпадает (80% + 20% = 100%; 0,80 – 0,20 = 0,60). Т.е. τ можно трактовать как разность вероятностей совпадения и не совпадения порядков по обоим признакам для наугад выбранной пары объектов.
В общем случае расчет τ (точнее Р или Q) даже для N порядка 10 оказывается громоздким.
Покажем, как упростить вычисления.


Пример . Зависимость между объемом промышленной продукции и инвестициями в основной капитал по 10 областям одного из федеральных округов РФ в 2003 году характеризуется следующими данными:


Вычислите ранговые коэффициенты корреляции Спирмена и Кендэла. Проверить их значимость при α=0,05. Сформулируйте вывод о зависимости между объемом промышленной продукции и инвестициями в основной капитал по рассматриваемым областям РФ.

Решение . Присвоим ранги признаку Y и фактору X.


Упорядочим данные по X.
В ряду Y справа от 3 расположено 7 рангов, превосходящих 3, следовательно, 3 породит в Р слагаемое 7.
Справа от 1 стоят 8 ранга, превосходящих 1 (это 2, 4, 6, 9, 5, 10, 7, 8), т.е. в Р войдет 8 и т.д. В итоге Р = 37 и с использованием формул имеем:

X Y ранг X, d x ранг Y, d y P Q
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


По упрощенным формулам:




где n - объем выборки; z kp - критическая точка двусторонней критической области, которую находят по таблице функции Лапласа по равенству Ф(z kp)=(1-α)/2.
Если |τ| < T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| > T kp - нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреляционная связь.
Найдем критическую точку z kp
Ф(z kp) = (1-α)/2 = (1 - 0.05)/2 = 0.475

Найдем критическую точку:

Так как τ > T kp - отвергаем нулевую гипотезу; ранговая корреляционная связь между оценками по двум тестам значимая.

Пример . По данным об объеме строительно-монтажных работ, выполненных собственными силами, и численности работающих в 10 строительных компаниях одного из городов РФ, определить зависимость между этими признаками с помощью коэффициента Кендела.

Решение находим с помощью калькулятора .
Присвоим ранги признаку Y и фактору X.
Расположим объекты так, чтобы их ранги по X представили натуральный ряд. Так как оценки, приписываемые каждой паре этого ряда, положительные, значения «+1», входящие в Р, будут порождаться только теми парами, ранги которых по Y образуют прямой порядок.
Их легко подсчитать, сопоставляя последовательно ранги каждого объекта в ряду Y с стальными.
Коэффициент Кендэла .

В общем случае расчет τ (точнее Р или Q) даже для N порядка 10 оказывается громоздким. Покажем, как упростить вычисления.

или

Решение .
Упорядочим данные по X.
В ряду Y справа от 2 расположено 8 рангов, превосходящих 2, следовательно, 2 породит в Р слагаемое 8.
Справа от 4 стоят 6 ранга, превосходящих 4 (это 7, 5, 6, 8, 9, 10), т.е. в Р войдет 6 и т.д. В итоге Р = 29 и с использованием формул имеем:

X Y ранг X, d x ранг Y, d y P Q
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


По упрощенным формулам:


Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента ранговой корреляции Кендалла при конкурирующей гипотезе Н 1: τ ≠ 0,надо вычислить критическую точку:

где n - объем выборки; z kp - критическая точка двусторонней критической области, которую находят по таблице функции Лапласа по равенству Ф(z kp)=(1 - α)/2.
Если |τ| T kp - нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреляционная связь.
Найдем критическую точку z kp
Ф(z kp) = (1 - α)/2 = (1 - 0.05)/2 = 0.475
По таблице Лапласа находим z kp = 1.96
Найдем критическую точку:

Так как τ

Потребности экономической и социальной практики требуют разработки методов количественного описания процессов, позволяющих точно регистрировать не только количественные, но и качественные факторы. При условии, что значения качественных признаков могут быть упорядочены, или проранжированы по степени убывания (возрастания) признака, возможно оценить тесноту связи между качественными признаками. Под качественным подразумевается признак, который невозможно измерить точно, но он позволяет сравнивать объекты между собой и, следовательно, расположить их в порядке убывания или возрастания качества. И реальным содержанием измерений в ранговых шкалах является тот порядок, в котором выстраиваются объекты по степени выраженности измеряемого признака.

В практических целях использование ранговой корреляции весьма полезно. Например, если установлена высокая ранговая корреляция между двумя качественными признаками изделий, то достаточно контролировать изделия только по одному из признаков, что удешевляет и ускоряет контроль.

В качестве примера можно рассмотреть наличие связи между обеспеченностью товарной продукцией ряда предприятий и накладными расходами по реализации. В ходе 10 наблюдений получена следующая таблица:

Упорядочим значения X по возрастанию, при этом каждому значению поставим в соответствие его порядковый номер (ранг):

Таким образом,

Построим следующую таблицу, куда записываются пары X и Y, полученные в результате наблюдения со своими рангами:

Обозначая разность рангов как, запишем формулу вычисления выборочного коэффициента корреляции Спирмена:

где n - число наблюдений, оно же число пар рангов.

Коэффициент Спирмена обладает следующими свойствами:

Если между качественными признаками X и Y имеется полная прямая зависимость в том смысле, что ранги объектов совпадают при всех значениях i, то выборочный коэффициент корреляции Спирмена равен 1. Действительно, подставив в формулу, получим 1.

Если между качественными признаками X и Y имеется полная обратная зависимость в том смысле, что рангу соответствует ранг, то выборочный коэффициент корреляции Спирмена равен -1.

Действительно, если

Подставив значение в формулу коэффициента корреляции Спирмена, получим -1.

Если между качественными признаками нет ни полной прямой, ни полной обратной связи, то выборочный коэффициент корреляции Спирмена заключен между -1 и 1, причем чем ближе к 0 его значение, тем связь между признаками меньше.

По данным вышеприведенного примера найдем значение P, для этого достроим таблицу значениями и:

Выборочный коэффициент корреляции Кендалла. Можно оценивать связь между двумя качественными признаками, используя коэффициент ранговой корреляции Кендалла.

Пусть ранги объектов выборки объема n равны:

по признаку X:

по признаку Y: . Допустим, что правее имеется рангов, больших, правее имеется рангов, больших, правее имеется рангов, больших. Введем обозначение суммы рангов

Аналогично введем обозначение как сумму количества рангов, лежащих правее, но меньших.

Выборочный коэффициент корреляции Кендалла записывается формулой:

Где n - объем выборки.

Коэффициент Кендалла обладает теми же свойствами, что и коэффициент Спирмена:

Если между качественными признаками X и Y имеется полная прямая зависимость в том смысле, что ранги объектов совпадают при всех значениях i, то выборочный коэффициент корреляции Кендалла равен 1. Действительно, правее имеется n-1 рангов, больших, поэтому, таким же образом устанавливаем, что. Тогда. И коэффициент Кендалла равен: .

Если между качественными признаками X и Y имеется полная обратная зависимость в том смысле, что рангу соответствует ранг, то выборочный коэффициент корреляции Кендалла равен -1. Правее нет рангов, больших, поэтому. Аналогично. Подставляя значение R+=0 в формулу коэффициента Кендалла, получим -1.

При достаточно большом объме выборки и при значениях коэффициентов ранговой корреляции, не близких к 1, имеет место приближенное равенство:

Коэффициент Кендалла дает более осторожную оценку корреляции, чем коэффициент Спирмена? (числовое значение? всегда меньше, чем). Хотя вычисление коэффициента? менее трудоемко, чем вычисление коэффициента, последний легче пересчитать, если к ряду добавляется новый член.

Важное достоинство коэффициента состоит в том, что с его помощью можно определить коэффициент частной ранговой корреляции, позволяющий оценить степень "чистой" взаимосвязи двух ранговых признаков, устранив влияние третьего:

Значимость коэффициентов ранговой корреляции. При определении силы ранговой корреляции на основе выборочных данных необходимо рассмотреть следующий вопрос: с какой степенью надежности можно полагаться на заключение о том, что в генеральной совокупности существует корреляция, если получен некоторый выборочный коэффициент ранговой корреляции. Другими словами, следует проверить значимость наблюдавшихся корреляций рангов исходя из гипотезы о статистической независимости двух рассматриваемых ранжировок.

При сравнительно большом объеме n выборки проверка значимости коэффициентов ранговой корреляции может осуществляться с помощью таблицы нормального распределения (табл. 1 приложения). Для проверки значимости коэффициента Спирмена? (при n>20) вычисляют значение

а для проверки значимости коэффициента Кендалла? (при n>10) вычисляют значение

где S=R+- R-, n - объем выборки.

Далее задаются уровнем значимости?, определяют по таблице критических точек распределения Стьюдента критическое значение tкр(?,k) и сравнивают с ним вычисленное значение или. Число степеней свободы принимается k = n-2. Если или > tкр, то значения или признаются значимыми.

Коэффициент корреляции Фехнера.

Наконец, следует упомянуть коэффициент Фехнера, характеризующий элементарную степень тесноты связи, который целесообразно использовать для установления факта наличия связи, когда существует небольшой объем исходной информации. Основой его вычисления является учет направления отклонений от средней арифметической варианты каждого вариационного ряда и определение согласованности знаков этих отклонений для двух рядов, связь между которыми измеряется.

Данный коэффициент определяется по формуле:

где na - количество совпадений знаков отклонений индивидуальных величин от их средней арифметической; nb - соответственно количество несовпадений.

Коэффициент Фехнера может изменяться в пределах -1,0<= Кф<= +1,0.

Прикладные аспекты ранговой корреляции. Как уже отмечалось, коэффициенты ранговой корреляции могут использоваться не только для качественного анализа взаимосвязи двух ранговых признаков, но и при определении силы связи между ранговым и количественным признаками. В этом случае значения количественного признака упорядочиваются и им приписываются соответствующие ранги.

Существует ряд ситуации, когда вычисление коэффициентов ранговой корреляции целесообразно и при определении силы связи двух количественных признаков. Так, при существенном отклонении распределения одного из них (или обоих) от нормального распределения определение уровня значимости выборочного коэффициента корреляции r становится некорректным, в то время как ранговые коэффициенты? и? не сопряжены с такими ограничениями при определении уровня значимости.

Другая ситуация такого рода возникает, когда связь двух количественных признаков имеет нелинейный (но монотонный) характер. Если количество объектов в выборке невелико или если для исследователя существенен знак связи, то использование корреляционного отношения? может оказаться здесь неадекватным. Вычисление же коэффициента ранговой корреляции позволяет обойти указанные трудности.

Практическая часть

Задача 1. Корреляционно-регрессионный анализ

Постановка и формализация задачи:

Дана эмпирическая выборка, составленная на основе ряда наблюдений за состоянием оборудования (на предмет отказа) и количеством изготовленных изделий. Выборка неявно характеризует взаимосвязь между объемом отказавшего оборудования и количеством изготовленных изделий. По смыслу выборки видно, что изготовленные изделия производятся на оставшемся в строю оборудовании так как чем больше % отказавшего оборудования, тем меньше изготовленных изделий. Требуется провести исследование выборки на корреляционно-регрессионную зависимость, то есть установить форму зависимости, оценить функцию регрессии (регрессионный анализ), а также выявить связь между случайными переменными и оценить ее тесноту (корреляционный анализ). Дополнительной задачей корреляционного анализа является оценка уравнения регрессии одной переменной по другой. Кроме того, необходимо спрогнозировать количество выпущенных изделий при 30%-ном отказе оборудования.

Формализуем приведенную выборку в таблице, обозначив данные «Отказ оборудования, %» как X, данные «Количество изделий» как Y:

Исходные данные. Таблица 1

По физическому смыслу задачи видно, что количество выпущенных изделий Y напрямую зависит от % отказа оборудования, то есть налицо зависимость Y от X. При проведении регрессионного анализа требуется найти математическую зависимость (регрессию), связывающую величины X и Y. При этом регрессионный анализ, в отличие от корреляционного, предполагает, что величина X выступает как независимая переменная, или фактор, величина Y - как зависимая от нее, или результативный признак. Таким образом, требуется произвести синтезирование адекватной экономико-математической модели, т.е. определить (найти, подобрать) функцию Y = f(X), характеризующую зависимость между величинами X и Y, используя которую можно будет спрогнозировать значение Y при X = 30. Решение данной задачи может быть выполнено с помощью корреляционно-регрессионного анализа.

Краткий обзор методов решения корреляционно-регрессионных задач и обоснование выбираемого метода решения.

Методы регрессионного анализа по числу факторов, влияющих на результативный признак, подразделяются на одно- и многофакторные. Однофакторные - число независимых факторов = 1, т.е. Y = F(X)

многофакторный - число факторов > 1, т.е.

По числу исследуемых зависимых переменных (результативных признаков) регрессионные задачи также можно разделить на задачи с одним и многими результативными признаками. В общем виде задача с многими результативными признаками может быть записана:

Метод корреляционно-регрессионного анализа заключается в нахождении параметров аппроксимирующей(приближающей) зависимости вида

Поскольку в приведенной задаче фигурирует только одна независимая переменная, т. е. исследуется зависимость только от одного фактора, влияющего на результат, следует применить исследование на однофакторную зависимость, или парную регрессию.

При наличии только одного фактора зависимость определяется в виде:

Форма записи конкретного уравнения регрессии зависит от выбора функции, отображающей статистическую связь между фактором и результативным признаком и включает следующие:

линейная регрессия, уравнение вида,

параболическая, уравнение вида

кубическая, уравнение вида

гиперболическая, уравнение вида

полулогарифмическая, уравнение вида

показательная, уравнение вида

степенная, уравнение вида.

Нахождение функции сводится к определению параметров регрессионного уравнения и оценке достоверности самого уравнения. Для определения параметров можно использовать как метод наименьших квадратов, так и метод наименьших модулей.

Первый из них заключается в том, чтобы сумма квадратов отклонений эмпирических значений Yi от рассчитанных средних Yi, была минимальной.

Метод наименьших модулей заключается в минимизации суммы модулей разности эмпирических значений Yi и рассчитанных средних Yi.

Для решения задачи выберем метод наименьших квадратов, как наиболее простой и дающий хорошие по статистическим свойствам оценки.

Технология решения задачи регрессионного анализа с помощью метода наименьших квадратов.

Определить вид зависимости (линейная, квадратичная, кубическая и т.д.) между переменными можно с помощью оценки величины отклонения фактического значения y от расчетного:

где - эмпирические значения, - расчетные значения по аппроксимирующей функции. Оценивая значения Si для различных функций и выбирая наименьшее из них, подбираем аппроксимирующую функцию.

Вид той или иной функции определяется с помощью нахождения коэффициентов, которые находятся для каждой функции как решения определенной системы уравнений:

линейная регрессия, уравнение вида, система -

параболическая, уравнение вида, система -

кубическая, уравнение вида, система -

Решив систему, находим, с помощью которых приходим к конкретному выражению аналитической функции, имея которую, находим расчетные значения. Далее есть все данные для нахождения оценки величины отклонения S и анализа на минимум.

Для линейной зависимости оцениваем тесноту связи между фактором X и результативным признаком Y в виде коэффициента корреляции r:

Среднее значение показателя;

Среднее значение фактора;

y - экспериментальное значение показателя;

x - экспериментальное значение фактора;

Среднеквадратическое отклонение по х;

Среднеквадратическое отклонение по y.

Если коэффициент корреляции r = 0, то считают, что связь между признаками незначительна либо отсутствует, если r = 1, то между признаками существует весьма высокая функциональная связь.

Используя таблицу Чеддока, можно провести качественную оценку тесноты корреляционной связи между признаками:

Таблица Чеддока Таблица 2.

Для нелинейной зависимости определяется корреляционное отношение (0 1) и индекс корреляции R, которые вычисляются по следующим зависимостям.

где значение - значение показателя, вычисленное по регрессионной зависимости.

В качестве оценки точности вычислений используем величину средней относительной ошибки аппроксимации

При высокой точности лежит в пределах 0-12%.

Для оценки подбора функциональной зависимости используем коэффициент детерминации

Коэффициент детерминации используется как «обобщенная» мера качества подбора функциональной модели, поскольку он выражает соотношение между факторной и общей дисперсией, точнее долю факторной дисперсии в общей.

Для оценки значимости индекса корреляции R применяется F-критерий Фишера. Фактическое значение критерия определяется по формуле:

где m - число параметров уравнения регрессии, n - число наблюдений. Величина сравнивается с критическим значением, которое определяется по таблице F-критерия с учетом принятого уровня значимости и числа степеней свободы и. Если, то величина индекса корреляции R признается существенной.

Для выбранной формы регрессии вычисляются коэффициенты уравнения регрессии. Результаты вычислений для удобства включаются в таблицу следующей структуры (в общем виде, количество колонок и их вид меняются в зависимости от вида регрессии):

Таблица 3

Решение задачи.

Провелись наблюдения за экономическим явлением - зависимостью выпуска изделий от процента отказа оборудования. Получена совокупность значений.

Выбранные значения описаны в таблице 1.

Строим график эмпирической зависимости по приведенной выборке (рис. 1)

По виду графика определяем, что аналитическую зависимость можно представить в виде линейной функции:

Рассчитаем парный коэффициент корреляции для оценки взаимосвязи между X и Y:

Построим вспомогательную таблицу:

Таблица 4

Решаем систему уравнений для нахождения коэффициентов и:

из первого уравнения, подставляя значение

во второе уравнение, получим:

Находим

Получаем вид уравнения регрессии:

9. Для оценки тесноты найденной связи воспользуемся коэффициентом корреляции r:

По таблице Чеддока устанавливаем, что для r = 0.90 связь между X и Y весьма высокая, следовательно достоверность уравнения регрессии также высока. Для оценки точности вычислений используем величину средней относительной ошибки аппроксимации:

Считаем, что величина обеспечивает высокую степень достоверности уравнения регрессии.

Для линейной связи между X и Y индекс детерминации равен квадрату коэффициента корреляции r: . Следовательно, 81% общей вариации объясняется изменением факторного признака X.

Для оценки значимости индекса корреляции R, который в случае прямолинейной зависимости по абсолютной величине равен коэффициенту корреляции r, применяется F-критерий Фишера. Определяем фактическое значение по формуле:

где m - число параметров уравнения регрессии, n - число наблюдений. То есть n = 5, m = 2.

С учетом принятого уровня значимости =0,05 и числа степеней свободы и получаем критическое табличное значение. Поскольку, величина индекса корреляции R признается существенной.

Вычислим прогнозное значение Y при X = 30:

Построим график найденной функции:

11. Определяем ошибку коэффициента корреляции по величине среднеквадратичного отклонения

а затем определяем значение нормированного отклонения

Из соотношения > 2 с вероятностью 95% можно говорить о значимости полученного коэффициента корреляции.

Задача 2. Линейная оптимизация

Вариант 1.

Планом развития региона предполагается ввести в действие 3 нефтяных месторождения с суммарным объемом добычи равным 9 млн.т. На первом месторождении объем добычи составляет не менее 1 млн.т, на втором - 3 млн. т, на третьем - 5 млн.т. Для достижения такой производительности необходимо пробурить не менее 125 скважин. Для реализации данного плана выделено 25 млн. руб. капитальных вложений (показатель К) и 80 км труб (показатель L).

Требуется определить оптимальное (максимальное) количество скважин для обеспечения плановой производительности каждого месторождения. Исходные данные по задаче приведены в таблице.

Исходные данные

Постановка задачи приведена выше.

Формализуем заданные в задаче условия и ограничения. Целью решения данной оптимизационной задачи является нахождение максимального значения добычи нефти при оптимальном количестве скважин по каждому месторождению с учетом существующих ограничений по задаче.

Целевая функция в соответствии с требованиями задачи примет вид:

где - количество скважин по каждому месторождению.

Существующие ограничения по задаче на:

длину прокладки труб:

число скважин на каждом месторождении:

стоимость строительства 1 скважины:

Задачи линейной оптимизации решаются, например, следующими методами:

Графически

Симплекс-методом

Использование графического способа удобно только при решении задач линейной оптимизации с двумя переменными. При большем числе переменных необходимо применение алгебраического аппарата. Рассмотрим общий метод решения задач линейной оптимизации называемый симплекс-методом.

Симлекс-метод - это характерный пример итерационных вычислений, используемых при решении большинства оптимизационных задач. Рассматриваются итерационные процедуры такого рода, обеспечивающие решение задач с помощью моделей исследования операций.

Для решения оптимизационной задачи с помощью симплекс-метода необходимо чтобы число неизвестных Xi было больше числа уравнений, т.е. система уравнений

удовлетворяла отношению m

A=был равен m.

Обозначим столбца матрицы A как, а столбец свободных членов как

Базисным решением системы (1) называется набор из m неизвестных которые являются решением системы (1).

Кратко алгоритм симплекс-метода описывается следующим образом:

Исходное ограничение, записанное в виде неравенства типа <= (=>) , можно представить в виде равенства, прибавляя остаточную переменную к левой части ограничения (вычитая избыточную переменную из левой части) .

Например, в левую часть исходного ограничения

вводится остаточная переменная, в результате чего исходное неравенство обращается в равенство

Если исходное ограничение определяет расход труб, то переменную следует интерпретировать как остаток, или неиспользованную часть данного ресурса.

Максимизация целевой функции эквивалентна минимизации той же функции, взятой с противоположным знаком. То есть в нашем случае

эквивалентна

Составляется симплекс-таблица для базисного решения следующего вида:

В данной таблице обозначают, что после решения задачи в этих клетках будет стоять базисное решение. - частные от деления столбца на один из столбцов; - дополнительные множители обнуления значений в клетках таблицы, относящихся к разрешающему столбцу. - min значение целевой функции -Z, - значения коэффициентов в целевой функции при неизвестных.

Среди значений находят любое положительное. Если такого нет, то задача считается решенной. Выбирают любой столбец таблицы, в котором есть, этот столбец называется «разрешающим» столбцом. Если среди элементов разрешающего столбца нет положительных чисел, то задача неразрешима вследствие неограниченности целевой функции на множестве ее решений. Если положительные числа в разрешающем столбце присутствуют, переходят к пункту 5.

Столбец заполняется дробями, в числителе которых - элементы столбца, а в знаменателе - соответствующие элементы разрешающего столбца. Из всех значений выбирается наименьшее. Строка, в которой получилось наименьшееназывается «разрешающей» строкой. На пересечении разрешающей строки и разрешающего столбца находят разрешающий элемент, который выделяют каким-либо образом, например, цветом.

На основе первой симплекс-таблицы составляется следующая, в которой:

Заменяется вектор-строка на вектор-столбец

разрешающая строка заменяется этой же строкой, поделенной на разрешающий элемент

каждая из остальных строк таблицы заменяется на сумму этой строки с разрешающей, умноженной на специально подобранный дополнительный множитель с целью получения 0 в клетке разрешающего столбца.

С новой таблицей обращаемся у пункту 4.

Решение задачи.

Исходя из постановки задачи имеем следующую систему неравенств:

и целевую функцию

Преобразуем систему неравенств в систему уравнений, введя дополнительные переменные:

Целевую функцию приведем к ей эквивалентной:

Построим исходную симплекс-таблицу:

Выберем разрешающий столбец. Рассчитаем столбец:

Заносим значения в таблицу. По наименьшему из них = 10 определяем разрешающую строку: . На пересечении разрешающей строки и разрешающего столбца находим разрешающий элемент = 1. Заполняем часть таблицы дополнительными множителями, такими, что: помноженная на них разрешающая строка, добавленная к остальным строкам таблицы, образовывает 0-ли в элементах разрешающего столбца.

Составляем вторую симплекс-таблицу:

В ней разрешающим столбцом берем, вычисляем значения, заносим их в таблицу. По минимальному получаем разрешающую строку. Разрешающим элементом будет 1. Находим дополнительные множители, заполняем столбцы.

Составляем следующую симплекс-таблицу:

Аналогичным образом, находим разрешающий столбец, разрешающую строку и разрешающий элемент = 2. Строим следующую симплекс-таблицу:

Поскольку в строке -Z нет положительных значений, эта таблица является конечной. Первый столбец дает искомые значения неизвестных, т.е. оптимальное базисное решение:

При этом значение целевой функции -Z = -8000, что эквивалентно Zmax = 8000. Задача решена.

Задача 3. Кластерный анализ

Постановка задачи:

Провести разбиение объектов на основании данных, приведенных в таблице. Выбор метода решения провести самостоятельно, построить график зависимости данных.

Вариант 1.

Исходные данные

Обзор методов решения указанного типа задач. Обоснование метода решения.

Задачи кластерного анализа решаются с помощью следующих методов:

Объединение или метод древовидной кластеризации используется при формировании кластеров «несходства» или «расстояния между объектами». Эти расстояния могут определяться в одномерном или многомерном пространстве.

Двувходовое объединение используется (относительно редко) в обстоятельствах, когда данные интерпретируются не в терминах «объектов» и «свойств объектов», а в терминах наблюдений и переменных. Ожидается, что и наблюдения и переменные одновременно вносят вклад в обнаружение осмысленных кластеров.

Метод К-средних. Используется, когда уже имеется гипотеза относительно числа кластеров. Можно указать системе образовать ровно, например, три кластера так, чтобы они были настолько различны, насколько это возможно. В общем случае метод K-средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга.

Существуют следующие способы измерения расстояний:

Евклидово расстояние. Это наиболее общий тип расстояния. Оно попросту является геометрическим расстоянием в многомерном пространстве и вычисляется следующим образом:

Заметим, что евклидово расстояние (и его квадрат) вычисляется по исходным, а не по стандартизованным данным.

Расстояние городских кварталов (манхэттенское расстояние). Это расстояние является просто средним разностей по координатам. В большинстве случаев эта мера расстояния приводит к таким же результатам, как и для обычного расстояния Евклида. Однако отметим, что для этой меры влияние отдельных больших разностей (выбросов) уменьшается (так как они не возводятся в квадрат). Манхэттенское расстояние вычисляется по формуле:

Расстояние Чебышева. Это расстояние может оказаться полезным, когда желают определить два объекта как "различные", если они различаются по какой-либо одной координате (каким-либо одним измерением). Расстояние Чебышева вычисляется по формуле:

Степенное расстояние. Иногда желают прогрессивно увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются. Это может быть достигнуто с использованием степенного расстояния. Степенное расстояние вычисляется по формуле:

где r и p - параметры, определяемые пользователем. Несколько примеров вычислений могут показать, как "работает" эта мера. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r ответственен за прогрессивное взвешивание больших расстояний между объектами. Если оба параметра - r и p, равны двум, то это расстояние совпадает с расстоянием Евклида.

Процент несогласия. Эта мера используется в тех случаях, когда данные являются категориальными. Это расстояние вычисляется по формуле:

Для решения поставленной задачи выберем метод объединения (древовидной кластеризации) как наиболее отвечающий условиям и постановке задачи (провести разбиение объектов). В свою очередь метод объединения может использовать несколько вариантов правил связи:

Одиночная связь (метод ближайшего соседа). В этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. То есть любые два объекта в двух кластерах ближе друг к другу, чем соответствующее расстояние связи. Это правило должно, в известном смысле, нанизывать объекты вместе для формирования кластеров, и результирующие кластеры имеют тенденцию быть представленными длинными "цепочками".

Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями").

Существует также множество других методов объединения кластеров, подобных этим (например, невзвешенное попарное соединение, взвешенное попарное соединение и др.).

Технология метода решения. Расчет показателей.

На первом шаге, когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой.

Так как в задаче не обуславливаются единицы измерения признаков, подразумевается, что они совпадают. Следовательно, нет необходимости в нормировании исходных данных, поэтому сразу переходим к расчету матрицы расстояний.

Решение задачи.

Построим по исходным данным график зависимости (рис 2)

В качестве расстояния между объектами примем обычное евклидовое расстояние. Тогда согласно формуле:

где l - признаки; k - количество признаков, расстояние между объектами 1 и 2 равно:

Продолжаем расчет остальных расстояний:

Из полученных значений построим таблицу:

Наименьшее расстояние. Значит, элементы 3,6 и 5 объединяем в один кластер. Получим следующую таблицу:

Наименьшее расстояние. В один кластер объединяются элементы 3,6,5 и 4. Получаем таблицу из двух кластеров:

Минимальное расстояние между элементами 3 и 6 равно. Значит, элементы 3 и 6 объединяются в один кластер. Расстояние между вновь образованным кластером и остальными элементами выбираем максимальным. Например, расстояние между кластером 1 и кластером 3,6 равно max(13.34166, 13.60147)= 13.34166. Составим следующую таблицу:

В ней минимальное расстояние - это расстояние между кластерами 1 и 2. Объединяя 1 и 2 в один кластер, получаем:

Таким образом, методом «дальнего соседа» получили два кластера: 1,2 и 3,4,5,6 , расстояние между которыми равно 13,60147.

Задача решена.

Приложения. Решение задач с использованием пакетов прикладных программ (MS Excel 7.0)

Задача корреляционно-регрессионного анализа.

Заносим исходные данные в таблицу (рис. 1)

Выбираем меню «Сервис / Анализ данных». В появившемся окне выбираем строку «Регрессия» (рис.2).

Зададим в следующем окне входные интервалы по X и по Y, уровень надежности оставим 95%, а выходные данные поместим на отдельный лист «Лист отчета» (рис. 3)

После проведения расчета получаем на листе «Лист отчета» итоговые данные регрессионного анализа:

Здесь же выводится точечный график аппроксимирующей функции, или «График подбора»:


Расчетные значения и отклонения выведены в таблице в колонках «Предсказанное Y» и «Остатки» соответственно.

На основе исходных данных и отклонений строится график остатков:

Оптимизационная задача


Вносим исходные данные следующим образом:

Искомые неизвестные X1, X2, X3 заносим в ячейки С9, D9, E9 соответственно.

Коэффициенты целевой функции при X1, X2, X3 вносим в С7, D7, E7 соответственно.

Целевую функцию заносим в ячейку B11как формулу: =C7*C9+D7*D9+E7*E9.

Существующие ограничения по задаче

На длину прокладки труб:

вносим в ячейки С5, D5, E5, F5, G5

Число скважин на каждом месторождении:

X3 Ј 100; вносим в ячейки С8, D8, E8.

Стоимость строительства 1 скважины:

вносим в ячейки С6, D6, E6, F6, G6.

Формулу расчета общей протяженности C5*C9+D5*D9+E5*E9 помещаем в ячейку В5, формулу расчета общей стоимости C6*C9+D6*D9+E6*E9 помещаем в ячейке B6.


Выбираем в меню «Сервис/ Поиск решения», вносим параметры для поиска решения в соответствии с заведенными исходными данными (рис. 4):

По кнопке «Параметры» задаем следующие параметры поиска решения (рис. 5):


После выполнения поиска решения получаем отчет по результатам:

Microsoft Excel 8.0e Отчет по результатам

Отчет создан: 11/17/2002 1:28:30 AM

Целевая ячейка (Максимум)

Результат

Общая добыча

Изменяемые ячейки

Результат

Количество скважин

Количество скважин

Количество скважин

Ограничения

Значение

Протяженность

Связанное

Стоимость проекта

не связан.

Количество скважин

не связан.

Количество скважин

Связанное

Количество скважин

Связанное

В первой таблице приводится исходное и окончательное (оптимальное) значение целевой ячейки, в которую поместили целевую функцию решаемой задачи. Во второй таблице видим исходные и окончательные значения оптимизируемых переменных, которые содержатся в изменяемых ячейках. Третья таблица отчета по результатам содержит информацию об ограничениях. В столбце «Значение» помещены оптимальные значения потребных ресурсов и оптимизируемых переменных. Столбец «Формула» содержит ограничения на потребляемые ресурсы и оптимизируемые переменные, записанные в форме ссылок на ячейки, содержащие эти данные. Столбец «Состояние» определяет связанными или несвязанными являются те или другие ограничения. Здесь «связанные» - это ограничения, реализуемые в оптимальном решении в виде жестких равенств. Столбец «Разница» для ресурсных ограничений определяет остаток используемых ресурсов, т.е. разность между потребным количеством ресурсов и их наличием.

Аналогично, записав результат поиска решения в форме «Отчет по устойчивости», получим следующие таблицы:

Microsoft Excel 8.0e Отчет по устойчивости

Рабочий лист: [Решение задачи оптимизации.xls]Решение задачи по опт-ии добычи

Отчет создан: 11/17/2002 1:35:16 AM

Изменяемые ячейки

Допустимое

Допустимое

значение

стоимость

Коэффициент

Увеличение

Уменьшение

Количество скважин

Количество скважин

Количество скважин

Ограничения

Ограничение

Допустимое

Допустимое

значение

Правая часть

Увеличение

Уменьшение

Протяженность

Стоимость проекта

Отчет по устойчивости содержит информацию об изменяемых (оптимизируемых) переменных и ограничениях модели. Указанная информация связана с используемым при оптимизации линейных задач симплекс-методом, описанному выше в части решения задачи. Она позволяет оценить, насколько чувствительным является полученное оптимальное решение к возможным изменениям параметров модели.

Первая часть отчета содержит информацию об изменяемых ячейках, содержащих значения о количестве скважин на месторождениях. В столбце «Результирующее значение» указываются оптимальные значения оптимизируемых переменных. В столбце «Целевой коэффициент» помещаются исходные данные значения коэффициентов целевой функции. В следующих двух колонках иллюстрируется допустимое увеличение и уменьшение этих коэффициентов без изменения найденного оптимального решения.

Вторая часть отчета по устойчивости содержит информацию по ограничениям, накладываемым на оптимизируемые переменные. В первом столбце указываются данные о потребности в ресурсах для оптимального решения. Второй содержит значения теневых цен на используемые виды ресурсов. В последних двух колонках помещены данные о возможном увеличении или уменьшении объемов имеющихся ресурсов.

Задача кластеризации.

Пошаговый метод решения задачи приведен выше. Приведем здесь Excel-таблицы, иллюстрирующие ход решения задачи:

«метод ближайшего соседа»

Решение задачи кластерного анализа - "МЕТОД БЛИЖАЙШЕГО СОСЕДА"

Исходные данные

где х1 - объем выпускаемой продукции;

х2 - среднегодовая стоимость основных

Промышленно-производственных фондов

«метод дальнего соседа»

Решение задачи кластерного анализа - "МЕТОД ДАЛЬНЕГО СОСЕДА"

Исходные данные

где х1 - объем выпускаемой продукции;

х2 - среднегодовая стоимость основных

Промышленно-производственных фондов

Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показателя X выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя Y и рассчитывают коэффициент корреляции Кендалла:

где S = P Q .

P большим значением рангов Y.

Q - суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов Y. (равные ранги не учитываются!)

Если исследуемые данные повторяются (имеют одинаковые ранги), то в расчетах используется скорректированный коэффициент корреляции Кендалла:

t - число связанных рангов в ряду X и Y соответственно.

19.Из чего следует исходить, определяя тему, объект, предмет, цель, задачи и гипотезу исследования?

Программа исследования, как правило, имеет два раздела: методологический и процедурный. Первый включает обоснование актуальности темы, формулировку проблемы, определение объекта и предмета, целей и задач исследования, формулировку основных понятий (категориального аппарата), предварительный системный анализ объекта исследования и выдвижение рабочей гипотезы. Во втором разделе раскрывается стратегический план исследования, а также план и основные процедуры сбора и анализа первичных данных.

В первую очередь при выборе темы исследования надо исходить из актуальности. Обоснование актуальности включает указание на необходимость и своевременность изучения и решения проблемы для дальнейшего развития теории и практики обучения и воспитания. Актуальные исследования дают ответ на наиболее острые в данное время вопросы, отражают социальный заказ общества педагогической науке, обнаруживают важнейшие противоречия, которые имеют место в практике. Критерий актуальности динамичен, подвижен, зависит от времени, учета конкретных и специфических обстоятельств. В самом общем виде актуальность характеризует степень расхождения между спросом на научные идеи и практические рекомендации (для удовлетворения той или иной потребности) и предложениями, которые может дать наука и практика в настоящее время.

Наиболее убедительным основанием, определяющим тему исследования, является социальный заказ, отражающий самые острые, общественно значимые проблемы, требующие безотлагательного решения. Социальный заказ требует обоснования конкретной темы. Обычно это анализ степени разработанности вопроса в науке.

Если социальный заказ вытекает из анализа педагогической практики, то саманаучная проблема находится в другой плоскости. Она выражает основное противоречие, которое должно быть разрешено средствами науки. Решение проблемы обычно и составляет цель исследования. Цель - переформулированная проблема.

Формулировка проблемы влечет за собой выбор объекта исследования. Им может быть педагогический процесс, область педагогической действительности или какое-либо педагогическое отношение, содержащее в себе противоречие. Другими словами, объектом может быть все то, что явно или неявно содержит в себе противоречие и порождает проблемную ситуацию. Объект - это то, на что направлен процесс познания. Предмет исследования - часть, сторона объекта. Это те наиболее значимые с практической или теоретической точки зрения свойства, стороны, особенности объекта, которые подлежат непосредственному изучению.

В соответствии с целью, объектом и предметом исследования определяются исследовательские задачи, которые, как правило, направлены на проверку гипотезы. Последняя представляет собой совокупность теоретически обоснованных предположений, истинность которых подлежит проверке.

Критерий научной новизны применим для оценки качества завершенных исследований. Он характеризует новые теоретические и практические выводы, закономерности образования, его структуру и механизмы, содержание, принципы и технологии, которые к данному моменту времени не были известны и не зафиксированы в педагогической литературе. Новизна исследования может иметь как теоретическое, так и практическое значение. Теоретическое значение исследования заключается в создании концепции, получении гипотезы, закономерности, метода, модели выявления проблемы, тенденции, направления. Практическая значимость исследования состоит в подготовке предложений, рекомендаций и т.п. Критерии новизны, теоретической и практической значимости меняются в зависимости от типа исследования, они зависят также от времени получения нового знания.

При ранжировании эксперт должен расположить оцениваемые элементы в порядке возрастания (убывания) их предпочтительности и приписать каждому из них ранги в виде натураль­ных чисел. При прямом ранжировании наиболее предпочтительный элемент имеет ранг 1 (иногда 0), а наименее предпочтительный - ранг m.

Если эксперт не может осуществить строгое ранжирование из-за того, что, по его мнению, некоторые элементы одинаковы по предпочтительности, то допускается присваивать таким элементам одинаковые ранги. Чтобы обеспечить равенство суммы рангов сумме мест ранжируемых элементов, применяют так называемые стандарти­зированные ранги. Стандартизированный ранг есть среднее арифмети­ческое номеров элементов в ранжиро­ванном ряду, являющихся одинако­выми по предпочтительности.

Пример 2.6. Эксперт упорядочил шесть элементов по предпочтению следующим образом:

Тогда стандартизированные ранги этих элементов будут

Таким образом, сумма рангов, приписанных элементам, будет равна сумме чисел натурального ряда.

Точность выражения предпочтения путем ранжирования элементов существенно зависит от мощности мно­жества предъявлений. Процедура ранжирования дает наиболее надежные результаты (по степени близости выявленного предпочтения и «истинного»), когда число оцениваемых элементов не более 10. Предельная мощность множества предъявления не должна превосходить 20.

Обработка и анализ ранжировок проводятся с целью построения группового отношения предпочтения на основе индивидуальных предпочтений. При этом могут ставиться следующие задачи: а) определение тесноты связи между ранжировками двух экспертов на элементах множества предъявлений; б) определение взаимосвязи между двумя элементами по индивидуальным мнениям членов группы относительно различных характеристик этих элементов; в) оценка согласованности мне­ний экспертов в группе, содержа­щей более двух экспертов.

В первых двух случаях в качестве меры тесноты связи используется коэффициент ранговой корреляции. В за­висимости от того, допускается ли только строгое или нестрогое ранжи­рование, используется коэффициент ранговой корреляции либо Кендалла, либо Спирмена.

Коэффициент ранговой корреляции Кендалла для задачи (a)

где m − число элементов; r 1 i – ранг,приписанный первым экспертом i −му элементу; r 2 i – то же, вторым экспертом.

Для задачи (б) компоненты (2.5) имеют следующий смысл: т - число характеристик двух оцениваемых эле­ментов; r 1 i (r 2 i) - ранг i-й характеристики в ранжировке первого (второго) элемента, выставленный группой экс­пертов.

При строгом ранжировании исполь­зуется коэффициент ранговой корреляции р Спирмена:


компоненты которого имеют тот же смысл, что и в (2.5).

Коэффициенты корреляции (2.5), (2.6) изменяются от -1 до +1. Если коэффициент корреляции равен +1, то это означает, что ранжировки одинаковы; если он равен -1, то − противоположны (ранжировки обратны друг другу). Равенство коэффициента корреляции нулю означает, что ран­жировки линейно независимы (некоррелированы).

Поскольку при таком подходе (эк­сперт − «измеритель» со случайной погрешностью) индивидуальные ран­жировки рассматриваются как случай­ные, то возникает задача статистиче­ской проверки гипотезы о значимости полученного коэффициента корреля­ции. В этом случае используют крите­рий Неймана-Пирсона: зада­ются уровнем значимости критерия α и, зная законы распределения коэффи­циента корреляции, определяют поро­говое значение c α , с которым сравни­вают полученное значение коэффици­ента корреляции. Критическая об­ласть − правосторонняя (в практике обычно сначала расчитывают значение критерия и определяют по нему уро­вень значимости, который сравнивают с пороговым уровнем α ).

Коэффициент ранговой корреляции τ Кендалла имеет при т > 10 распре­деление, близкое к нормальному с па­раметрами:

где M [τ] – математическое ожидание; D [τ] – дисперсия.

В этом случае используются таблицы функции стандартного нормального распределения:

а граница τ α критической области определяется как корень уравнения

Если вычисленное значение коэф­фициента τ ≥ τ α , то считается, что ранжировки, действительно хорошо согласуются. Обычно значение α вы­бирают в пределах 0,01-0,05. Для т ≤ 10 распределение т приведено в табл. 2.1.

Проверка значимости согласован­ности двух ранжировок с использованием коэффициента ρСпирмена осу­ществляется в том же порядке с ис­пользованием таблиц распределения Стьюдента при т > 10.

В этом случае величина

имеет распределение, хорошо аппроксимируемое распределением Стьюдента с m – 2 степенями свободы. При m > 30 распределение величины ρ хорошо согласуется с нормальным, имеющим M [ρ] = 0 и D [ρ] = .

Для т ≤ 10 проверку значимости ρ осуществляют с помощью табл. 2.2.

Если ранжировки нестрогие, то коэффициент Спирмена

где ρ – вычисляют по (2.6);

где k 1 , k 2 − число различных групп нестрогих рангов в первой и второй ранжировках соответственно; l i − число одинаковых рангов в i -й группе. При практическом использовании ко­эффициентов ранговой корреляции ρ Спирмена и τ Кендалла следует иметь в виду, что коэффициент ρ обеспечивает более точный результат в смысле ми­нимума дисперсии.

Таблица 2.1. Распределение коэффициента ранговой корреляции Кендалла