Общие определения
Целью дисперсионного анализа (ANOVA – Analysis of Variation) является проверка значимости различия между средними в разных группах с помощью сравнения дисперсий этих групп. Разделение общей дисперсии на несколько источников (связанных с различными эффектами в плане), позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью.
Проверяемая гипотеза состоит в том, что различия между группами нет. При истинности нулевой гипотезы, оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии. При ложности - значимо отклоняться.
В целом дисперсионный анализ может быть разделён на несколько видов:
одномерный (одна зависимая переменная) и многомерный (несколько зависимых переменных);
однофакторный (одна группирующая переменная) и многофакторный (несколько группирующих переменных) с возможным взаимодействием между факторами;
с простыми измерениями (зависимая переменная измеряется лишь один раз) и с повторными (зависимая переменная измеряется несколько раз).
В STATISITICA реализованы все известные модели дисперсионного анализа.
В STATISITICA дисперсионный анализ можно провести с помощью модуля Дисперсионный анализ в блоке STATISITICA Base (Анализ -> Дисперсионный анализ(ДА)) . Для построения модели специального вида используется полная версия Дисперсионного анализа, представленная в модулях Общие линейные модели , Обобщённые линейные и нелинейные модели , Общие регрессионные модели , Общие модели частных наименьших квадратов из блока Углубленные методы анализа (STATISTICA Advanced Linear/Non-Linear Models ).
в начало
Пошаговый пример в STATISTICA
Мы будем иллюстрировать возможности дисперсионного анализа в STATISITICA , рассматривая пошаговый модельный пример.
Исходный файл данных описывает совокупность людей с разным уровнем дохода, образования, возраста и пола. Рассмотрим, как влияют уровень образования, возраст и пол на уровень дохода.
По возрасту все люди были разделены на четыре группы:
до 30 лет;
от 31 до 40 лет;
от 41 до 50 лет;
от 51 года.
По уровню образования произошло деление на 5 групп:
незаконченное среднее;
среднее;
среднее профессиональное;
незаконченное высшее;
высшее.
Так как данные модельные, то полученные результаты будут носить в основном качественный характер и иллюстрировать способ проведения анализа.
Шаг 1. Выбор анализа
Выберем дисперсионный анализ из меню: Анализ -> Углубленные методы анализа -> Общие линейные модели .
Рис. 1. Выбор дисперсионного анализа из выпадающего меню STATISTICA
Далее откроется окно, в котором представлены различные виды анализа. Выбираем Вид анализа – Факторный Дисперсионный анализ .
Рис. 2. Выбор вида анализа
В этом окне также можете выбрать способ построения модели: диалоговый режим или использовать мастер анализа. Выберем диалоговый режим.
Шаг 2. Задание переменных
Из открытого файла данных выберем переменные для анализа, щелкните кнопку Переменные , выберете:
Доход – зависимая переменная,
Уровень образования , Пол и Возраст – категориальные факторы (предикторы).
Заметим, что Коды факторов в этом простом примере можно не задавать. При нажатии на кнопку OK , STATISTICA задаст их автоматически.
Рис. 3. Задание переменных
Шаг 3. Изменение опций
Обратимся к вкладке Опции в окне GLM Факторный ДА .
Рис. 4. Вкладка Опции
В этом диалоговом окне вы можете:
выбрать случайные факторы;
задать тип параметризации модели;
указать тип сумм квадратов (SS), имеется 6 различных сумм квадратов (SS);
включить проведение кросс-проверки.
Оставим все установки по умолчанию (этого достаточно в большинстве случаев) и нажмём кнопку ОК .
Шаг 4. Анализ результатов – просмотр всех эффектов
Результаты анализа можно посмотреть в окне Результаты с помощью вкладок и группы кнопок. Рассмотрим, например, вкладку Итоги .
Рис. 5. Окно анализа результатов: вкладка Итоги
С этой вкладки можно получить доступ ко всем основным результатам. Воспользуйтесь остальными вкладками для получения дополнительных результатов. Кнопка Меньше позволяет изменить диалоговое окно результатов, удалив вкладки, которые, как правило, не используются.
При нажатии кнопки Проверить все эффекты получаем следующую таблицу.
Рис. 6. Таблица всех эффектов
Эта таблица выводит основные результаты анализа: суммы квадратов, степени свободы, значения F-критерия, уровни значимости.
Для удобства исследования значимые эффекты (p<.05) выделены красным цветом. Два главных эффекта (Уровень образования и Возраст ) и некоторые взаимодействия в данном примере являются значимыми (p<.05).
Шаг 5. Анализ результатов – просмотр заданных эффектов
Чтобы посмотреть, каким образом средний уровень дохода различается по категориям, удобнее всего воспользоваться графическими средствами. При нажатии на кнопку Все эффекты/графики появится следующее диалоговое окно.
Рис. 7. Окно Таблица всех эффектов
В окне перечислены все рассматриваемые эффекты. Статистически значимые эффекты помечены *.
Например, выберем эффект Возраст , в группе Отображать укажем Таблицу и нажмём ОК . Появится таблица, в которой для каждого уровня эффекта приведено среднее значение зависимой переменной (Доход) , величина стандартной ошибки и границы доверительных пределов.
Рис. 8. Таблица с описательными статистиками по уровням переменной Возраст
Эту таблицу удобно представить в графическом виде. Для этого выберем График в группе Отображать диалогового окна Таблица всех эффектов и нажмём ОК . Появится соответствующий график.
Рис. 9. График зависимости среднего дохода от возраста
Из графика ясно видно, что между группами людей разного возраста есть разница в уровне дохода. Чем выше возраст, тем больше доход.
Аналогичные операции проведём для взаимодействия нескольких факторов. В диалоговом окне выберем Пол *Возраст и нажмём ОК .
Рис. 10. График зависимости среднего дохода от пола и возраста
Получен неожиданный результат: для опрошенных людей в возрасте до 50 лет уровень дохода растёт с возрастом и не зависит от пола; для опрошенных людей старше 50 лет женщины имеют значимо больший доход, чем мужчины.
Стоит построить полученный график в разрезе уровня образования. Возможно, такая закономерность нарушается в некоторых категориях или, наоборот, носит универсальный характер. Для этого выберем Уровень образования * Пол * Возраст и нажмём ОК .
Рис. 11. График зависимости среднего дохода от пола, возраста, уровня образования
Видим, что полученная зависимость не характерна для среднего и среднего профессионального образования. В остальных случаях она справедлива.
Шаг 6. Анализ результатов – оценка качества модели
Выше в основном использовались графические средства дисперсионного анализа. Рассмотрим некоторые другие полезные результаты, которые можно получить.
Во-первых, интересно посмотреть, какую долю изменчивости объясняют рассматриваемые факторы и их взаимодействия. Для этого во вкладке Итоги нажмём на кнопку Общая R модели . Появится следующая таблица.
Рис. 12. Таблица SS модели и SS остатков
Число в столбце Множеств. R2 – квадрат множественного коэффициента корреляции; оно показывает, какую долю изменчивости объясняет построенная модель. В нашем случае R2 = 0.195, что говорит о невысоком качестве модели. В самом деле, на уровень дохода влияют не только факторы, внесённые в модель.
Шаг 7. Анализ результатов – анализ контрастов
Часто требуется не только установить различие в среднем значении зависимой переменной для разных категорий, но и установить величину различия для заданных категорий. Для этого следует исследовать контрасты.
Выше было показано, что уровень дохода для мужчин и женщин значимо отличается для возраста от 51, в остальных случаях различие не значимо. Выведем разницу в уровне дохода для мужчин и женщин в возрасте выше 51 года и между 40 и 50 годами.
Для этого перейдём во вкладку Контрасты и выставим все значения следующим образом.
Рис. 13. Вкладка Контрасты
При нажатии кнопки Вычислить появится несколько таблиц. Нас интересует таблица с оценками контрастов.
Рис. 14. Таблица Оценки контрастов
Можно сделать следующие выводы:
для мужчин и женщин старше 51 года разница в уровне дохода составляет 48,7 тыс. долл. Разница значима;
для мужчин и женщин в возрасте от 41 до 50 лет разница в уровне дохода составляет 1,73 тыс. долл. Разница не значима.
Аналогично можно задать более сложные контрасты или воспользоваться одним из заранее заданных наборов.
Шаг 8. Дополнительные результаты
Используя остальные вкладки окна результатов можно получить следующие результаты:
средние значения зависимой переменной для выбранного эффекта – вкладка Средние ;
проверка апостериорных критериев (post hoc) – вкладка Апостериорные ;
проверка сделанных для проведения дисперсионного анализа предположений – вкладка Предположения ;
построение профилей отклика/желательности – вкладка Профили ;
анализ остатков – вкладка Остатки ;
вывод матриц, используемых в анализе – вкладка Матрицы ;
-
Факторный анализ является одним из наиболее мощных статистических средств анализа данных. В его основе лежит процедура объединения групп коррелирующих друг с другом переменных («корреляционных плеяд» или «корреляционных узлов») в несколько факторов.
Иными словами, цель факторного анализа - сконцентрировать исходную информацию, выражая большое число рассматриваемых признаков через меньшее число более емких внутренних характеристик, которые, однако, не поддаются непосредственному измерению (и в этом смысле являются латентными).
Для примера гипотетически представим себе законодательный орган регионального уровня, состоящий из 100 депутатов. В числе разных вопросов повестки дня на голосование выносятся: а) законопроект, предлагающий восстановить памятник В.И. Ленину на центральной площади города - административного центра региона; б) обращение к Президенту РФ с требованием вернуть в государственную собственность все стратегические производства. Матрица сопряженности показывает следующее распределение голосов депутатов:
Памятник Ленину (за) Памятник Ленину (против) Обращение к Президенту (за) 49 4 Обращение к Президенту (против) 6 41 Очевидно, что голосования статистически связаны: подавляющее большинство депутатов, поддерживающих идею восстановления памятника Ленину, поддерживают и возвращение в государственную собственность стратегических предприятий. Аналогичным образом большинство противников восстановления памятника являются в то же время и противниками возврата предприятий в госсобственность. При этом тематически голосования между собой совершенно не связаны.
Логично предположить, что выявленная статистическая связь обусловлена существованием некоторого скрытого (латентного) фактора. Законодатели, формулируя свою точку зрения по самым разнообразным вопросам, руководствуются ограниченным, небольшим набором политических позиций. В данном случае можно предположить наличие скрытого раскола депутатского корпуса по критерию поддержки/отвержения консервативно-социалистических ценностей. Выделяется группа «консерваторов» (согласно нашей таблице сопряженности - 49 депутатов) и их оппонентов (41 депутат). Выявив такие расколы, мы сможем описать большое число отдельных голосований через небольшое число факторов, которые являются латентными в том смысле, что мы не можем их обнаружить непосредственно: в нашем гипотетическом парламенте ни разу не проводилось голосование, в ходе которого депутатам предлагалось бы определить свое отношение к консервативно-социалистическим ценностям. Мы обнаруживаем наличие данного фактора, исходя из содержательного анализа количественных связей между переменными. Причем, если в нашем примере сознательно взяты номинальные переменные - поддержка законопроекта с категориями «за» (1) и «против» (0), - то в действительности факторный анализ эффективно обрабатывает интервальные данные.
Факторный анализ очень активно используется как в политической науке, так и в «соседних» социологии и психологии. Одна из важных причин большой востребованности данного метода состоит в разнообразии задач, которые можно решать с его помощью. Так, выделяются по крайней мере три «типовые» цели факторного анализа:
· уменьшение размерности (редукция) данных. Факторный анализ, выделяя узлы взаимосвязанных признаков и сводя их к неким обобщенным факторам, уменьшает исходный базис признаков описания. Решение этой задачи важно в ситуации, когда объекты измерены большим числом переменных и исследователь ищет способ сгруппировать их по смысловому признаку. Переход от множества переменных к нескольким факторам позволяет сделать описание более компактным, избавиться от малоинформативных и дублирующих переменных;
Выявление структуры объектов или признаков (классификация). Эта задача близка к той, которая решается методом кластер-анализа. Но если кластер-анализ принимает за «координаты» объектов их значения по нескольким переменным, то факторный анализ определяет положение объекта относительно факторов (связанных групп переменных). Иными словами, с помощью факторного анализа можно оценить сходство и различие объектов в пространстве их корреляционных связей, или в факторном пространстве. Координатными осями факторного пространства выступают полученные латентные переменные, на эти оси проецируются рассматриваемые объекты, что позволяет создать наглядное геометрическое представление изучаемых данных, удобное для содержательной интерпретации;
Косвенное измерение. Факторы, являясь латентными (эмпирически не наблюдаемыми), не поддаются непосредственному измерению. Однако факторный анализ позволяет не только выявить латентные переменные, но и оценить количественно их значение для каждого объекта.
Рассмотрим алгоритм и интерпретацию статистики факторного анализа на примере данных о результатах парламентских выборов в Рязанской области 1999 г. (общефедеральный округ). Для упрощения примера возьмем электоральную статистику только по тем партиям, которые преодолели 5%-ный барьер. Данные взяты в разрезе территориальных избирательных комиссий (по городам и районам области).
Первым шагом будет стандартизация данных путем перевода их в стандартные баллы (так называемые Л-баллы, рассчитываемые с помощью функции нормального распределения).
ТИК (территориальная избирательная комиссия)
«Яблоко» «Единство» Блок Жириновского
ОВР КПРФ СПС Ермишинская 1,49 35,19 6,12 5,35 31,41 2,80 Захаровская 2,74 18,33 7,41 11,41 31,59 л б 3 " Кадомская 1,09 29,61 8,36 5,53 35,87 1,94 Касимовская 1,30 39,56 5,92 5,28 29,96 2,37 Касимовская городская 3,28 39,41 5,65 6,14 24,66 4,61 То же в стандартизированных баллах (г-баллах) Ермишинская -0,83 1,58 -0,25 -0,91 -0,17 -0,74 Захаровская -0,22 -1,16 0,97 0,44 -0,14 0,43 Кадомская -1,03 0,67 1,88 -0,87 0,59 -1,10 Касимовская -0,93 2,29 -0,44 -0,92 -0,42 -0,92 Касимовская городская 0,04 2,26 -0,70 -0,73 -1,32 0,01 И т.д. (всего 32 случая) «Яблоко» «Единство» БЖ ОВР КПРФ СПС «Яблоко» «Единство» -0,55 БЖ -0,47 0,27 ОВР 0,60 -0,72 -0,47 КПРФ -0,61 0,01 0,10 -0,48 СПС 0,94 -0,45 -0,39 0,52 -0,67 Уже визуальный анализ матрицы парных корреляций позволяет сделать предположения о составе и характере корреляционных плеяд. К примеру, положительные корреляции обнаруживаются для «Союза правых сил», «Яблока» и блока «Отечество - вся Россия» (пары «Яблоко» - ОВР, «Яблоко» - СПС и ОВР - СПС). Одновременно эти три переменные отрицательно коррелируют с КПРФ (поддержка КПРФ), в меньшей степени - с «Единством» (поддержка «Единства») и в еще меньшей - с переменной БЖ (поддержка «Блока Жириновского»). Таким образом, предположительно мы имеем две выраженные корреляционные плеяды:
(«Яблоко» + ОВР + СПС) - КПРФ;
(«Яблоко» + ОВР + СПС) - «Единство».
Это две разные плеяды, а не одна, так как между «Единством» и КПРФ связи нет (0,01). Относительно переменной БЖ предположение сделать сложнее, здесь корреляционные связи менее выражены.
Чтобы проверить наши предположения, необходимо ВЫЧИСлить собственные значения факторов (eigenvalues), факторные значения (factor scores) и факторные нагрузки (factor loadings) для каждой переменной. Такие расчеты достаточно сложны, требуют серьезных навыков работы с матрицами, поэтому здесь мы не станем рассматривать вычислительный аспект. Скажем лишь, что эти вычисления могут осуществляться двумя путями: методом главных компонент (principal components) и методом главных факторов (principal factors). Метод главных компонент более распространен, статистические программы используют его «по умолчанию».
Остановимся на интерпретации собственных значений, факторных значений и факторных нагрузок.
Собственные значения факторов для нашего случая таковы:
Фактор Собственное значение % общей вариации 1 3,52 58,75 2 1,14 19,08 3 0,76 12,64 4 0,49 S.22 bgcolor=white>5 0,05 0.80 6 0,03 0,51 Всего 6 100% Чем больше собственное значение фактора, тем больше его объяснительная сила (максимальное значение равно количеству переменных, в нашем случае 6). Одним из ключевых элементов статистики факторного анализа является показатель «% общей вариации» (% total variance). Он показывает, какую долю вариации (изменчивости) переменных объясняет извлеченный фактор. В нашем случае вес первого фактора превосходит вес всех остальных факторов, вместе взятых: он объясняет почти 59% общей вариации. Второй фактор объясняет 19% вариации, третий - 12,6% и т.д. по убывающей.
Имея собственные значения факторов, мы можем приступить к решению задачи сокращения размерности данных. Редукция произойдет за счет исключения из модели факторов, обладающих наименьшей объяснительной силой. И здесь ключевой вопрос состоит в том, сколько факторов оставить в модели и какими критериями при этом руководствоваться. Так, явно лишними являются факторы 5 и 6, в совокупности объясняющие чуть более 1% всей вариации. А вот судьба факторов 3 и 4 уже не столь очевидна.
Как правило, в модели остаются факторы, собственное значение которых превышает единицу (критерий Кайзера). В нашем случае это факторы 1 и 2. Однако полезно проверить корректность удаления четырех факторов с помощью других критериев. Одним из наиболее широко используемых методов является анализ «графика осыпи» (scree plot). Для нашего случая он имеет вид:
График получил свое название из-за сходства со склоном горы. «Осыпь» - геологический термин, обозначающий обломки горных пород, скапливающиеся в нижней части скалистого склона. «Скала» - это по-настоящему влиятельные факторы, «осыпь» - статистический шум. Образно говоря, нужно найти место на графике, где кончается «скала» и начинается «осыпь» (где убывание собственных значений слева направо сильно замедляется). В нашем случае выбор нужно сделать из первого и второго перегибов, соответствующих двум и четырем факторам. Оставив четыре фактора, мы получим очень высокую точность модели (более 98% общей вариации), но сделаем ее достаточно сложной. Оставив два фактора, мы будем иметь значительную необъясненную часть вариации (около 22%), но модель станет лаконичной и удобной в анализе (в частности, визуальном). Таким образом, в данном случае лучше пожертвовать некоторой долей точности в пользу компактности, оставив первый и второй факторы.
Проверить адекватность полученной модели можно с помощью специальных матриц воспроизведенных корреляций (reproduced correlations) и остаточных коэффициентов (residual correlations). Матрица воспроизведенных корреляций содержит коэффициенты, которые удалось восстановить по двум оставленным в модели факторам. Особое значение в ней имеет главная диагональ, на которой расположены общности переменных (в таблице выделены курсивом), которые показывают, насколько точно модель воспроизводит корреляцию переменной с той же переменной, которая должна составлять единицу.
Матрица остаточных коэффициентов содержит разность между исходным и воспроизведенным коэффициентами. Например, воспроизведенная корреляция между переменными СПС и «Яблоко» составляет 0,88, исходная - 0,94. Остаток = 0,94 - 0,88 = 0,06. Чем ниже значения остатков, тем выше качество модели.
Воспроизведенные корреляции «Яблоко» «Единство» БЖ ОВР КПРФ СПС «Яблоко» 0,89 «Единство» -0,53 0,80 БЖ -0,47 0,59 0,44 ОВР 0,73 -0,72 -0,56 0,76 КПРФ -0,70 0,01 0,12 -0,34 0,89 СПС 0,88 -0,43 -0,40 0,66 -0,77 0,88 Остаточные коэффициенты «Яблоко» «Единство» БЖ ОВР КПРФ СПС «Яблоко» 0,11 «Единство» -0,02 0,20 БЖ 0,00 -0,31 0,56 ОВР -0,13 -0,01 0,09 0,24 КПРФ 0,09 0,00 -0,02 -0,14 0,11 СПС 0,06 -0,03 0,01 -0,14 0,10 0,12 Как видно из матриц, двухфакторная модель, будучи в целом адекватной, плохо объясняет отдельные связи. Так, очень низкой является общность переменной БЖ (всего 0,56), слишком велико значение остаточного коэффициента связи БЖ и «Единства» (-0,31).
Теперь необходимо решить, насколько важным для данного конкретного исследования является адекватное представление переменной БЖ. Если важность высока (к примеру, если исследование посвящено анализу электората именно этой партии), корректно вернуться к четырехфакторной модели. Если нет, можно оставить два фактора.
Принимая во внимание учебный характер наших задач, оставим более простую модели.Факторные нагрузки можно представить как коэффициенты корреляции каждой переменной с каждым из выявленных факторов 1ак, корреляция между значениями первой факторной переменной и значениями переменной «Яблоко» составляет -0,93. Все факторные нагрузки приводятся в матрице факторного отображения-
Чем теснее связь переменной с рассматриваемым фактором, тем выше значение факторной нагрузки. Положительный знак факторной нагрузки указывает на прямую, а отрицательный знак - на обратную связь переменной с фактором.
Имея значения факторных нагрузок, мы можем построить геометрическое представление результатов факторного анализа. По оси X отложим нагрузки переменных на фактор 1, по оси Y- нагрузки переменных на фактор 2 и получим двухмерное факторное пространство.
Перед тем как приступить к содержательному анализу полученных результатов, осуществим еще одну операцию - вращение (rotation). Важность этой операции продиктована тем, что существует не один, а множество вариантов матрицы факторных нагрузок, в равной степени объясняющих связи переменных (матрицу интеркорреляций). Необходимо выбрать такое решение, которое проще интерпретировать содержательно. Таковым считается матрица нагрузок, в которой значения каждой переменной по каждому фактору максимизированы или минимизированы (приближены к единице или к нулю).
Рассмотрим схематичный пример. Имеется четыре объекта, расположенных в факторном пространстве следующим образом:
Нагрузки на оба фактора для всех объектов существенно отличны от нуля, и мы вынуждены привлекать оба фактора для интерпретации положения объектов. Но если «повернуть» всю конструкцию по часовой стрелке вокруг пересечения осей координат, получим следующую картинку:
В данном случае нагрузки на фактор 1 будут близки к нулю, а нагрузки на фактор 2 - к единице (принцип простой структуры). Соответственно, для содержательной интерпретации положения объектов мы будем привлекать только один фактор - фактор 2.
Существует довольно большое количество методов вращения факторов. Так, группа методов ортогонального вращения всегда сохраняет прямой угол между координатными осями. К таковым относятся vanmax (минимизирует количество переменных с высокой факторной нагрузкой), quartimax (минимизирует количество факторов, необходимых для объяснения переменной), equamax (сочетание двух предыдущих методов). Методы косоугольного вращения не обязательно сохраняют прямой угол между осями (например, direct obiimin). Метод promax представляет собой сочетание ортогонального и косоугольного методов вращения. В большинстве случаев используется метод vanmax, который дает хорошие результаты применительно и к большинству задач политических исследований. Кроме того, как и в процессе применения многих других методов, рекомендуется поэкспериментировать с различными техниками вращения.
В нашем примере после вращения методом varimax получаем следующую матрицу факторных нагрузок:
Соответственно, геометрическое представление факторного пространства будет иметь вид:
Теперь можно приступить к содержательной интерпретации полученных результатов. Ключевую оппозицию - электоральный раскол - по первому фактору формируют КПРФ с одной стороны и «Яблоко» и СПС (в меньшей степени ОВР) - с другой. Содержательно - исходя из специфики идеологических установок названных субъектов избирательного процесса - мы можем интерпретировать данное размежевание как «лево-правый» раскол, являющийся «классическим» для политической науки.
Оппозицию по фактору 2 формируют ОВР и «Единство». К последнему примыкает «Блок Жириновского», но достоверно судить о его положении в факторном пространстве мы не можем в силу особенностей модели, которая плохо объясняет связи именно этой переменной. Чтобы объяснить такую конфигурацию, необходимо вспомнить политические реалии избирательной кампании 1999 г. Тогда борьба внутри политической элиты привела к формированию двух эшелонов «партии власти» - блоков «Единство» и «Отечество - вся Россия». Различие между ними не носило идеологического характера: фактически населению предложили выбирать не из двух идейных платформ, а из двух элитных групп, каждая из которых располагала существенными властными ресурсами и региональной поддержкой. Таким образом, этот раскол можно интерпретировать как «властно-элитный» (или, несколько упрощая, «власть - оппозиция»).
В целом мы получаем геометрическое представление некоего электорального пространства Рязанской области для данных выборов, если понимать электоральное пространство как пространство электорального выбора, структуру ключевых политических альтернатив («расколов»). Комбинация именно этих двух расколов была очень типична для парламентских выборов 1999 г.
Сопоставляя результаты факторного анализа для одного и того же региона на разных выборах, мы можем судить о наличии преемственности в конфигурации пространства электорального выбора территории. К примеру, факторный анализ федеральных парламентских выборов (1995, 1999 и 2003 гг.), проходивших в Татарстане, показал устойчивую конфигурацию электорального пространства. Для выборов 1999 г. в модели оставлен всего один фактор с объяснительной силой 83% вариации, что сделало невозможным построение двухмерной диаграммы. В соответствующем столбце приведены факторные нагрузки.
Если внимательно присмотреться к этим результатам, можно заметить, что в республике от выборов к выборам воспроизводится один и тот же основной раскол: «"партия власти” - все остальные». «Партией власти» в 1995 г. выступал блок «Наш дом - Россия» (НДР), в 1999 г. - ОВР, в 2003 г. - «Единая Россия». С течением времени меняются лишь «детали» - название «партии власти». Новый политический «лейбл» очень легко ложится в статичную матрицу одномерного политического выбора.
В заключение главы дадим один практический совет. Успешность освоения статистических методов по большому счету возможна только при интенсивной практической работе со специальными программами (уже неоднократно упомянутые SPSS, Statistica или хотя бы Microsoft Excel). Не случайно изложение статистических техник ведется нами в режиме алгоритмов работы: это позволяет студенту самостоятельно пройти все стадии анализа, сидя за компьютером. Без попыток практического анализа реальных данных представление о возможностях статистических методов в политическом анализе неизбежно останется общим и абстрактным. А на сегодняшний день умение применять статистику для решения и теоретических, и прикладных задач - принципиально важная составляющая модели специалиста-политолога.
Контрольные вопросы и задания
1. Каким уровням измерения соответствуют средние величины - мода, медиана, среднее арифметическое? Какие меры вариации характерны для каждой из них?
2. В силу каких причин необходимо учитывать форму распределения переменных?
3. Что означает утверждение: «Между двумя переменными имеется статистическая связь»?
4. Какую полезную информацию о связях между переменными можно получить на основе анализа таблиц сопряженности?
5. Что можно узнать о связи между переменными, исходя из значений статистических критериев хи-квадрат и лямбда?
6. Дайте определение понятию «ошибка» в статистических исследованиях. Каким образом по данному показателю можно судить о качестве построенной статистической модели?
7. Какова основная цель корреляционного анализа? Какие характеристики статистической связи выявляет данный метод?
8. Как интерпретировать значение коэффициента корреляции Пирсона?
9. Охарактеризуйте метод дисперсионного анализа. В каких других статистических методах используется статистика дисперсионного анализа и для чего?
10. Объясните значение понятия «нулевая гипотеза».
11. Что такое линия регрессии, каким методом она строится?
12. Что показывает коэффициент R в итоговой статистике регрессионного анализа?
13. Поясните термин «метод многомерной классификации».
14. Объясните основные различия между кластеризацией посредством иерархического кластер-анализа и методом К-средних.
15. Каким образом кластер-анализ может использоваться при изучении имиджа политических лидеров?
16. Какова основная задача, решаемая посредством дискриминантного анализа? Дайте определение дискриминантной функции.
17. Назовите три класса задач, решаемых с помощью факторного анализа. Конкретизируйте понятие «фактор».
18. Дайте характеристику трем основным методам проверки качества модели в факторном анализе (критерий Кайзера, критерий «осыпи», матрица воспроизведенных корреляций).
- Міжнародна міграція фінансових ресурсів у контексті факторного аналізу
- 25. Ж.-Б. Сэй вошел в историю экономической науки как автор факторной теории стоимости. Каковы основные положения этой теории?
- Технико-экономический анализ строительного проекта и анализ обеспечения по запрашиваемому строительному кредиту
- функциональная (иначе — функционально-детерминированная, или жестко детерминированная связь.)
- стохастическая (вероятностная) связь.
- Наблюдение за общими факторами и соответствующими факторными нагрузками – это необходимое выявление внутренних закономерностей процессов.
- С целью определения критических значений контролируемых расстояний между факторными нагрузками следует накапливать и обобщать результаты факторного анализа для однотипных процессов.
- Применение факторного анализа не ограничено физическими особенностями процессов. Факторный анализ является как мощным методом мониторинга процессов, так и применим к проектированию систем самого различного назначения.
- сокращение числа переменных;
- определение взаимосвязей между переменными, их классификация.
- метод главных компонент
- корреляционный анализ
- метод максимального правдоподобия
- необходимо изучить влияние сложных факторов, которые не поддаются объединению в одной и той же жестко детерминированной модели;
- необходимо изучить влияние сложных факторов, которые не могут быть выражены одним количественным показателем (например, уровень научно-технического прогресса).
- качественный анализ (постановка цели анализа, определение совокупности, определение результативных и факторных признаков, выбор периода, за который проводится анализ, выбор метода анализа);
- предварительный анализ моделируемой совокупности (проверка однородности совокупности, исключение аномальных наблюдений, уточнение необходимого объема выборки, установление законов распределения изучаемых показателей);
- построение стохастической (регрессионной) модели (уточнение перечня факторов, расчет оценок параметров уравнения регрессии, перебор конкурирующих вариантов моделей);
- оценка адекватности модели (проверка статистической существенности уравнения в целом и его отдельных параметров, проверка соответствия формальных свойств оценок задачам исследования);
- экономическая интерпретация и практическое использование модели (определение пространственно-временной устойчивости построенной зависимости, оценка практических свойств модели).
- прямой и обратный;
- одноступенчатый и многоступенчатый;
- статический и динамичный;
- ретроспективный и перспективный (прогнозный).
Называют факторным анализом . Основными разновидностями факторного анализа являются детерминированный анализ и стохастический анализ.
Детерминированный факторный анализ основывается на методике изучения влияния таких факторов, взаимосвязь которых с обобщающим экономическим показателем является функциональной. Последнее означает, что обобщающий показатель представляет собой либо произведение, либо частное от деления, либо алгебраическую сумму отдельных факторов.
Стохастический факторный анализ основывается на методике исследования влияния таких факторов, взаимосвязь которых с обобщающим экономическим показателем является вероятностной, иначе — корреляционной.
В условиях наличия функциональной взаимосвязи с изменением аргумента всегда имеет место и соответствующе изменение функции. При наличии же вероятностной взаимосвязи изменение аргумента может сочетаться с несколькими значениями изменения функции.
Факторный анализ подразделяется также на прямой , иначе дедуктивный анализ и обратный (индуктивный) анализ.
Первый вид анализа осуществляет изучение влияния факторов дедуктивным методом, то есть в направлении от общего к частному. При обратном факторном анализе влияние факторов исследуется индуктивным методом — в направлении от частных факторов к обобщающим экономическим показателям.
Классификация факторов, влияющих на эффективности деятельности организации
Факторы, влияние которых изучается при проведении , классифицируются по различным признакам. Прежде всего их можно подразделить на два основных вида: внутренние факторы , зависящие от деятельности данной , и внешние факторы , не зависящие от данной организации.
Внутренние факторы в зависимости от величины их воздействия на , можно подразделить на главные и второстепенные. К числу главных относятся факторы, связанные с использованием , и материалов, а также факторы, обусловленные снабженческо-сбытовой деятельностью и некоторыми другими сторонами функционирования организации. Главные факторы оказывают основополагающее воздействие на обобщающие экономические показатели. Внешние факторы, не зависящие от данной организации, обусловлены природно-климатическими (географическими), социально-экономическими, а также внешнеэкономическими условиями.
В зависимости от длительности их воздействия на экономические показатели можно выделить постоянные и переменные факторы . Первый вид факторов оказывает влияние на экономические показатели, которое не ограничено во времени. Переменные факторы воздействуют на экономические показатели лишь в течение определенного периода времени.
Факторы могут подразделяться на экстенсивные (количественные) и интенсивные (качественные) по признаку сущности их влияния на экономические показатели. Так, например, если изучается влияние на объем выпуска продукции трудовых факторов, то изменение численности рабочих будет являться экстенсивным фактором, а изменение производительности труда одного рабочего — интенсивным факторов.
Факторы, влияющие на экономические показатели, по степени их зависимости от воли и сознания работников организации и других лиц, могут подразделяться на объективные и субъективные факторы . К объективными факторам могут быть отнесены погодные условия, стихийные бедствия, которые не зависят от деятельности человека. Субъективные же факторы целиком и полностью зависят от людей. Подавляющее большинство факторов следует отнести к числу субъективных.
Факторы можно подразделить также в зависимости от сферы их действия на факторы неограниченного и факторы ограниченного действия. Первый вид факторов действует повсеместно, в любых отраслях народного хозяйства. Второй вид факторов оказывает влияние лишь внутри какой-либо отрасли или даже отдельной организации.
По своей структуре факторы подразделяются на простые и сложные. Подавляющая часть факторов — сложные, включающие в себя несколько составных частей. Вместе с тем имеются и такие факторы, которые не поддаются расчленению. Например, фондоотдача может служить примером сложного фактора. Количество дней, отработанных оборудованием за данный период является простым фактором.
По характеру влияния на обобщающие экономические показатели различают прямые и косвенные факторы . Так, изменение проданной продукции, хотя оно и оказывает обратное влияние на величину прибыли, следует считать прямым факторам, то есть фактором первого порядка. Изменение же величины материальных затрат оказывает на прибыль косвенное влияние, т.е. воздействует на прибыль не непосредственно, а через себестоимость, представляющую собой фактор первого порядка. Исходя из этого уровень материальных затрат следует считать фактором второго порядка, то есть косвенным фактором.
В зависимости от того, можно ли дать количественную оценку влияния данного фактора на обобщающий экономический показатель, различают измеряемые и неизмеряемые факторы.
Эта классификация тесно взаимосвязана с классификацией резервов повышения эффективности хозяйственной деятельности организаций, или, иначе говоря, резервов улучшения анализируемых экономических показателей.
Факторный экономический анализ
В те признаки, которые характеризуют причину, носят название факторных, независимых. Те же признаки, которые, характеризуют следствие, принято называть результатными, зависимыми.
Совокупность факторных и результативных признаков, которые находятся в одной причинно-следственной связи, носит название факторной системы . Существует также понятие модели факторной системы. Она характеризует взаимосвязь между результативным признаком, обозначаемым как y, и факторными признаками, обозначаемыми как . Иными словами, модель факторной системы выражает взаимосвязь между обобщающим экономическим показателям и отдельными факторами, влияющими на этот показатель. При этом в качестве факторов выступают другие экономические показатели, представляющие собой причины изменения обобщающего показателя.
Модель факторной системы математически может быть выражена при помощи следующей формулы:
Установление зависимостей между обобщающими (результативными) и влияющими на них факторами носит название экономико-математического моделирования.
В изучается два вида взаимосвязей между обобщающими показателями и влияющими на них факторами:
Функциональная связь — это такая связь, при которой каждому значению фактора (факторного признака) соответствует вполне определенное неслучайное значение обобщающего показателя (результативного признака).
Стохастическая связь — это такая связь, при которой каждому значению фактора (факторного признака) соответствует множество значений обобщающего показателя (результативного признака). В этих условиях для каждого значения фактора x значения обобщающего показателя y образуют условное статистическое распределение. Вследствие этого изменение значения фактора x только в среднем вызывает изменение обобщающего показателя y.
В соответствии с двумя рассмотренными типами взаимосвязей различают методы детерминированного факторного анализа и методы стохастического факторного анализа. Рассмотрим следующую схему:
Методы, применяемые в факторном анализе. Схема №2Наибольшую полноту и глубину аналитического исследования, наибольшую точность результатов анализа обеспечивает применение экономико-математических методов исследования.
Эти методы имеют ряд преимуществ перед традиционными и статистическими методами анализа.
Так, они обеспечивают более точное и детальное исчисление влияния отдельных факторов на изменение величин экономических показателей а также дают возможность решения ряда аналитических задач, которые не могут быть сделаны без применения экономико-математических методов.
ФАКТОРНЫЙ АНАЛИЗ
Идея факторного анализа
При исследовании сложных объектов, явлений, систем факторы, определяющие свойства этих объектов, очень часто невозможно измерить непосредственно, а иногда неизвестно даже их число и смысл. Но для измерения могут быть доступны другие величины, так или иначе зависящие от интересующих нас факторов. Причем, когда влияние неизвестного интересующего нас фактора проявляется в нескольких измеряемых признаках или свойствах объекта, эти признаки могут обнаруживать тесную связь между собой и общее число факторов может быть гораздо меньше, чем число измеряемых переменных.
Для выявления факторов, определяющих измеряемые признаки объектов, используются методы факторного анализа
В качестве примера применения факторного анализа можно указать изучение свойств личности на основе психологических тестов. Свойства личности не поддаются прямому измерению. О них можно судить только по поведению человека или характеру ответов на вопросы. Для объяснения результатов опытов их подвергают факторному анализу, который и позволяет выявить те личностные свойства, которые оказывают влияние на поведение индивидуума.
В основе различных методов факторного анализа лежит следующая гипотеза: наблюдаемые или измеряемые параметры являются лишь косвенными характеристиками изучаемого объекта, в действительности существуют внутренние (скрытые, латентные, не наблюдаемые непосредственно) параметры и свойства, число которых мало и которые определяют значения наблюдаемых параметров. Эти внутренние параметры принято называть факторами.
Цель факторного анализа – сконцентрировать исходную информацию, выражая большое число рассматриваемых признаков через меньшее число более ёмких внутренних характеристик явления, которые, однако, не поддаются непосредственному измерению
Установлено, что выделение и последующее наблюдение за уровнем общих факторов даёт возможность обнаруживать предотказные состояния объекта на очень ранних стадиях развития дефекта. Факторный анализ позволяет отслеживать стабильность корреляционных связей между отдельными параметрами. Именно корреляционные связи между параметрами, а также между параметрами и общими факторами содержат основную диагностическую информацию о процессах. Применение инструментария пакета Statistica при выполнении факторного анализа исключает необходимость использования дополнительных вычислительных средств и делает анализ наглядным и понятным для пользователя.
Результаты факторного анализа будут успешными, если удается дать интерпретацию выявленных факторов, исходя из смысла показателей, характеризующих эти факторы. Данная стадия работы весьма ответственная; она требует чёткого представления о содержательном смысле показателей, которые привлечены для анализа и на основе которых выделены факторы. Поэтому при предварительном тщательном отборе показателей для факторного анализа следует руководствоваться их смыслом, а не стремлением к включению в анализ как можно большего их числа.
Сущность факторного анализа
Приведём несколько основных положений факторного анализа. Пусть для матрицы Х измеренных параметров объекта существует ковариационная (корреляционная) матрица C , где р – число параметров, n – число наблюдений. Путем линейного преобразования X =QY +U можно уменьшить размерность исходного факторного пространства Х до уровня Y , при этом р "<<р . Это соответствует преобразованию точки, характеризующей состояние объекта в j -мерном пространстве, в новое пространство измерений с меньшей размерностью р ". Очевидно, что геометрическая близость двух или множества точек в новом факторном пространстве означает стабильность состояния объекта.
Матрица Y содержит ненаблюдаемые факторы, которые по существу являются гиперпараметрами, характеризующими наиболее общие свойства анализируемого объекта. Общие факторы чаще всего выбирают статистически независимыми, что облегчает их физическую интерпретацию. Вектор наблюдаемых признаков Х имеет смысл следствия изменения этих гиперпараметров.
Матрица U
состоит из остаточных факторов, которые включают в основном ошибки измерения признаков x
(i
). Прямоугольная матрица Q
содержит факторные нагрузки, определяющие линейную связь между признаками и гиперпараметрами.
Факторные нагрузки – это значения коэффициентов корреляции каждого из исходных признаков с каждым из выявленных факторов. Чем теснее связь данного признака с рассматриваемым фактором, тем выше значение факторной нагрузки. Положительный знак факторной нагрузки указывает на прямую (а отрицательный знак – на обратную) связь данного признака с фактором.
Таким образом, данные о факторных нагрузках позволяют сформулировать выводы о наборе исходных признаков, отражающих тот или иной фактор, и об относительном весе отдельного признака в структуре каждого фактора.
Модель факторного анализа похожа на модели многомерного регрессионного и дисперсионного анализа. Принципиальное отличие модели факторного анализа в том, что вектор Y – это ненаблюдаемые факторы, а в регрессионном анализе – это регистрируемые параметры. В правой части уравнения (8.1) неизвестными являются матрица факторных нагрузок Q и матрица значений общих факторов Y.
Для нахождения матрицы факторных нагрузок используют уравнениеQQ т =S–V,
где Q т – транспонированная матрица Q, V – матрица ковариаций остаточных факторов U, т.е. . Уравнение решается путем итераций при задании некоторого нулевого приближения ковариационной матрицы V(0).
После нахождения матрицы факторных нагрузок Q вычисляются общие факторы (гиперпараметры) по уравнению
Y=(Q т V -1)Q -1 Q т V -1 X
Пакет статистического анализа Statistica позволяет в диалоговом режиме вычислить матрицу факторных нагрузок, а также значения нескольких заранее заданных главных факторов, чаще всего двух – по первым двум главным компонентам исходной матрицы параметров.
Факторный анализ в системе Statistica
Рассмотрим последовательность выполнения факторного анализа на примере обработки результатов анкетного опроса работников предприятия . Требуется выявить основные факторы, которые определяют качество трудовой жизни.
На первом этапе необходимо отобрать переменные для проведения факторного анализа. Используя корреляционный анализ, исследователь пытается выявить взаимосвязь исследуемых признаков, что, в свою очередь, даёт ему возможность выделить полный и безызбыточный набор признаков путём объединения сильно коррелирующих признаков.
Если проводить факторный анализ по всем переменным, то результаты могут получиться не совсем объективными, так как некоторые переменные определяется другими данными, и не могут регулироваться сотрудниками рассматриваемой организации.
Для того чтобы понять, какие показатели следует исключить, построим по имеющимся данным матрицу коэффициентов корреляции в Statistica: Statistics/ Basic Statistics/ Correlation Matrices/ Ok. В стартовом окне этой процедуры Product-Moment and Partial Correlations (рис. 4.3) для расчёта квадратной матрицы используется кнопка One variable list. Выбираем все переменные (select all), Ok, Summary. Получаем корреляционную матрицу.
Если коэффициент корреляции изменяется в пределах от 0,7 до 1, то это означает сильную корреляцию показателей. В этом случае можно исключить одну переменную с сильной корреляцией. И наоборот, если коэффициент корреляции мал, можно исключить переменную из-за того, что она ничего не добавит к общей сумме. В нашем случае сильной корреляции между какими-либо переменными не наблюдается, и факторный анализ будем проводить для полного набора переменных.
Для запуска факторного анализа необходимо вызвать модуль Statistics/ Multivariate Exploratory Techniques (многомерные исследовательские методы)/ Factor Analysis (факторный анализ). На экране появится окно модуля Factor Analysis.
Для анализа выбираем все переменные электронной таблицы; Variables (переменные): select all, Ok. В строке Input file (тип файла входных данных) указывается Raw Data (исходные данные). В модуле возможны два типа исходных данных – Raw Data (исходные данные) и Correlation Matrix – корреляционная матрица.
В разделе MD deletion задаётся способ обработки пропущенных значений:
* Casewise – способ исключения пропущенных значений (по умолчанию);
* Pairwise – парный способ исключения пропущенных значений;
* Mean substitution – подстановка среднего вместо пропущенных значений.
Способ Casewise состоит в том, что в электронной таблице, содержащей данные, игнорируются все строки, в которых имеется хотя бы одно пропущенное значение. Это относится ко всем переменным. В способе Pairwise игнорируются пропущенные значения не для всех переменных, а лишь для выбранной пары.
Выберем способ обработки пропущенных значений Casewise.
Statistica обработает пропущенные значения тем способом, который указан, вычислит корреляционную матрицу и предложит на выбор несколько методов факторного анализа.
После нажатия кнопки Ok появляется окно Define Method of Factor Extraction (определить метод выделения факторов).Верхняя часть окна является информационной. Здесь сообщается, что пропущенные значения обработаны методом Casewise. Обработано 17 наблюдений и 17 наблюдений принято для дальнейших вычислений. Корреляционная матрица вычислена для 7 переменных. Нижняя часть окна содержит 3 вкладки: Quick, Advanced, Descriptives.
Во вкладке Descriptives (описательные статистики) имеются две кнопки:
1- просмотреть корреляции, средние и стандартные отклонения;
2- построить множественную регрессию.
Нажав на первую кнопку, можно посмотреть средние и стандартные отклонения, корреляции, ковариации, построить различные графики и гистограммы.
Во вкладке Advanced, в левой части, выберем метод (Extraction method) факторного анализа: Principal components (метод главных компонент). В правой части выбираем максимальное число факторов (2). Задаётся либо максимальное число факторов (Max no of factors), либо минимальное собственное значение: 1 (eigenvalue).
Нажимаем Ok, и Statistica быстро произвёдет вычисления. На экране появляется окно Factor Analysis Results (результаты факторного анализа). Как говорилось ранее, результаты факторного анализа выражаются набором факторных нагрузок. Поэтому далее будем работать с вкладкой Loadings.
Верхняя часть окна – информационная:
Number of variables (число анализируемых переменных): 7;
Method (метод выделения факторов): Principal components (главных компонент);
Log (10) determinant of correlation matrix (десятичный логарифм детерминанта корреляционной матрицы): –1,6248;
Number of factors extracted (число выделенных факторов): 2;
Eigenvalues (собственные значения): 3,39786 и 1,19130.
В нижней части окна находятся функциональные кнопки, позволяющие всесторонне просмотреть результаты анализа, числено и графически.
Factor rotation – вращение факторов, в данном выпадающем окне можно выбрать различные повороты осей. С помощью поворота системы координат можно получить множество решений, из которого необходимо выбрать интерпретируемое решение.
Существуют различные методы вращения координат пространства. Пакет Statistica предлагает восемь таких методов, представленных в модуле факторного анализа. Так, например, метод варимакс соответствует преобразованию координат: вращение, максимизирующее дисперсию. В методе варимакс получают упрощённое описание столбцов факторной матрицы, сводя все значения к 1 или 0. При этом рассматривается дисперсия квадратов нагрузок фактора. Факторная матрица, получаемая с помощью метода вращения варимакс, в большей степени инвариантна по отношению к выбору различных множеств переменных.
Вращение методом квартимакс ставит целью аналогичное упрощение только по отношению к строкам факторной матрицы. Эквимакс занимает промежуточное положение? при вращении факторов по этому методу одновременно делается попытка упростить и столбцы, и строки. Рассмотренные методы вращения относятся к ортогональным вращениям, т.е. в результате получаются некоррелированные факторы. Методы прямого облимина и промакс вращения относятся к косоугольным вращениям, в результате которых получаются коррелированные между собой факторы. Термин?normalized? в названиях методов указывает на то, что факторные нагрузки нормируются, то есть делятся на квадратный корень из соответствующей дисперсии.
Из всех предлагаемых методов, мы сначала посмотрим результат анализа без вращения системы координат – Unrotated. Если полученный результат окажется интерпретируемым и будет нас устраивать, то на этом можно остановиться. Если нет, можно вращать оси и посмотреть другие решения.
Щёлкаем по кнопке "Factor Loading" и смотрим факторные нагрузки численно.
Напомним, что факторные нагрузки – это значения коэффициентов корреляции каждой из переменных с каждым из выявленных факторов.
Значение факторной нагрузки, большее 0,7 показывает, что данный признак или переменная тесно связан с рассматриваемым фактором. Чем теснее связь данного признака с рассматриваемым фактором, тем выше значение факторной нагрузки. Положительный знак факторной нагрузки указывает на прямую (а отрицательный знак? на обратную) связь данного признака с фактором.
Итак, из таблицы факторных нагрузок было выявлено два фактора. Первый определяет ОСБ – ощущение социального благополучия. Остальные переменные обусловлены вторым фактором.
В строке Expl. Var (рис. 8.5) приведена дисперсия, приходящаяся на тот или иной фактор. В строке Prp. Totl приведена доля дисперсии, приходящаяся на первый и второй фактор. Следовательно, на первый фактор приходится 48,5 % всей дисперсии, а на второй фактор – 17,0 % всей дисперсии, всё остальное приходится на другие неучтенные факторы. В итоге, два выявленных фактора объясняют 65,5 % всей дисперсии.
Здесь мы также видим две группы факторов – ОСБ и остальное множество переменных, из которых выделяется ЖСР – желание сменить работу. Видимо, имеет смысл исследовать это желание более основательно на основе сбора дополнительных данных.
Выбор и уточнение количества факторов
Как только получена информация о том, сколько дисперсии выделил каждый фактор, можно возвратиться к вопросу о том, сколько факторов следует оставить. По своей природе это решение произвольно. Но имеются некоторые общеупотребительные рекомендации, и на практике следование им даёт наилучшие результаты.
Количество общих факторов (гиперпараметров) определяется путём вычисления собственных чисел (рис. 8.7) матрицы Х в модуле факторного анализа. Для этого во вкладке Explained variance (рис. 8.4) необходимо нажать кнопку Scree plot.
Максимальное число общих факторов может быть равно количеству собственных чисел матрицы параметров. Но с увеличением числа факторов существенно возрастают трудности их физической интерпретации.
Сначала можно отобрать только факторы, с собственными значениями, большими 1. По существу, это означает, что если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается. Этот критерий используется наиболее широко. В приведённом выше примере на основе этого критерия следует сохранить только 2 фактора (две главные компоненты).
Можно найти такое место на графике, где убывание собственных значений слева направо максимально замедляется. Предполагается, что справа от этой точки находится только "факториальная осыпь". В соответствии с этим критерием можно оставить в примере 2 или 3 фактора.
Из рис. видно, что третий фактор незначительно увеличивает долю общей дисперсии.
Факторный анализ параметров позволяет выявить на ранней стадии нарушение рабочего процесса (возникновение дефекта) в различных объектах, которое часто невозможно заметить путём непосредственного наблюдения за параметрами. Это объясняется тем, что нарушение корреляционных связей между параметрами возникает значительно раньше, чем изменение одного параметра. Такое искажение корреляционных связей позволяет своевременно обнаружить факторный анализ параметров. Для этого достаточно иметь массивы зарегистрированных параметров.
Можно дать общие рекомендации по использованию факторного анализа вне зависимости от предметной области.
* На каждый фактор должно приходиться не менее двух измеренных параметров.
* Число измерений параметров должно быть больше числа переменных.
* Количество факторов должно обосновываться, исходя из физической интерпретации процесса.
* Всегда следует добиваться того, чтобы количество факторов было намного меньше числа переменных.
Критерий Кайзера иногда сохраняет слишком много факторов, в то время как критерий каменистой осыпи иногда сохраняет слишком мало факторов. Однако оба критерия вполне хороши при нормальных условиях, когда имеется относительно небольшое число факторов и много переменных. На практике более важен вопрос о том, когда полученное решение может быть интерпретировано. Поэтому обычно исследуется несколько решений с большим или меньшим числом факторов, и затем выбирается одно наиболее осмысленное.
Пространство исходных признаков должно быть представлено в однородных шкалах измерения, т. к. это позволяет при вычислении использовать корреляционные матрицы. В противном случае возникает проблема "весов" различных параметров, что приводит к необходимости применения при вычислении ковариационных матриц. Отсюда может появиться дополнительная проблема повторяемости результатов факторного анализа при изменении количества признаков. Следует отметить, что указанная проблема просто решается в пакете Statistica путем перехода к стандартизированной форме представления параметров. При этом все параметры становятся равнозначными по степени их связи с процессами в объекте исследования.
Если в наборе исходных данных имеются избыточные переменные и не проведено их исключение корреляционным анализом, то нельзя вычислить обратную матрицу (8.3). Например, если переменная является суммой двух других переменных, отобранных для этого анализа, то корреляционная матрица для такого набора переменных не может быть обращена, и факторный анализ принципиально не может быть выполнен. На практике это происходит, когда пытаются применить факторный анализ к множеству сильно зависимых переменных, что иногда случается, например, в обработке вопросников. Тогда можно искусственно понизить все корреляции в матрице путём добавления малой константы к диагональным элементам матрицы, и затем стандартизировать её. Эта процедура обычно приводит к матрице, которая может быть обращена, и поэтому к ней применим факторный анализ. Более того, эта процедура не влияет на набор факторов, но оценки оказываются менее точными.
Факторное и регрессионное моделирование систем с переменными состояниямиСистемой с переменными состояниями (СПС) называется система, отклик которой зависит не только от входного воздействия, но и от обобщенного постоянного во времени параметра, определяющего состояние. Регулируемый усилитель или аттенюатор? это пример простейшей СПС, в котором коэффициент передачи может дискретно или плавно изменяться по какому-либо закону. Исследование СПС обычно проводится для линеаризованных моделей, в которых переходный процесс, связанный с изменением параметра состояния, считается завершённым.
Аттенюаторы, выполненные на основе Г-, Т- и П-образного соединения последовательно и параллельно включённых диодов получили наибольшее распространение. Сопротивление диодов под воздействием управляющего тока может меняться в широких пределах, что позволяет изменять АЧХ и затухание в тракте. Независимость фазового сдвига при регулировании затухания в таких аттенюаторах достигается с помощью реактивных цепей, включенных в базовую структуру. Очевидно, что при разном соотношении сопротивлений параллельных и последовательных диодов может быть получен один и тот же уровень вносимого ослабления. Но изменение фазового сдвига будет различным.
Исследуем возможность упрощения автоматизированного проектирования аттенюаторов, исключающего двойную оптимизацию корректирующих цепей и параметров управляемых элементов. В качестве исследуемой СПС будем использовать электрически управляемый аттенюатор, схема замещения которого приведена на рис. 8.8. Минимальный уровень затухания обеспечивается в случае малого сопротивления элемента Rs и большого сопротивления элемента Rp. По мере увеличения сопротивления элемента Rs и уменьшения сопротивления элемента Rp вносимое ослабление увеличивается.
Зависимости изменения фазового сдвига от частоты и затухания для схемы без коррекции и с коррекцией приведены на рис. 8.9 и 8.10 соответственно. В корректированном аттенюаторе в диапазоне ослаблений 1,3-7,7 дБ и полосе частот 0,01?4,0 ГГц достигнуто изменение фазового сдвига не более 0,2°. В аттенюаторе без коррекции изменение фазового сдвига в той же полосе частот и диапазоне ослаблений достигает 3°. Таким образом, фазовый сдвиг уменьшен за счет коррекции почти в 15 раз.
Будем считать параметры коррекции и управления независимыми переменными или факторами, влияющими на затухание и изменение фазового сдвига. Это даёт возможность с помощью системы Statistica провести факторный и регрессионный анализ СПС с целью установления физических закономерностей между параметрами цепи и отдельными характеристиками, а также упрощения поиска оптимальных параметров схемы.
Исходные данные формировались следующим образом. Для параметров коррекции и сопротивлений управления, отличающихся от оптимальных в большую и меньшую стороны на сетке частот 0,01?4 ГГц, были вычислены вносимое ослабление и изменение фазового сдвига.
Методы статистического моделирования, в частности, факторный и регрессионный анализ, которые раньше не использовались для проектирования дискретных устройств с переменными состояниями, позволяют выявить физические закономерности работы элементов системы. Это способствует созданию структуры устройства исходя из заданного критерия оптимальности. В частности, в данном разделе рассматривался фазоинвариантный аттенюатор как типичный пример системы с переменными состояниями. Выявление и интерпретация факторных нагрузок, влияющих на различные исследуемые характеристики, позволяет изменить традиционную методологию и существенно упростить поиск параметров коррекции и параметров регулирования.
Установлено, что использование статистического подхода к проектированию подобных устройств оправдано как для оценки физики их работы, так и для обоснования принципиальных схем. Статистическое моделирование позволяет существенно сократить объём экспериментальных исследований.
Результаты
Министерство сельского хозяйства РФ
Федеральное государственное образовательное учреждение
Высшего профессионального образования
Государственный университет по землеустройству
Кафедра экономической теории и менеджмента
Курсовая работа
По дисциплине «Анализ и диагностика финансовой деятельности предприятия»
На тему: «Факторный анализ элементов производства».
Выполнила:
студентка 34-э группы
Максимова Н.С.
Проверила:
Чиркова Л.Л.
Москва 2009 г.
Введение…………………………………………………………………………….....3
Глава 1. Факторный анализ элементов производства…………………………………………………………………………..4
1.1. Факторный анализ, его виды и задачи…………………………………………………………………………………..4
1.2 . Детерминированный факторный анализ. Требования к моделированию …………………………………………………………………………..8
1.3 Методы и виды детерминированного факторного анализа…………………..10
Глава 2 . Практическая часть………………………………………………………..14
2.1. Способы измерения влияния факторов в анализе хозяйственной деятельности………………………………………………………………………….14
2.2. Факторный анализ финансового состояния автотранспортного предприятия ОАО “Предприятие 1564”……………………………………………….….20
Заключение…………………………………………………………………….……..24
Список используемой литературы…………………………………………….........25
Приложения…………………………………………………………………………..26
Введение
Факторный анализ - совокупность методов многомерного статистического анализа, применяемых для изучения взаимосвязей между значениями переменных. С помощью факторного анализа возможно выявление скрытых (латентных) переменных факторов, отвечающих за наличие линейных статистических связей (корреляций) между наблюдаемыми переменными.
Цели факторного анализа:
Факторный анализ возник в начале XX века, первоначально разрабатывался в задачах психологии. Большой вклад в развитие факторного анализа внесли Чарльз Спирмэн, Рэймонд Кеттел.
Методы факторного анализа:
Факторный анализ – определение влияния факторов на результат - является одним из сильнейших методических решений в анализе хозяйственной деятельности компаний для принятия решений. Для руководителей - дополнительный аргумент, дополнительный "угол зрения".
Однако на практике он применяется редко в силу нескольких причин:
1) реализация этого метода требует некоторых усилий и специфического инструмента (программного продукта);
2) у компаний есть другие «вечные» первоочередные задачи.
Глава 1. Факторный анализ элементов производства
1.1 Факторный анализ, его виды и задачи.
Под факторным анализом понимается методика комплексного и системного изучения и измерения воздействия факторов на величину результативных показателей.
В общем случае можно выделить следующие основные этапы факторного анализа:
1. Постановка цели анализа.
2. Отбор факторов, определяющих исследуемые результативные показатели.
3. Классификация и систематизация факторов с целью обеспечения комплексного и системного подхода к исследованию их влияния на результаты хозяйственной деятельности.
4. Определение формы зависимости между факторами и результативным показателем.
5. Моделирование взаимосвязей между результативным и факторными показателями.
6. Расчет влияния факторов и оценка роли каждого из них в изменении величины результативного показателя.
7. Работа с факторной моделью (практическое ее использование для управления экономическими процессами).
Отбор факторов для анализа того или иного показателя осуществляется на основе теоретических и практических знаний в конкретной отрасли. При этом обычно исходят из принципа: чем больший комплекс факторов исследуется, тем точнее будут результаты анализа. Вместе с тем необходимо иметь в виду, что если этот комплекс факторов рассматривается как механическая сумма, без учета их взаимодействия, без выделения главных, определяющих, то выводы могут быть ошибочными. В анализе хозяйственной деятельности (АХД) взаимосвязанное исследование влияния факторов на величину результативных показателей достигается с помощью их систематизации, что является одним из основных методологических вопросов этой науки.
Важным методологическим вопросом в факторном анализе является определение формы зависимости между факторами и результативными показателями: функциональная она или стохастическая, прямая или обратная, прямолинейная или криволинейная. Здесь используется теоретический и практический опыт, а также способы сравнения параллельных и динамичных рядов, аналитических группировок исходной информации, графический и др.
Моделирование экономических показателей также представляет собой сложную проблему в факторном анализе, решение которой требует специальных знаний и навыков.
Расчет влияния факторов - главный методологический аспект в АХД. Для определения влияния факторов на конечные показатели используется множество способов, которые будут подробнее рассмотрены ниже.
Последний этап факторного анализа - практическое использование факторной модели для подсчета резервов прироста результативного показателя, для планирования и прогнозирования его величины при изменении ситуации.
В зависимости от типа факторной модели различают два основных вида факторного анализа - детерминированный и стохастический.
Детерминированный факторный анализ представляет собой методику исследования влияния факторов, связь которых с результативным показателем носит функциональный характер, т. е. когда результативный показатель факторной модели представлен в виде произведения, частного или алгебраической суммы факторов.
Данный вид факторного анализа наиболее распространен, поскольку, будучи достаточно простым в применении (по сравнению со стохастическим анализом), позволяет осознать логику действия основных факторов развития предприятия, количественно оценить их влияние, понять, какие факторы и в какой пропорции возможно и целесообразно изменить для повышения эффективности производства. Подробно детерминированный факторный анализ мы рассмотрим в отдельной главе.
Стохастический анализ представляет собой методику исследования факторов, связь которых с результативным показателем в отличие от функциональной является неполной, вероятностной (корреляционной). Если при функциональной (полной) зависимости с изменением аргумента всегда происходит соответствующее изменение функции, то при корреляционной связи изменение аргумента может дать несколько значений прироста функции в зависимости от сочетания других факторов, определяющих данный показатель. Например, производительность труда при одном и том же уровне фондовооруженности может быть неодинаковой на разных предприятиях. Это зависит от оптимальности сочетания других факторов, воздействующих на этот показатель.
Стохастическое моделирование является в определенной степени дополнением и углублением детерминированного факторного анализа. В факторном анализе эти модели используются по трем основным причинам:
- необходимо изучить влияние факторов, по которым нельзя построить жестко детерминированную факторную модель (например, уровень финансового левериджа);
В отличие от жестко детерминированного стохастический подход для реализации требует ряда предпосылок:
а) наличие совокупности;
б) достаточный объем наблюдений;
в) случайность и независимость наблюдений;
г) однородность;
д) наличие распределения признаков, близкого к нормальному;
е) наличие специального математического аппарата.
Построение стохастической модели проводится в несколько этапов:
Кроме деления на детерминированный и стохастический, различают следующие типы факторного анализа:
При прямом факторном анализе исследование ведется дедуктивным способом - от общего к частному. Обратный факторный анализ осуществляет исследование причинно-следственных связей способом логичной индукции - от частных, отдельных факторов к обобщающим.
Факторный анализ может быть одноступенчатым и многоступенчатым. Первый тип используется для исследования факторов только одного уровня (одной ступени) подчинения без их детализации на составные части. Например, . При многоступенчатом факторном анализе проводится детализация факторов a и b на составные элементы с целью изучения их поведения. Детализация факторов может быть продолжена и дальше. В этом случае изучается влияние факторов различных уровней соподчиненности.
Необходимо также различать статический и динамический факторный анализ. Первый вид применяется при изучении влияния факторов на результативные показатели на соответствующую дату. Другой вид представляет собой методику исследования причинно-следственных связей в динамике.
И, наконец, факторный анализ может быть ретроспективным, который изучает причины прироста результативных показателей за прошлые периоды, и перспективным, который исследует поведение факторов и результативных показателей в перспективе.
1.2 Детерминированный факторный анализ. Требования к моделированию.
Детерминизм
(от лат. determino - определяю) - учение об объективной закономерной и причинной обусловленности всех явлений. В основе детерминирования лежит положение о существовании причинности, т. е. о такой связи явлений, при которой одно явление (причина) при вполне определенных условиях порождает другое (следствие). }