Репрезентативность выборки. объем и ошибка выборки. Репрезентативная выборка

Понятие репрезентативности в социологическом исследовании

Другими словами, репрезентативность – это качество выборки. Выборка может быть репрезентативной или нерепрезентативной. Если в социологическом исследовании применялась большая группа людей, то выборка будет репрезентативной.

Определение 2

Выборка – это отобранное определенное количество элементов генеральной совокупности. Репрезентативная выборка характерна тем, что все элементы генеральной совокупности представлены в той же пропорции.

Репрезентативность выборки социологического исследования определяется двумя случайными компонентами: ошибками, которые были допущены при регистрации и случайными ошибками.

Пример 1

Например: если объект социологического исследования сложный и имеет несколько элементов, то потребуется большее количество интервьюеров. Не всегда все интервьюеры имеют хорошую квалификацию, что может привести к ошибкам при регистрации. В отличие от этого, проведение выборочного исследования интервьюерами, которые более подготовлены и проинструктированы, ведёт к уменьшению количества ошибок, то есть к случайным ошибкам.

Построение выборки сводится к трём основным проблемам:

  • определить объем выборки (то есть построить определенную процедуру, для того чтобы выборка была репрезентативной);
  • определить объём выборки (количество, которое нужно опросить);
  • оценка качества выборки (анализ точности результатов).

Замечание 1

Важно помнить, что показатели выборки и генеральной совокупности не должны превышать 5%. Если такая пропорция нарушается, то выводы такого социологического исследования не будут соответствовать действительности.

Типы выборок

Выборки делятся на: случайные и целенаправленные.

Случайная выборка является наиболее точной и репрезентативной. Суть данной выборки в том, что благодаря случайному отбору, все единицы генеральной совокупности имеют одинаковые шансы попасть в выборочную совокупность. Такой вид выборки обычно используется перед выборами, референдумами и другими массовыми мероприятиями. Помимо того, что данная выборка даёт нам точность, она имеет сложности в применении. Для того, чтобы провести случайною выборку, социолог должен иметь список элементов генеральной совокупности, что не всегда даётся легко. Случайный отбор требует большого объема выборки для получения точных результатов.

Разновидностями случайной выборки бывают серийная, районированная, механическая и другие.

  • Серийная или гнездовая выборка имеет вид серий. Заключается в отборе отдельных элементов (семья, группа, школа, коллектив и т.д.), которые подвергаются сплошному исследованию.
  • Районированную выборку используют в тех случаях, когда весь массив данных нужно разбить на однородные части. Такими частями могут выступать районы города.
  • Принцип механической выборки заключается в том, что все элементы генеральной совокупности относят в один список и с него через равные интегралы отбирают необходимое количество респондентов. Механическая выборка имеет соотношение генеральной совокупности к выборочной. Например: Если генеральная совокупность 2000 человек, а выборочная 200, то это значит, что с общего списка отбирается каждый десятый.

Целенаправленная выборка – это вид выборки, где отбор осуществляется по критериям доступности, типичности, равенства и т.д. Целенаправленная выборка делится на стихийную, метод снежного кома и квотную.

  • Стихийная выборка – это выборка первого встречного. Минус данной выборки заключается в том, что невозможно заранее установить генеральную совокупность.
  • Метод снежного кома заключается в нарастании информации. Каждый опрашиваемый респондент даёт контакты коллег, друзей, знакомых, которые могут принять участие в исследование и т.д.
  • Квотная выборка. В данной выборке все данные являются квотой. При использовании квотной выборки респондентов подбирают целенаправленно, придерживаясь параметров квот. Характеристики, которые отбирают по квотам – это пол, образование, возраст, уровень квалификации или другие, которые определяются целями и заданиями самого социологического исследования.

Понятие репрезентативности часто встречается в статистических отчетностях и при подготовке выступлений и докладов. Пожалуй, без нее трудно представить себе какой-либо из видов подачи информации на обозрение.

Репрезентативность - что это?

Репрезентативность отражает, насколько выбранные объекты или части соответствуют содержанию и смыслу совокупности данных, из которой они были выбраны.

Другие определения

Понятие репрезентативности можно раскрывать в разных контекстах. Но по своему смыслу репрезентативность - это соответствие черт и свойств выбранных единиц из общей совокупности, которые точно отражают характеристики всей генеральной базы данных в целом.

Также репрезентативность информации определяют как способность выборочных данных представить параметры и свойства совокупности, важные с точки зрения проводимого исследования.

Репрезентативная выборка

Принцип формирования выборки заключается в избрании наиболее важных и точно отображающих свойства общей совокупности данных. Для этого используются различные методы, которые позволяют получать точные результаты и общее представление о используя только выборочные материалы, описывающие качества всех данных.

Таким образом, нет необходимости изучать весь материал, а достаточно рассмотреть выборочную репрезентативность. Что это? Это выборка отдельных данных для того, чтобы иметь понятие об общей массе информации.

Их в зависимости от способа различают как вероятностные и невероятностные. Вероятностная - это выборка, которая производится путем вычисления наиболее важных и интересных данных, являющихся в дальнейшем представителями генеральной совокупности. Это обдуманный выбор или случайная выборка, тем не менее, обоснованная своим содержанием.

Невероятностная - это одна из разновидностей случайной выборки, составляющаяся по принципу обычной лотереи. В таком случае не учитывается мнение того, кто составляет такую выборку. Используется лишь слепой жребий.

Вероятностная выборка

Вероятностные выборки также могут подразделяться на несколько видов:

  • Одна из самых простых и понятных принципов - это нерепрезентативная выборка. К примеру, такой способ часто используется при проведении социальных опросов. При этом участники опроса не выбираются из толпы по каким-либо определенным признакам, и получение информации производится у первых 50 людей, принявших участие в нём.
  • Преднамеренные выборки отличаются тем, что имеют ряд требований и условий при отборе, однако все же полагаются на случайное совпадение, не преследуя своей целью достижение хорошей статистики.
  • Выборка на основании квот - это еще одна из вариаций невероятностной выборки, которая часто используется для исследования больших совокупностей данных. Для нее используется множество условий и норм. Подбираются объекты, которые должны им соответствовать. То есть на примере социального опроса можно предположить, что опрошены будут 100 человек, но только мнение некоторого числа людей, которые будут соответствовать установленным требованиям, будут учтены при составлении статистического отчета.

Вероятностные выборки

Для вероятностных выборок исчисляется ряд параметров, которым объекты в выборке будут соответствовать, и среди них разными способами могут избираться именно те факты и данные, которые будут представлены как репрезентативность данных выборки. Такими способами вычисления нужных данных могут быть:

  • Простая случайная выборка. Заключается в том, что среди выбранного сегмента совершенно случайным методом лотереи выбирается необходимое количество данных, которые будут являться репрезентативной выборкой.
  • Систематическая и случайная выборка дает возможность составить систему вычисления необходимых данных на основе случайно выбранного сегмента. Таким образом, если первое случайное число, которое указывает на порядковый номер данных, выбранных из общей совокупности, будет 5, то последующими данными, которые будут выбраны, могут стать, например, 15, 25, 35 и так далее. Этот пример наглядно объясняет, что даже случайный выбор может основываться на систематических вычислениях необходимых исходных данных.

Выборка потребителей

Осмысленная выборка - это способ, который заключается в рассмотрении каждого отдельного сегмента, и на основании его оценки составляется совокупность, отражающая характеристики и свойства общей базы данных. Таким образом набирается большее количество данных, соответствующих требованиям репрезентативной выборки. Можно легко отобрать некоторое количество вариантов, которые не войдут в общее число, не потеряв при этом качество отобранных данных, представляющих общую совокупность. Таким способом определяется репрезентативность результатов исследования.

Размер выборки

Не последний вопрос, который необходимо решить, - это размер выборки для репрезентативного представления генеральной совокупности. Размер выборки не всегда зависит от количества исходников в генеральной совокупности. Однако репрезентативность выборочной совокупности напрямую зависит от того, на сколько сегментов должен быть в итоге разделён результат. Чем больше таких сегментов, тем больше данных попадает в результативную выборку. Если результаты требуют общего обозначения и не требуют конкретики, тогда, соответственно, выборка становится меньше, поскольку, не вдаваясь в детали, информация излагается более поверхностно, а значит, ее прочтение будет общим.

Понятие ошибки репрезентативности

Ошибка репрезентативности - это конкретные расхождения между характеристиками генеральной совокупности и выборочных данных. При проведении любого выборочного исследования невозможно получить абсолютно точные данные, как при полном исследовании генеральных совокупностей и выборки, представленной лишь частью сведений и параметров, тогда как более детальное изучение возможно только при исследовании всей совокупности. Таким образом, неизбежны некоторые погрешности и ошибки.

Виды ошибок

Различают некоторые ошибки, которые возникают при составлении репрезентативной выборки:

  • Систематические.
  • Случайные.
  • Преднамеренные.
  • Непреднамеренные.
  • Стандартные.
  • Предельные.

Основанием для появления случайных ошибок может быть несплошной характер исследования общей совокупности. Обычно случайная ошибка репрезентативности имеет незначительный размер и характер.

Систематические ошибки между тем возникают при нарушении правил отбора данных из общей совокупности.

Средняя ошибка - это разница между усредненными значениями выборки и основной совокупностью. Она не зависит от количества единиц в выборке. Она обратно пропорциональна Тогда чем больше объем, тем меньше значение средней ошибки.

Предельная ошибка - это наибольшая возможная разница между усредненными значениями сделанной выборки и общей совокупностью. Такая ошибка охарактеризовывается как максимум вероятных ошибок при заданных условиях их появления.

Преднамеренные и непреднамеренные ошибки репрезентативности

Ошибки смещения данных бывают преднамеренными и непреднамеренными.

Тогда причинами появления преднамеренных ошибок является подход к подбору данных по методу определения тенденций. Непреднамеренные ошибки возникают еще на стадии подготовки выборочного наблюдения, формирования репрезентативной выборки. Для недопущения подобных ошибок необходимо создать хорошую основу для выборки, составляющей списки единиц отбора. Она должна полностью соответствовать целям проведения выборки, быть достоверной, охватывающей все аспекты исследования.

Валидность, надежность, репрезентативность. Расчет ошибок

Расчет ошибки репрезентативности (Мм) средней арифметической величины (М).

Среднее квадратическое отклонение: численность выборки (>30).

Ошибка репрезентативности (Мр) и (Р): численность выборки (n>30).

В том случае, когда приходится изучать совокупность, где количество выборки мало и составляет меньше 30 единиц, тогда число наблюдений станет меньше на одну единицу.

Величина ошибки прямо порциональна объему выборки. Репрезентативность информации и вычисление степени возможности составления точного прогноза отражает определенная величина предельной ошибки.

Репрезентативные системы

Не только в процессе оценки подачи информации используется репрезентативная выборка, но и сам человек, получающий информацию, использует репрезентативные системы. Таким образом, мозг обрабатывает некоторое создавая репрезентативную выборку из всего потока информации, чтобы качественно и быстро оценить подаваемые данные и понять суть вопроса. Ответить на вопрос: «Репрезентативность - что это?» - в масштабах человеческого сознания довольно просто. Для этого мозг использует все подвластные в зависимости от того, какую именно информацию необходимо вычленить из общего потока. Таким образом, различают:

  • Визуальную репрезентативную систему, где задействуются органы зрительного восприятия глаза. Люди, часто использующие подобную систему, называются визуалами. С помощью этой системы человек обрабатывает информацию, поступающую в виде изображений.
  • Аудиальная репрезентативная система. Главный орган, который используется - это слух. Информация, подаваемая в виде звуковых файлов или речи, обрабатываются именно этой системой. Люди, лучше воспринимающие информацию на слух, называются аудиалами.
  • Кинестетическая репрезентативная система представляет собой обработку потока информации, путем восприятия его с помощью обонятельных и осязательных каналов.

  • Дигитальная репрезентативная система используется вместе с другими как средство получения информации извне. восприятие и осмысление полученных данных.

Итак, репрезентативность - что это? Простая выборка из множества или неотъемлемая процедура при обработке информации? Однозначно можно сказать, что репрезентативность во многом определяет наше восприятие потоков данных, помогая вычленить из него наиболее веские и значимые.

Конечной целью изучения выборочной совокупности всегда является получение информации о генеральной совокупности. Для этого выборочное исследование должно удовлетворять определенным условиям. Одно из главных условий - репрезентативность (представительность) выборки . Как обсуждалось ранее, выделяют качественную и количественную репрезентативность.

Случайность, гарантирующая качественную (структурную) репрезентативность статистических исследований, достигается выполнением ряда условий формирования выборочных групп (совокупностей):

1. Каждый член генеральной совокупности должен иметь равную вероятность попасть в выборку.

2. Отбор единиц наблюдения из генеральной совокупности необходимо проводить независимо от изучаемого признака. Если отбор проводится целенаправленно, то и при этом необходимо соблюдать условия независимости распределения изучаемого признака.

3. Отбор должен проводиться из однородных групп.

Соблюдение условий, гарантирующих максимальную близость выборочной и генеральной совокупностей, обеспечивается специальными способами отбора. В зависимости от способа формирования различают следующие выборки:

1. Выборки, не требующие разделения генеральной совокупности на части (собственно, случайная повторная или бесповторная выборка).

2. Выборки, требующие разбиения генеральной совокупности на части (механическая, типическая или типологическая выборки, когортная, парно-сопряженная выборки).

Собственно, случайная выборка формируется случайным отбором - наудачу. В основе случайного отбора лежит перемешивание. Например: выбор шара в спортлото после перемешивания всех шаров, выбор выигрышных номеров лотереи, случайный выбор карточек больных для исследования и т.п. Иногда используют случайные числа, получаемые из таблиц случайных чисел или с помощью генераторов случайных чисел. Согласно этим числам из заранее пронумерованного массива генеральной совокупности выбираются единицы наблюдения с номерами, соответствующими выпавшим случайным числам.

При составлении случайной выборки после того, как объект выбран, и все необходимые данные о нем зарегистрированы, можно поступать двояко: объект можно вернуть, или не вернуть в генеральную совокупность. В соответствии с этим выборку называют повторной (объект возвращается в генеральную совокупность) или бесповторной (объект не возвращается в генеральную совокупность). Поскольку в большинстве статистических исследований разница между повторной и бесповторной выборками практически отсутствует, то априорно принимается условие, что выборка повторная.

Оценка необходимой численности выборки

Для того, чтобы выборочная совокупность была количественно репрезентативной по отношению к генеральной, необходимо первоначально оценить количество данных, которое требуется включить в выборочную совокупность.

При неизвестной величине генеральной совокупности величину повторной выборки, гарантирующую репрезентативные результаты, если результат отражается показателем в виде относительной величины (доли) , определяют по формуле:

где р – величина показателя изучаемого признака, в %; q = (100- p ) ;

t – доверительный коэффициент, показывающий, какова вероятность того, что размеры показателя не будут выходить за границы предельной ошибки (обычно берется t = 2, что обеспечивает 95% вероятность безошибочного прогноза);

 - предельная ошибка показателя.

Например: одним из показателей, характеризующих здоровье рабочих промышленных предприятий, является процент не болевших в течение года работников. Предположим, что для промышленной отрасли, к которой относится обследуемое предприятие, этот показатель равен 25%. Предельная ошибка, которую можно допустить, чтобы разброс значений показателя не превышал разумные границы, 5%. При этом показатель может принимать значения 25% ±5%, т.е. от 20% до 30%. Допуская t = 2, получаем

В том случае, если показатель - средняя величина , то число наблюдений можно установить по формуле:

где σ - среднее квадратическое отклонение, которое можно получить из предыдущих исследований, либо на основании пробных (пилотажных) исследований.

При бесповторном отборе и при условии известной генеральной совокупности для определения необходимого размера случайной выборки в случае использования относительных величин (доли) применяется формула:

для средних величин используется формула:

где N - численность генеральной совокупности.

Исходя из условий приведенного выше примера и принимая численность генеральной совокупности N =500 рабочих, получаем:

Нетрудно заметить, что необходимая численность выборки при бесповторном отборе меньше, чем при повторном (соответственнo, 188 и 300 рабочих).

В целом, число наблюдений, необходимое для получения репрезентативных данных, изменяется обратно пропорционально квадрату допустимой ошибки.

Механическая выборка - выборка, когда из обследуемой совокупности единицы наблюдения отбираются механически. Например: отбор каждого пятого или каждого десятого рабочего по карточкам отдела кадров предприятия или по амбулаторным картам поликлиники МСЧ.

Типическая, типологическая или районированная выборка предполагает разбивку генеральной совокупности на ряд качественно однородных групп. Например: при изучении заболеваемости студентов вуза для углубленного обследования на каждом курсе выбираются типичные по своему составу студенческие группы. Часто этот способ отбора комбинируется с другими способами. Например: территория города делится в зависимости от степени загрязнения на типичные районы, в этих районах путем случайного отбора формируются группы наблюдения.

Когортный отбор относится к целенаправленным отборам. При этом способе из генеральной совокупности отбираются лица (распределение на подгруппы при этом является неслучайным), объединенные моментом появления какого-либо признака или изучаемого воздействия, играющего существенную роль в исследовании (год рождения, начало болезни, прием препарата и т.п.).

Исследование по типу случай-контроль (СК) – тип эпидемиологического исследования, в котором распределение фактора риска сравнивается в группе пациентов с заболеванием и контрольной группе. Исследование (СК) относится к ретроспективным, поскольку исследователь, разделив пациентов на группы, по тому, есть или нет у них заболевание, выясняет у них информацию из прошлого.

Следует отдельно остановиться на использовании выборочного метода в санитарной статистике при изучении общей заболеваемости населения. Теоретические предпосылки выборочного метода были проверены в ходе специальных исследований. Так, В.С. Быховский и соавт. в 1928 году сделали параллельную обработку 132,8 тыс. карт с данными о заболеваниях сплошным методом и методом механического отбора каждой пятой карты. Анализ результатов этой обработки показал высокую репрезентативность данных выборочного исследования заболеваемости. Однако, вплоть до сегодняшнего дня, отсутствуют единые методические подходы проведения в широкой практике выборочных санитарно-статистических исследований.

Между временным рядом и случайной выборкой существуют принципиальные различия. Во-первых, элементы случайной выборки являются статистически независимыми, а элементы временного ряда - нет, т.к. во временном ряде можно проследить тенденцию развития и прогнозировать значения на будущее. Во-вторых, члены временного ряда не являются одинаково распределенными. В-третьих, у случайной выборки математическое ожидание, дисперсия, среднеквадратическое отклонение являются постоянными, в отличии от временного ряда, который отражает динамику развития какого-либо признака во времени, в связи с чем могут меняться во времени и числовые характеристики.

Репрезентативность выборки - это соответствие характеристик выборки характеристикам генеральной совокупности. Репрезентативность выборки определяет на сколько можно переносить выводы, сделанные по исследуемой выборке, на генеральную совокупность. Для обеспечения высокой репрезентативности выборки необходимо обеспечить большой объем выборки и наличие в ней, элементов из всех групп генеральной совокупности. Для достижения высокой репрезентативности временного ряда необходимо анализировать достаточно продолжительный объем данных, изменяющихся во времени, т.к. например, наличие данные о часовом газопотреблении за 1 января в течение нескольких лет не позволит прогнозировать объем газопотребления за другие даты. Т.е. для обеспечения репрезентативности временного ряда необходимо обеспечить наличие ряда наблюдений, в различные периоды времени.

Репрезентативность выборки определяется в первую очередь ее объемом. К тому же отбор показателей должен осуществляться из однородных групп, причем вероятность попадания любого элемента генеральной совокупности в выборку должна быть одинаковой для всех элементов. В свою очередь на объем выборки влияет способ осуществления отбора. Объем выборки определяется рядом факторов: объем генеральной совокупности, t-критерий Стьюдента, дисперсия выборки, предельная ошибка выборки и т.д. В случае временного ряда репрезентативность достигается наличием информации по разным временным периодам.

На мой взгляд, при исследовании всего временного ряда в целом удобно осуществлять типический отбор, разбив генеральную совокупность на группы, соответствующие одним суткам. И затем для каждых суток по дате выберем случайным образом одно из часовых потреблений. По полученному ряду нельзя будет судить о суточных колебаниях газопотребления, но общую тенденцию проследить будет возможно.

В нашем же случае, при исследовании относительно стабильной области газопотребления, наоборот, больший интерес составляют суточные колебания, поэтому, выборку будем осуществлять из подгрупп соответствующих одному времени потребления.

Таким образом, выберем в качестве базовой 25%-ю выборку генеральной совокупности, т.е. выберем из каждой группы часовых значений 0,25*52=13 значений случайным образом. Пронумеруем все даты (52 шт.), и с помощью функции СЛУЧМЕЖДУ(1;52) определим по 13 значений каждой часовой группы.

Рисунок 18 - Определение номеров элементов, включаемых в выборку

Т.к. функция СЛУЧМЕЖДУ() пересчитывает значения после каждого операции, сохраним найденные значения в формате чисел без формулы.

Рисунок 19 - Формирование 25%-й выборки

Переместим сформированную выборку на отдельный лист.

Рисунок 20 - Сформированная базовая выборка

Основными характеристиками типической выборки являются объем выборки, выборочная средняя, выборочная дисперсия, средняя из внутригрупповых дисперсий, а также средняя и предельная ошибки выборки. В виду того, что все группы равны по числу наблюдений, среднюю из внутригрупповых дисперсий рассчитываем как среднюю арифметическую простую. Внутригрупповые и выборочную дисперсии найдем с помощью функции ДИСП().

Для типического повторного отбора средняя ошибка равна:

Для типического повторного отбора предельная ошибка равна:

Значение t-критерия Стьюдента находится по специальным таблицам. При вероятности 99,7% t=3.

Таблица 6 - Характеристики базовой выборки

Разделим базовую выборку на две подвыборки: первая будет охватывать значения от 0:00 до 11:00 включительно, вторая от 12:00 до 23:00 включительно. Гистограммы будем строить по алгоритму, рассмотренному на прошлом занятии. Для построения гистограмм определим количество и ширину интервалов для базовой выборки, а для подвыборок частоты будем определять по границам интервалов базовой выборки для наглядности изображения гистограмм.

Таблица 7 - Данные для построения гистограмм

Интервал

нижняя граница

верхняя граница

базовая выборка

подвыборка 1

подвыборка 2

Уже глядя на таблицу можно сказать о том, что законы распределения базовой выборки и подвыборок будут отличаться. Что подтверждает предположения, выдвинутые в п.1 и 2 о различиях между выборкой и временным рядом и репрезентативности данных временного ряда.

Рисунок 21 - Гистограмма по базовой выборке и по подвыборкам

Внешний вид диаграмм по базовой выборке и по подвыборкам 1 и 2 различается. В первых интервалах частоты по базовой выборке ближе к частотам подвыборки 1, в последних - подвыборки 2. Это связано с тем, что до 11:00 объем часового газопотребления меньше, чем после 11:00. Данная гистограмма прекрасно иллюстрирует различие между выборкой и временным рядом и статистическую зависимость элементов временных рядов. Законы распределения всех трех рассматриваемых элементов различны.

Найдем характеристики двух подвыборок.

Таблица 8 - Характеристики подвыборок

Характеристики подвыборок

Подвыборка 1 до 11:00

Подвыборка 2 с 12:00

Значение

Значение

Изменение значения относительно характеристик базовой выборки

Выборочная средняя

Выборочная дисперсия

Средняя из внутригрупповых дисперсий

Объем выборки

Ошибки выборки

предельная

Выборочная средняя в первой и второй подвыборках отличаются от средней базовой выборки на -4,23% и +4,23% соответственно. Этот факт подтверждает возможность изменения характеристик во временных рядах по времени.

Выборочная дисперсия во второй подвыборке меньше дисперсии базовой выборки на 55,56%. Данное различие является очень существенным.

Сокращение объема выборки обусловлено разбиением базовой выборки на две равные части.

Ошибки выборки в двух подвыборках значительно выше ошибок базовой выборки.

Определим доверительные интервалы для математических ожиданий базовой выборки и двух подвыборок с помощью функции ДОВЕРИТ.

Таблица 9 - Определение границ доверительных интервалов для математического ожидания

Изобразим схематически доверительные вероятности для математических ожиданий трех рассматриваемых выборок.

Рисунок 22 - Схематическое изображение доверительных интервалов математических ожиданий базовой выборки и подвыборок

Доверительные интервалы не пересекаются между собой, следовательно вероятность равенства математических ожиданий базовой выборки и какой-либо из подвыборок равна 0. Рассчитаем для математического ожидания каждой подвыборки доверительный интервал, используя стандартное отклонение базовой выборки.

Таблица 10 - Расчет новых доверительных интервалов

Для первой подвыборки доверительный интервал изменился незначительно, т.к. стандартное отклонение первой подвыборки близко к стандартному отклонению базовой выборки. Для второй подвыборки доверительный интервал увеличился почти в два раза, что обусловлено аналогичным увеличением задаваемого стандартного отклонения. Расширение доверительного интервала связано с увеличением стандартного отклонения, которое характеризует разброс случайной величины относительно среднего значения. Увеличивается стандартное отклонение, следовательно, увеличивается разброс, что приводит к расширению границ доверительного интервала. Также косвенно обосновать расширение доверительного интервала возможно по правилу трех сигм, которое утверждает: вероятность того, что случайная величина отклонится от своего математического ожидание на величину, большую чем утроенное среднее квадратичное отклонение, практически равна нулю. Чем больше значение стандартного отклонения, тем шире интервал колебаний случайной величины, и следовательно, тем шире доверительный интервал для математического ожидания. Значительное увеличение ошибок выборки и отсутствие пересечений в доверительных интервалах базовой выборки и подвыборок делают данные подвыборки не репрезентативной с точки зрения исследования всего временного ряда динамики часового газопотребления. Данные подвыборки могут быть использованы для анализа и прогноза газопотребления в различное время суток с 0:00 до 11:00 и с 12:00 до 23:00. По такому же принципу можно было сформировать подвыборки и прогнозировать часовое газопотребление в стабильный период в дневное и ночное время. В главе была изучена возможность использования части временного ряда вместо целого при анализе и прогнозе. Значительное увеличение ошибок выборки и отсутствие пересечений в доверительных интервалах базовой выборки и подвыборок делают данные подвыборки не репрезентативной с точки зрения исследования всего временного ряда динамики часового газопотребления. Данные подвыборки могут быть использованы для анализа и прогноза газопотребления в различное время суток с 0:00 до 11:00 и с 12:00 до 23:00. По такому же принципу можно было сформировать подвыборки и прогнозировать часовое газопотребление в стабильный период в дневное и ночное время.

Свойство выборки, благодаря которому результаты выборочного исследовании позволяют делать выводы о генеральной совокупности и эмпирическом объекте в целом, называется репрезентативностью.

Репрезентативность (представительность) выборки - это способность выборки воспроизводить определенные характеристики генеральной совокупности в пределах допустимых погрешностей. Выборку называют репрезентативной, если результат измерения определенного параметра для данной выборки совпадает с учетом допустимой погрешности с известным результатом измерения генеральной совокупности. Если выборочное измерение отклоняется от известного параметра генеральной совокупности больше выбранного уровня погрешности, то такая выборка считается нерепрезентативной.

Предложенное определение прежде всего устанавливает связь между выборочной и генеральной совокупностью исследования. Именно генеральную совокупность представляет выборка, и только на генеральную совокупность могут быть распространены выявленные в выборочном исследовании тенденции. Теперь должно быть понятно, почему ранее такое внимание было уделено задачам корректного определения генеральной совокупности и ее описания в исследовательской документации и публикациях. Выборка не может представлять иную совокупность, отличную от той, из которой фактически проводился отбор единиц для измерения. Если исследователь заблуждается относительно фактических границ генеральной совокупности, то его выводы будут некорректны. Если он по ошибке или намеренно расширяет или искажает границы генеральной совокупности в отчетных материалах, публикациях, презентациях по результатам исследования, то это вводит в заблуждение пользователей и может рассматриваться в качестве фальсификации результатов.

Проверка репрезентативности осуществляется посредством сравнения отдельных параметров выборки и генеральной совокупности. Распространенным заблуждением является существование репрезентативных выборок «вообще».

Репрезентативность или нерепрезентативность выборки может быть установлена исключительно в отношении отдельных переменных. Более того, одна и та же выборка может быть репрезентативна по одним параметрам и нерепрезентативна - по другим.

Как правило, в профессиональном дискурсе социологов репрезентативность представляется как дихотомическое свойство - выборка либо репрезентативна, либо нет. Но это не вполне корректный подход. В действительности выборка может одни параметры генеральной совокупности воспроизводить более точно, а другие - менее точно. Поэтому корректнее (хотя с практической точки зрения и менее удобно) вести речь о мере репрезентативности конкретной выборки по конкретным параметрам.

Как и в случае с выборкой в целом, ключевым моментом в определении репрезентативности выборки является обоснование погрешности, в пределах которой выборка признается репрезентативной для целей исследования. Возможно и обратное - фиксация размера фактических ошибок и констатация факта, что выборка представляет генеральную совокупность с определенными погрешностями. И опять-таки ключевую роль в этом играет характер использования результатов исследования. Следовательно, одна и та же выборка может быть признана достаточно репрезентативной для одних целей (например, для прогноза явки избирателей на предстоящих выборах), но недостаточно репрезентативной для других (например, для определения рейтингов кандидатов и прогноза результатов голосования).

По каким параметрам следует проверять репрезентативность выборки? Во-первых, таких параметров в большинстве исследовательских ситуаций немного. Ведь сопоставить результаты выборочного измерения с данными о генеральной совокупности можно только при наличии последних. А исследования проводятся потому, что таких данных как раз не хватает. Поэтому еще на этапе моделирования объекта и последующей разработки инструментария целесообразно предусмотреть измерение одного или нескольких контрольных параметров, по которым доступны данные, характеризующие генеральную совокупность. Это создаст необходимую эмпирическую базу для проверки репрезентативности.

Во-вторых, нужно стремиться проверять репрезентативность выборки по параметрам, имеющим существенное значение для предметной области исследования. В современной практике широкое распространение получил контроль репрезентативности по основным демографическим параметрам - полу, возрасту, образованию и пр. Эти данные, как правило, доступны для любого территориального объекта, так как фиксируются во время переписей населения и впоследствии пересчитываются статистическими учреждениями с применением обоснованных математических моделей. По этой причине обязательное включение нескольких демографических переменных в «паспортичку» стало общепринятой профессиональной нормой. Однако такая практика может быть отнесена к разряду наивных и подвергнута обоснованной критике. Дело в том, что основные и общедоступные для сравнения демографические параметры далеко не всегда играют роль структурирующих факторов в отношении предметов социологических исследований. Их природа сама по себе не является социальной, а влияние на объекты исследований часто достаточно опосредованно. Поэтому репрезентативные по демографическим параметрам выборки на деле могут скрывать значительные проблемы в виде системных ошибок и неконтролируемых смещений. Напротив, демографическая репрезентативность эффективных с точки зрения целей и задач исследования выборок может оказаться невысокой.

Вот интересный пример из практики. В 2009 г. одна из исследовательских компаний, работающих на Урале, выполнила опрос в г. Ки- зеле Пермского края. В ходе проведения полевых работ исследователи столкнулись с серьезными препятствиями для набора предусмотренной планом исследования выборки - отсутствием достаточного количества доступных респондентов, ухудшением погодных условия. Судя по всему, исследовательская компания не была в полной мере готова к осуществлению работ в таком масштабном проекте. Ее производственные мощности работали на пределе возможностей, чтобы в течение недели обеспечить опрос 6000 респондентов на достаточно обширной территории. В результате фактическая выборка во многих местах проведения опроса была, по признанию самих исследователей, наполнена всеми, кого удалось привлечь к участию в исследовании. Установленные техническим заданием демографические квоты были нарушены в большинстве районов опроса. В некоторых районах искажение пропорций наполнения выборки по отношению к квотному заданию достигали для отдельных категорий населения 2,5 раза, что фактически ставило под сомнение сам факт применения квотной выборки. Казалось, заказчик исследования имеет все основания для предъявления обоснованных претензий к исследователям.

Однако проведенная по поручению арбитражного суда экспертиза установила, что такие значительные искажения квот и, соответственно, явная нерепрезентативность полученной выборки по основным демографическим параметрам практически не привели к искажению данных исследования! Путем перевзешивания массива данных эксперты получили эффект репрезентативной по контролируемым параметрам выборки. Практически все проверенные экспертами частотные распределения данных показали статистически не значимые различия между результатами обработки фактического и перевзвешенного массивов. Де-факто это означает, что, несмотря на грубейшие нарушения технологии опроса и практическое игнорирование квотных заданий, исследователи предоставили заказчику те же самые данные, на которые он мог рассчитывать, если бы процедуры формирования выборки были полностью соблюдены и демографическая репрезентативность была обеспечена.

Как такое могло произойти? Ответ прост - использованные для контроля репрезентативности демографические параметры практически не имели (и это подтвердил корреляционный анализ) влияния на предметные переменные исследования - оценки населением социально- экономического положения и параметры его общественно-политической активности. К тому же размер выборки был весьма велик относительно генеральной совокупности (фактически исследование охватывало четверть взрослого населения муниципального округа), что в результате действия закона больших чисел привело к стабилизации наблюдаемых распределений задолго до того, как требуемое число респондентов было опрошено.

Практический вывод из этой поучительной истории состоит в том, что усилия и ресурсы следует направлять на обеспечение и контроль репрезентативности в отношении таких параметров выборки, которые, как предполагает исследователь, оказывают существенное влияние на предмет исследования. Это означает, что параметры для контроля репрезентативности должны выбираться специально для каждого исследовательского проекта соответственно его предметной специфике. Например, оценки социально-экономического положения всегда сильно связаны с реальным благосостоянием семьи респондента, его позициями на рынке труда и в бизнес-сфере. Соответственно, именно эти параметры целесообразно использовать для контроля репрезентативности. Другое дело, что получить объективные данные, характеризующие по ним генеральную совокупность, может быть непросто. Здесь нужен творческий подход и, возможно, компромисс. Например, уровень благосостояния можно проконтролировать по наличию автомобиля в семье респондента, ведь статистика зарегистрированных автомашин в регионе может быть доступна.

Интересно, что в исследовательских отчетах и публикациях практически всегда упоминаются именно репрезентативные выборки. Неужели нерепрезентативные выборки настолько редки? Конечно нет. Выборок, которые являются проблемными с точки зрения репрезентативности по тем или иным параметрам, в исследовательской практике встречается достаточно. Скорее их даже больше, чем выборок, репрезентативность которых может быть оценена не формально (по демографическим параметрам), а по существу. Однако их публичное упоминание в профессиональной социологической среде, к сожалению, табуировано. И никто из исследователей не готов признать, что репрезентативность его выборки по существенным для предметной области измерения параметрам проблематична либо не проверяема.

На самом деле обнаружение признаков нерепрезентативности выборки не является катастрофой. Во-первых, существующие технологии «ремонта» (перевзвешивания) выборки во многих случаях позволяют полностью исключить эффект нерепрезентативности относительно беспокоящего социолога или его клиента параметра. Суть метода перевзвешивания состоит в присваивании различным категориям наблюдений (в случае опроса - респондентов) определенных весовых коэффициентов , компенсирующих недостаточное или избыточное фактическое представительство данных категорий в выборке. В дальнейшем эти веса учитываются при проведении всех расчетных операций с массивом данных, что позволяет получать распределения, полностью соответствующие сбалансированному (соответствующему расчетным квотам) массиву данных. Современные статистические программы, такие как БРвв, позволяют производить расчеты с учетом весовых коэффициентов в автоматическом режиме, что делает эту процедуру достаточно легкой для исполнения.

Во-вторых, даже если получить «хорошую» репрезентативную выборку не получается, «умеренной» репрезентативности может оказаться достаточно для решения многих исследовательских задач. Напомним, что репрезентативность - это скорее мера соответствия, чем дихотомический маркер. И только отдельные исследовательские задачи - в основном связанные с точным прогнозированием определенных событий - требуют от выборок действительно высокой (статистически подтвержденной) репрезентативности.

Например, для того, чтобы прогнозировать рыночную долю нового продукта в маркетинговом исследовании требуется выборка, охватывающая и репрезентирующая потенциальных клиентов. Однако чаще всего маркетологи не имеют достаточных данных о том, кто на самом деле образует круг их клиентов, тем более - потенциальный. В этой ситуации проверить репрезентативность выборки вообще невозможно - ведь неизвестно, какие параметры она должна воспроизводить. Тем не менее многие маркетинговые задачи успешно решаются, так как для выявления клиентских предпочтений, реакции на рекламные материалы, анализа отзывов на новый продукт статистически репрезентативные выборки не нужны - достаточно обеспечить охват типичной клиентуры, которую легко найти прямо в магазинах. Нерепрезентативные выборки вполне подходят для решения поисковых задач, выявления сильно выраженных тенденций, анализа специфики отдельных категорий (представленных маленькими самостоятельными подвыборками), сравнения таких категорий между собой (двумерный анализ), анализа взаимосвязей между переменными и других задач, в которых точность полученных статистических распределений имеет второстепенное значение.