Выборки это: Выборка и генеральная совокупность. Центральная предельная теорема

Выборка и генеральная совокупность. Центральная предельная теорема

Поговорим о том, что такое выборка и генеральная совокупность, чем они отличаются, и возможно ли определить генеральную совокупность при ограниченном наборе данных.

Давайте представим, что у нас стоит задача получить количественные данные (quantitative data) о росте всех мужчин в России. Когда мы говорим о количественных данных, мы всегда говорим о каком-нибудь числовом значении. Приступив к делу, можем начать опрашивать мужчин на улице, помещая полученные данные, к примеру, в Python-список:

# данные по 1000 респондентов в сантиметрах
[185.0, 179.0, 186.0, 195.0, 178.0, 178.0, 196.0, 188.0, 175.0, 185.0, 175.0, 175.0, 182.0, 161.0, 163.0, 174.0, 170.0, 183.0, 171.0, 166.0, 195.0, 178.0, 181.0, 166.0, 175.0, 181.0, 168.0, 184.0, 174.0, 177.0, 174.0, 199.0, 180.0, 169.0, 188.0, 168.0, 182.0, 160.0, 167.0, 182.0, 187.0, 182.0, 179. 0, 177.0, 165.0, 173.0, 175.0, 191.0, 183.0, 162.0, 183.0, 176.0, 173.0, 186.0, 190.0, 189.0, 172.0, 177.0, 183.0, 190.0, 175.0, 178.0, 169.0, 168.0, 188.0, 194.0, 179.0, 190.0, 184.0, 174.0, 184.0, 195.0, 180.0, 196.0, 154.0, 188.0, 181.0, 177.0, 181.0, 160.0, 178.0, 184.0, 195.0, 175.0, 172.0, 175.0, 189.0, 183.0, 175.0, 185.0, 181.0, 190.0, 173.0, 177.0, 176.0, 165.0, 183.0, 183.0, 180.0, 178.0, 166.0, 176.0, 177.0, 172.0, 178.0, 184.0, 199.0, 182.0, 183.0, 179.0, 161.0, 180.0, 181.0, 205.0, 178.0, 183.0, 180.0, 168.0, 191.0, 188.0, 188.0, 171.0, 194.0, 166.0, 186.0, 202.0, 170.0, 174.0, 181.0, 175.0, 164.0, 181.0, 169.0, 185.0, 171.0, 195.0, 172.0, 177.0, 188.0, 168.0, 182.0, 193.0, 164.0, 182.0, 183.0, 188.0, 168.0, 167.0, 185.0, 183.0, 183.0, 183.0, 173.0, 182.0, 183.0, 173.0, 199.0, 185.0, 168.0, 187.0, 170.0, 188.0, 192.0, 172.0, 190.0, 184.0, 188.0, 199.0, 178.0, 172.0, 171.0, 172.0, 179.0, 183.0, 183.0, 188.0, 180.0, 195.0, 177.0, 207.0, 186.0, 171.0, 169.0, 185.0, 178.0, 187.
0, 185.0, 179.0, 172.0, 165.0, 176.0, 189.0, 182.0, 168.0, 182.0, 184.0, 171.0, 182.0, 181.0, 169.0, 184.0, 186.0, 191.0, 191.0, 166.0, 171.0, 185.0, 185.0, 185.0, 219.0, 186.0, 191.0, 190.0, 187.0, 177.0, 188.0, 172.0, 178.0, 175.0, 181.0, 203.0, 161.0, 187.0, 164.0, 175.0, 191.0, 181.0, 169.0, 173.0, 187.0, 173.0, 182.0, 180.0, 173.0, 201.0, 186.0, 160.0, 182.0, 173.0, 189.0, 172.0, 179.0, 185.0, 189.0, 168.0, 177.0, 175.0, 173.0, 198.0, 184.0, 167.0, 189.0, 201.0, 190.0, 165.0, 175.0, 193.0, 173.0, 184.0, 188.0, 171.0, 179.0, 148.0, 170.0, 177.0, 168.0, 196.0, 166.0, 176.0, 181.0, 194.0, 166.0, 192.0, 180.0, 170.0, 185.0, 182.0, 174.0, 181.0, 176.0, 181.0, 187.0, 196.0, 168.0, 201.0, 160.0, 178.0, 186.0, 183.0, 174.0, 178.0, 175.0, 174.0, 188.0, 184.0, 173.0, 189.0, 183.0, 188.0, 186.0, 172.0, 174.0, 187.0, 186.0, 180.0, 181.0, 193.0, 174.0, 185.0, 178.0, 178.0, 191.0, 188.0, 188.0, 193.0, 180.0, 187.0, 177.0, 183.0, 179.0, 181.0, 186.0, 172.0, 201.0, 170.0, 168.0, 192.0, 188.0, 186.
0, 186.0, 180.0, 171.0, 181.0, 173.0, 190.0, 179.0, 172.0, 177.0, 184.0, 174.0, 172.0, 182.0, 182.0, 175.0, 175.0, 182.0, 166.0, 166.0, 173.0, 178.0, 183.0, 195.0, 189.0, 178.0, 180.0, 170.0, 180.0, 177.0, 183.0, 172.0, 185.0, 195.0, 179.0, 184.0, 187.0, 176.0, 182.0, 180.0, 181.0, 172.0, 180.0, 185.0, 195.0, 190.0, 202.0, 172.0, 189.0, 182.0, 202.0, 172.0, 172.0, 174.0, 159.0, 175.0, 172.0, 182.0, 183.0, 199.0, 190.0, 174.0, 171.0, 185.0, 167.0, 198.0, 192.0, 175.0, 163.0, 194.0, 179.0, 192.0, 164.0, 174.0, 180.0, 180.0, 175.0, 186.0, 169.0, 179.0, 181.0, 185.0, 187.0, 169.0, 165.0, 193.0, 183.0, 173.0, 196.0, 181.0, 192.0, 181.0, 201.0, 198.0, 178.0, 190.0, 186.0, 194.0, 170.0, 187.0, 191.0, 162.0, 168.0, 160.0, 177.0, 187.0, 195.0, 181.0, 196.0, 166.0, 163.0, 179.0, 184.0, 180.0, 159.0, 179.0, 167.0, 187.0, 184.0, 171.0, 175.0, 169.0, 179.0, 190.0, 170.0, 185.0, 175.0, 172.0, 179.0, 170.0, 174.0, 168.0, 200.0, 180.0, 173.0, 182.0, 179.0, 178.0, 186.0, 188.0, 175.0, 174.0, 177.0, 157.
0, 165.0, 194.0, 196.0, 178.0, 186.0, 183.0, 211.0, 191.0, 179.0, 170.0, 164.0, 182.0, 172.0, 166.0, 174.0, 169.0, 197.0, 189.0, 180.0, 195.0, 181.0, 171.0, 195.0, 185.0, 170.0, 178.0, 171.0, 166.0, 189.0, 199.0, 166.0, 186.0, 173.0, 175.0, 174.0, 171.0, 180.0, 172.0, 183.0, 179.0, 178.0, 171.0, 174.0, 188.0, 185.0, 170.0, 181.0, 188.0, 163.0, 185.0, 173.0, 186.0, 172.0, 162.0, 164.0, 180.0, 183.0, 171.0, 186.0, 163.0, 179.0, 168.0, 173.0, 180.0, 171.0, 176.0, 190.0, 174.0, 188.0, 169.0, 185.0, 194.0, 155.0, 172.0, 186.0, 178.0, 184.0, 174.0, 181.0, 178.0, 192.0, 183.0, 183.0, 176.0, 175.0, 176.0, 184.0, 176.0, 183.0, 201.0, 189.0, 177.0, 192.0, 176.0, 160.0, 170.0, 161.0, 176.0, 180.0, 197.0, 183.0, 178.0, 188.0, 158.0, 182.0, 188.0, 165.0, 191.0, 183.0, 176.0, 186.0, 203.0, 182.0, 182.0, 175.0, 172.0, 188.0, 171.0, 181.0, 175.0, 185.0, 183.0, 190.0, 175.0, 177.0, 170.0, 176.0, 184.0, 188.0, 171.0, 189.0, 194.0, 184.0, 199.0, 172.0, 168.0, 162.0, 195.0, 187.0, 179.0, 183.0, 169.0, 204.
0, 181.0, 181.0, 187.0, 185.0, 182.0, 172.0, 185.0, 199.0, 193.0, 196.0, 175.0, 170.0, 179.0, 181.0, 191.0, 163.0, 195.0, 178.0, 176.0, 170.0, 163.0, 188.0, 181.0, 167.0, 167.0, 177.0, 197.0, 177.0, 165.0, 178.0, 177.0, 153.0, 179.0, 178.0, 187.0, 198.0, 191.0, 177.0, 169.0, 206.0, 181.0, 180.0, 180.0, 182.0, 179.0, 174.0, 175.0, 180.0, 175.0, 173.0, 181.0, 177.0, 195.0, 153.0, 191.0, 192.0, 159.0, 177.0, 176.0, 166.0, 172.0, 169.0, 198.0, 189.0, 193.0, 187.0, 169.0, 175.0, 185.0, 168.0, 187.0, 178.0, 176.0, 187.0, 184.0, 176.0, 192.0, 169.0, 186.0, 186.0, 177.0, 183.0, 167.0, 189.0, 178.0, 175.0, 190.0, 173.0, 166.0, 164.0, 186.0, 167.0, 198.0, 159.0, 197.0, 182.0, 179.0, 175.0, 184.0, 180.0, 191.0, 181.0, 182.0, 176.0, 179.0, 183.0, 163.0, 167.0, 187.0, 182.0, 178.0, 180.0, 183.0, 175.0, 172.0, 182.0, 170.0, 184.0, 163.0, 190.0, 185.0, 183.0, 190.0, 197.0, 190.0, 162.0, 167.0, 174.0, 180.0, 185.0, 173.0, 182.0, 172.0, 174.0, 166.0, 171.0, 166.0, 170.0, 191.0, 171.0, 206.0, 185.0, 182.
0, 171.0, 187.0, 174.0, 181.0, 206.0, 179.0, 191.0, 173.0, 180.0, 198.0, 174.0, 198.0, 187.0, 174.0, 186.0, 190.0, 186.0, 164.0, 173.0, 178.0, 179.0, 186.0, 182.0, 167.0, 184.0, 186.0, 186.0, 191.0, 188.0, 185.0, 179.0, 163.0, 184.0, 182.0, 183.0, 167.0, 169.0, 191.0, 180.0, 187.0, 180.0, 180.0, 189.0, 175.0, 181.0, 175.0, 176.0, 177.0, 182.0, 175.0, 193.0, 171.0, 178.0, 176.0, 194.0, 182.0, 190.0, 165.0, 183.0, 189.0, 181.0, 191.0, 175.0, 194.0, 203.0, 176.0, 176.0, 195.0, 196.0, 175.0, 176.0, 177.0, 167.0, 171.0, 170.0, 172.0, 180.0, 182.0, 196.0, 170.0, 190.0, 178.0, 180.0, 187.0, 169.0, 184.0, 182.0, 185.0, 183.0, 205.0, 174.0, 175.0, 174.0, 174.0, 174.0, 192.0, 194.0, 174.0, 172.0, 185.0, 174.0, 186.0, 182.0, 165.0, 195.0, 198.0, 174.0, 176.0, 183.0, 183.0, 187.0, 200.0, 178.0, 172.0, 166.0, 173.0, 180.0, 198.0, 175.0, 182.0, 180.0, 192.0, 205.0, 175.0, 175.0, 190.0, 187.0, 198.0, 186.0, 176.0, 186.0, 191.0, 188.0, 185.0, 191.0, 192.0, 194.0, 186.0, 178.0, 181.0, 192.0, 172.0, 184.
0, 176.0, 180.0, 193.0, 182.0, 180.0, 166.0, 187.0, 186.0, 202.0, 177.0, 182.0, 182.0, 196.0, 179.0, 183.0, 186.0, 182.0, 176.0, 182.0, 191.0, 170.0, 181.0, 173.0, 192.0, 165.0, 174.0, 184.0, 196.0, 179.0, 174.0, 199.0, 166.0, 158.0, 184.0, 175.0, 170.0, 187.0, 182.0, 174.0, 167.0, 189.0, 187.0, 179.0, 198.0, 169.0, 165.0, 173.0, 180.0, 182.0, 178.0, 184.0, 167.0, 194.0, 179.0, 191.0, 183.0, 185.0, 186.0, 184.0, 186.0, 193.0, 182.0, 187.0, 179.0, 194.0, 173.0, 198.0, 180.0, 166.0, 181.0, 173.0, 188.0, 173.0, 176.0, 161.0, 175.0, 156.0, 164.0, 188.0, 188.0, 184.0, 170.0, 180.0, 180.0, 168.0, 195.0, 189.0, 178.0, 180.0, 182.0, 160.0, 178.0, 173.0, 170.0, 177.0, 198.0, 186.0, 174.0, 186.0]

Опросив тысячу респондентов, можем ли мы сказать, что полученные результаты полностью отражают фактические показатели роста всех российских мужчин? Нет, не можем, ведь мы же не измеряли рост каждого человека. То есть на первый взгляд задача кажется нереализуемой.

По сути, те мужчины, которых удалось измерить, попали в выборку (sample). А все российские мужчины — это

генеральная совокупность (population).

Но можно ли вообще хоть как-то определить генеральную совокупность, имея ограниченный набор данных? На самом деле, да. Существует теоретическое обоснование этой возможности и называется оно Центральной предельной теоремой.

Центральная предельная теорема

Central Limit Theorem говорит, что при множественном выборочном сборе данных среднее средних всех полученных выборок (распределение средних) станет стремиться к среднему генеральной совокупности. Давайте рассмотрим, как это может выглядеть на практике.

Возьмем несколько выборок из одной генеральной совокупности и узнаем среднее из каждой выборки.

Теперь посчитаем среднее арифметическое средних наших выборок. Мы получим новое среднее значение, которое станет стремиться к среднему генеральной совокупности (для обозначения используется греческая буква μ, «мю»).

Что из этого всего следует? На самом деле, очень важная вещь: по факту мы получили возможность сказать что-либо определенное про ту величину, которую в принципе невозможно охватить измерением.

По материалам сайта https://www.dmitrymakarov.ru/intro/.

Выборка | это… Что такое Выборка?

Выборка или выборочная совокупность — множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.

Характеристики выборки:

  • Качественная характеристика выборки – кого именно мы выбираем и какие способы построения выборки мы для этого используем.
  • Количественная характеристика выборки – сколько случаев выбираем, другими словами объём выборки.

Необходимость выборки

  • Объект исследования очень обширный. Например, потребители продукции глобальной компании – огромное количество территориально разбросанных рынков.
  • Существует необходимость в сборе первичной информации.

Содержание

  • 1 Объём выборки
  • 2 Зависимые и независимые выборки
  • 3 Репрезентативность
    • 3.1 Пример нерепрезентативной выборки
  • 4 Виды плана построения групп из выборок
  • 5 Типы выборки
    • 5.1 Вероятностные выборки
    • 5.2 Невероятностные выборки
  • 6 Стратегии построения групп
    • 6.1 Рандомизация
    • 6.2 Попарный отбор
    • 6.3 Стратометрический отбор
    • 6.4 Приближённое моделирование
  • 7 Примечания
  • 8 Литература
  • 9 См. также
  • 10 Ссылки

Объём выборки

Объём выборки — число случаев, включённых в выборочную совокупность. Из статистических соображений рекомендуется, чтобы число случаев составляло не менее 30—35.

Зависимые и независимые выборки

При сравнении двух (и более) выборок важным параметром является их зависимость.

Если можно установить гомоморфную пару (то есть, когда одному случаю из выборки X соответствует один и только один случай из выборки Y и наоборот) для каждого случая в двух выборках (и это основание взаимосвязи является важным для измеряемого на выборках признака), такие выборки называются зависимыми. Примеры зависимых выборок:

  • пары близнецов,
  • два измерения какого-либо признака до и после экспериментального воздействия,
  • мужья и жёны
  • и т. п.

В случае, если такая взаимосвязь между выборками отсутствует, то эти выборки считаются независимыми, например:

  • мужчины и женщины,
  • психологи и математики.

Соответственно, зависимые выборки всегда имеют одинаковый объём, а объём независимых может отличаться.

Сравнение выборок производится с помощью различных статистических критериев:

  • t-критерий Стьюдента
  • Критерий Уилкоксона
  • U-критерий Манна-Уитни
  • Критерий знаков
  • и др.

Репрезентативность

Выборка может рассматриваться в качестве репрезентативной или нерепрезентативной.

Пример нерепрезентативной выборки

В США одним из наиболее известных исторических примеров нерепрезентативной выборки считается случай, происшедший во время президентских выборов в 1936 году[1]. Журнал «Литрери Дайджест», успешно прогнозировавший события нескольких предшествующих выборов, ошибся в своих предсказаниях, разослав десять миллионов пробных бюллетеней своим подписчикам, а также людям, выбранным по телефонным книгам всей страны и людям из регистрационных списков автомобилей. В 25 % вернувшихся бюллетеней (почти 2,5 миллиона) голоса были распределены следующим образом:

  • 57 % отдавали предпочтение кандидату-республиканцу Альфу Лэндону
  • 40 % выбрали действующего в то время президента-демократа Франклина Рузвельта

На действительных же выборах, как известно, победил Рузвельт, набрав более 60 % голосов. Ошибка «Литрери Дайджест» заключалась в следующем: желая увеличить репрезентативность выборки, — так как им было известно, что большинство их подписчиков считают себя республиканцами, — они расширили выборку за счёт людей, выбранных из телефонных книг и регистрационных списков. Однако они не учли современных им реалий и в действительности набрали ещё больше республиканцев: во время Великой депрессии обладать телефонами и автомобилями могли себе позволить в основном представители среднего и высшего класса (то есть большинство республиканцев, а не демократов).

Виды плана построения групп из выборок

Выделяют несколько основных видов плана построения групп[2]:

  1. Исследование с экспериментальной и контрольной группами, которые ставятся в разные условия.
    • Исследование с экспериментальной и контрольной группами с привлечением стратегии попарного отбора
  2. Исследование с использованием только одной группы — экспериментальной.
  3. Исследование с использованием смешанного (факторного) плана — все группы ставятся в разные условия.

Типы выборки

Выборки делятся на два типа:

  • вероятностные
  • невероятностные

Вероятностные выборки

  1. Простая вероятностная выборка:
    • Простая повторная выборка. Использование такой выборки основывается на предположении, что каждый респондент с равной долей вероятности может попасть в выборку. На основе списка генеральной совокупности составляются карточки с номерами респондентов. Они помещаются в колоду, перемешиваются и из них наугад вынимается карточка, записывается номер, потом возвращается обратно. Далее процедура повторяется столько раз, какой объём выборки нам необходим. Минус: повторение единиц отбора.

Процедура построения простой случайной выборки включает в себя следующие шаги:

1. необходимо получить полный список членов генеральной совокупности и пронумеровать этот список. Такой список, напомним, называется основой выборки;

2. определить предполагаемый объем выборки, то есть ожидаемое число опрошенных;

3. извлечь из таблицы случайных чисел столько чисел, сколько нам требуется выборочных единиц. Если в выборке должно оказаться 100 человек, из таблицы берут 100 случайных чисел. Эти случайные числа могут генерироваться компьютерной программой.

4. выбрать из списка-основы те наблюдения, номера которых соответствуют выписанным случайным числам

  • Простая случайная выборка имеет очевидные преимущества. Этот метод крайне прост для понимания. Результаты исследования можно распространять на изучаемую совокупность. Большинство подходов к получению статистических выводов предусматривают сбор информации с помощью простой случайной выборки. Однако метод простой случайной выборки имеет как минимум четыре существенных ограничения:

1. зачастую сложно создать основу выборочногo наблюдения, которая позволила бы провести простую случайную выборку.

2. результатом применения простой случайной выборки может стать большая совокупность, либо совокупность, распределенная по большой географической территории, что значительно увеличивает время и стоимость сбора данных.

3. результаты применения простой случайной выборки часто характеризуются низкой точностью и большей стандартной ошибкой, чем результаты применения других вероятностных методов.

4. в результате применения SRS может сформироваться нерепрезентативная выборка. Хотя выборки, полученные простым случайным отбором, в среднем адекватно представляют генеральную совокупность, некоторые из них крайне некорректно представляют изучаемую совокупность. Вероятность этого особенно велика при небольшом объеме выборки.

  • Простая бесповторная выборка. Процедура построения выборки такая же, только карточки с номерами респондентов не возвращаются обратно в колоду.
  1. Систематическая вероятностная выборка. Является упрощенным вариантом простой вероятностной выборки. На основе списка генеральной совокупности через определённый интервал (К) отбираются респонденты. Величина К определяется случайно. Наиболее достоверный результат достигается при однородной генеральной совокупности, иначе возможны совпадение величины шага и каких-то внутренних циклических закономерностей выборки (смешение выборки). Минусы: такие же как и в простой вероятностной выборке.
  2. Серийная (гнездовая) выборка. Единицы отбора представляют собой статистические серии (семья, школа, бригада и т. п.). Отобранные элементы подвергаются сплошному обследованию. Отбор статистических единиц может быть организован по типу случайной или систематической выборки. Минус: Возможность большей однородности, чем в генеральной совокупности.
  3. Районированная выборка. В случае неоднородной генеральной совокупности, прежде, чем использовать вероятностную выборку с любой техникой отбора, рекомендуется разделить генеральную совокупность на однородные части, такая выборка называется районированной. Группами районирования могут выступать как естественные образования (например, районы города), так и любой признак, заложенный в основу исследования. Признак, на основе которого осуществляется разделение, называется признаком расслоения и районирования.
  4. «Удобная» выборка. Процедура «удобной» выборки состоит в установлении контактов с «удобными» единицами выборки — с группой студентов, спортивной командой, с друзьями и соседями. Если необходимо получить информацию о реакции людей на новую концепцию, такая выборка вполне обоснована. «Удобную» выборку часто используют для предварительного тестирования анкет.

Невероятностные выборки

Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д.

  1. Квотная выборка – выборка строится как модель, которая воспроизводит структуру генеральной совокупности в виде квот (пропорций) изучаемых признаков. Число элементов выборки с различным сочетанием изучаемых признаков определяется с таким расчётом, чтобы оно соответствовало их доле (пропорции) в генеральной совокупности. Так, например, если генеральная совокупность у нас представлена 5000 человек, из них 2000 женщин и 3000 мужчин, тогда в квотной выборке у нас будут 20 женщин и 30 мужчин, либо 200 женщин и 300 мужчин. Квотированные выборки чаще всего основываются на демографических критериях: пол, возраст, регион, доход, образование и прочих. Минусы: обычно такие выборки нерепрезентативны, т.к. нельзя учесть сразу несколько социальных параметров. Плюсы: легкодоступный материал.
  2. Метод снежного кома. Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)
  3. Стихийная выборка – выборка так называемого «первого встречного». Часто используется в теле- и радиоопросах. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов. Минусы: невозможно установить какую генеральную совокупность представляют опрошенные, и как следствие – невозможность определить репрезентативность.
  4. Маршрутный опрос – часто используется, если единицей изучения является семья. На карте населённого пункта, в котором будет производиться опрос, нумеруются все улицы. С помощью таблицы (генератора) случайных чисел отбираются большие числа. Каждое большое число рассматривается как состоящее из 3-х компонентов: номер улицы (2-3 первых числа), номер дома, номер квартиры. Например, число 14832: 14 – это номер улицы на карте, 8 – номер дома, 32 – номер квартиры.
  5. Районированная выборка с отбором типичных объектов. Если после районирования из каждой группы отбирается типичный объект, т.е. объект, который по большинству изучаемых в исследовании характеристик приближается к средним показателям, такая выборка называется районированной с отбором типичных объектов.

6.Модальная выборка. 7.экспертная выборка. 8.Гетерогенная выборка.

Стратегии построения групп

Отбор групп для их участия в психологическом эксперименте осуществляется с помощью различных стратегий, которые нужны для того, чтобы обеспечить максимально возможное соблюдение внутренней и внешней валидности[3].

  • Рандомизация (случайный отбор)
  • Попарный отбор
  • Стратометрический отбор
  • Приближённое моделирование
  • Привлечение реальных групп

Рандомизация

Рандомизация, или случайный отбор, используется для создания простых случайных выборок. Использование такой выборки основывается на предположении, что каждый член популяции с равной вероятностью может попасть в выборку. Например, чтобы сделать случайную выборку из 100 студентов вуза, можно сложить бумажки с именами всех студентов вуза в шляпу, а затем достать из неё 100 бумажек — это будет случайным отбором (Гудвин Дж., с. 147).

Попарный отбор

Попарный отбор — стратегия построения групп выборки, при котором группы испытуемых составляются из субъектов, эквивалентных по значимым для эксперимента побочным параметрам. Данная стратегия эффективна для экспериментов с использованием экспериментальных и контрольных групп с лучшим вариантом — привлечением близнецовых пар (моно- и дизиготных), так как позволяет создать. ..

Стратометрический отбор

Стратометрический отбор — рандомизация с выделением страт (или кластеров). При данном способе формирования выборки генеральная совокупность делится на группы (страты), обладающие определёнными характеристиками (пол, возраст, политические предпочтения, образование, уровень доходов и др.), и отбираются испытуемые с соответствующими характеристиками.

Приближённое моделирование

Приближённое моделирование — составление ограниченных выборок и обобщение выводов об этой выборке на более широкую популяцию. Например, при участии в исследовании студентов 2-го курса университета, данные этого исследования распространяются на «людей в возрасте от 17 до 21 года». Допустимость подобных обобщений крайне ограничена.

Приближенное моделирование – формирование модели, которая для четко оговоренного класса систем (процессов) описывает его поведение (или нужные явления) с приемлемой точностью.

Примечания

  1. Исследование в психологии: методы и планирование / Дж. Гудвин. — СПб.: Питер, 2004. С. 146.
  2. Дружинин В. Н. Экспериментальная психология. — 2-е изд., доп. — СПб.: Питер, 2002. С. 92
  3. См. там же. С. 93—95.

Литература

Наследов А. Д. Математические методы психологического исследования. — СПб.: Речь, 2004.

  • Ильясов Ф. Н. Репрезентативность результатов опроса в маркетинговом исследовании // Социологические исследования. 2011. № 3. С. 112-116.

См. также

  • Список когнитивных искажений
  • В некоторых типах исследований выборку делят на группы:
    • экспериментальная
    • контрольная
  • Когорта

Ссылки

  • Выборка по Р 50-605-80-93
  • Выборка в аудите
  • Понятие выборки. Основные характеристики выборки. Типы выборки

Как мне сделать случайную выборку моих данных?

Есть много случаев, когда вы можете взять случайный образец вашего набор данных. Например, у вас может быть очень большой набор данных, и вы пытаясь разработать код для очистки ваших данных или их анализа. Бег код на многих наблюдениях может занять некоторое время, поэтому тестирование кода на подмножество данных — хороший способ сэкономить время. Однако вы можете не хотите взять только первые 100 или около того случаев, так как они могут отличаться в некоторых важным способом, чем случаи, которые происходят позже в наборе данных. Следовательно, взяв желательна случайная выборка данных.

В Stata есть две команды, которые можно использовать для случайной выборки ваш набор данных. Используйте команду sample , чтобы нарисовать образец без замена, означающая, что после того, как наблюдение (т. е. случай, элемент) было выбран в выборку, он недоступен для выбора в выборку снова. Используйте команду bsample , если вы хотите нарисовать образец с замена, означающая, что после того, как наблюдение было выбрано в выборка, она замещается в пул наблюдений, из которого эта выборка рисуется. Теоретически можно выбрать второй, третий, четвертый, и т.п. время. Если ваш набор данных очень велик, результаты двух команды, вероятно, не будут отличаться (при условии, что вы использовали одно и то же семя для оба, см. ниже). Это связано с тем, что вероятность любого данного наблюдения попадание в выборку в большом наборе данных невелико, поэтому шансы быть выбранный во второй раз также низкий. (Обратите внимание, что вероятность отбор в выборку не изменит независимо от того, было ли наблюдение ранее были выбраны в наборе данных. Другими словами, наблюдения которые уже были отобраны в выборку, имеют одинаковую вероятность есть наблюдения, которые еще не были выбраны в пример.)

Выборка без замены

Предположим, мы хотим создать выборку из 10% нашего текущего набора данных. После открытия нашего набора данных, hsb2 , мы будем использовать команду count , чтобы увидеть, как многие наблюдения находятся в наборе данных. Далее будем выпускать образца а затем снова используйте команду count , чтобы увидеть, сколько наблюдений находится в набор данных.

  используйте https://stats.idre.ucla.edu/stat/stata/notes/hsb2, очистить

считать 
  200

  образец 10 
(180 наблюдений удалено)

  количество 
   20 

Как видите, в данных осталось только 20 из первоначальных 200 наблюдений. набор (20 составляет 10% от 200). Вы можете сохранить этот меньший набор данных с новое имя, чтобы не перезаписать исходный набор данных.

Теперь давайте укажем количество наблюдений, скажем, 50, которые мы хотим в нашем образец, а не процент от набора данных. Для этого мы будем использовать 9Опция 0005 count для команды sample .

  используйте https://stats.idre.ucla.edu/stat/stata/notes/hsb2, очистить

проба 50, кол-во 
(150 наблюдений удалено)

  количество 
   50 

Что произойдет, если мы укажем число больше, чем количество наблюдения в наборе данных?

  используйте https://stats.idre.ucla.edu/stat/stata/notes/hsb2, очистить

проба 250, кол
считать 
  200 

Как видите, все наблюдения из набора данных были сохранены, но ни одно были отобраны во второй раз, чтобы увеличить размер выборки до желаемого числа. Обратите также внимание на то, что Stata не выдает сообщение об ошибке, когда размер выборки превышает количество наблюдений в наборе данных.

Вы также можете выбрать образец с заданным процентом или числом из каждого уровень группирующей переменной. (Это может быть переменная слоя.)  В hsb2 набор данных, переменная прог представляет собой трехуровневую категориальную (группирующую) переменную, указывающую тип школьная программа, в которой участвует каждый ученик (1=общая, 2=академическая, 3=профессиональная). Мы может выбрать выборку так, чтобы, скажем, 15% каждой из этих категорий были выбраны в образец. Обратите внимание, что вам нужно отсортировать данные по группировке переменная перед использованием префикса by: . Мы начнем с подсчитайте все случаи на каждом уровне прог так что мы можем сравнить эти номера к тем, которые у нас есть после выпуска пример команды . Также обратите внимание, что вы можете использовать параметр count с префиксом by: , если вы хотите указать количество наблюдений, которые должны быть включены в выборку.

  используйте https://stats. idre.ucla.edu/stat/stata/notes/hsb2, очистить

сортировка прог
по проге: количество 
____________________________________________________________________________
-> прог = общее
   45
_____________________________________________________________________________
-> прог = академический
  105
_____________________________________________________________________________
-> прог = призвание
   50

  по проге: образец 15 
(169 наблюдений удалены)

  количество 
   31

  по проге: считать 
_____________________________________________________________________________
-> прог = общее
    7
_____________________________________________________________________________
-> прог = академический
   16
_____________________________________________________________________________
-> прог = призвание
    8 

Вы также можете указать условия, по которым должен быть выбран образец. Например, рассмотрим код ниже.

  используйте https://stats. idre.ucla.edu/stat/stata/notes/hsb2, очистить

сортировка прог
по проге: количество 
_____________________________________________________________________________
-> прог = общее
   45
_____________________________________________________________________________
-> прог = академический
  105
_____________________________________________________________________________
-> прог = призвание
   50

  пример 12 если прог == 3 
(44 наблюдения удалены)

  количество 
  156

  сортировка прог
по проге: количество 
____________________________________________________________________________
-> прог = общее
   45
_____________________________________________________________________________
-> прог = академический
  105
_____________________________________________________________________________
-> прог = призвание
    6 

Как видите, все наблюдения из не-призвания (общие и академические) категории были включены в выборку, а также примерно 12% были включены случаи из категории призвания (0,12 * 50 = 6). Теперь давайте рассмотрите возможность написания кода, как показано ниже.

  используйте https://stats.idre.ucla.edu/stat/stata/notes/hsb2, очистить

образец 12, если прог != 3 
(132 наблюдения удалены)

  количество 
   68

  сортировка прог
по проге: количество 
_____________________________________________________________________________
-> прог = общее
    7
_____________________________________________________________________________
-> прог = академический
   11
_____________________________________________________________________________
-> прог = призвание
   50 

Мы видим, что все 50 случаев из категории призвания были включены, т.к. а также примерно по 12% от каждой из других категорий.

Отбор проб с заменой

Чтобы проиллюстрировать, как отбирать пробы с заменой, мы создадим небольшие данные установить, как показано ниже.

  прозрачный
входной идентификатор wt strata1 cluster1 x
1 4 1 1 15
2 4 1 1 29
3 4 2 2 14
4 4 2 2 25
5 4 3 2 17
6 5 3 3 19
7 5 4 3 20
8 5 4 3 27
9 5 5 4 26
10 5 5 4 28
конец

сохраните "d:wrsample. dta", замените  

Основная команда: bsample , за которой следует количество наблюдений что вы хотите в образце. Обратите внимание, что размер выборки не может превышать количество наблюдений в наборе данных.

  бвыборка 5
список 

     +-----------------------------------+
     | id wt strata1 cluster1 x |
     |-------------------------------------------------|
  1. | 10 5 5 4 28 |
  2. | 3 4 2 2 14 |
  3. | 5 4 3 2 17 |
  4. | 10 5 5 4 28 |
  5. | 9 5 5 4 26 |
     +-----------------------------------+ 

Вы можете использовать опцию веса , чтобы увидеть веса частоты. Примечание что вам нужно иметь переменную «вес» в наборе данных.

  использовать "d:wrsample.dta", очистить

bобразец 4, вес (масса)
список 

     +-----------------------------------+
     | id wt strata1 cluster1 x |
     |-------------------------------------------------|
  1.  | 5 0 3 2 17 |
  2. | 2 2 1 1 29 |
  3. | 8 1 4 3 27 |
  4. | 3 1 2 2 14 |
  5. | 90 5 4 26 |
     |-------------------------------------------------|
  6. | 10 0 5 4 28 |
  7. | 1 0 1 1 15 |
  8. | 4 0 2 2 25 |
  9. | 7 0 4 3 20 |
 10. | 6 0 3 3 19 |
     +-----------------------------------+ 

В этом примере наблюдение номер 2 было выбрано дважды, а наблюдение 8 и 3 были выбраны один раз.

У вас все еще есть все 10 наблюдений, но веса были изменены на определить, какие наблюдения должны быть включены в выборку. Попробуйте запустить код несколько раз, и вы увидите, что каждый раз вы получаете разные результаты время, когда вы запускаете его.

Если ваши данные стратифицированы, вы можете сделать выборку из каждой страты. Вам необходимо предоставить Stata необходимое количество наблюдений. из каждой страты, а не общее количество наблюдений, которые вы хотите в образец. В следующем примере мы запросим одно наблюдение из каждой страты, что дает нам общий размер выборки 5,

  использовать "d:wrsample. dta", очистить

bвыборка 1, страты (страты 1)
список 

     +-----------------------------------+
     | id wt strata1 cluster1 x |
     |-------------------------------------------------|
  1. | 2 4 1 1 29 |
  2. | 3 4 2 2 14 |
  3. | 5 4 3 2 17 |
  4. | 8 5 4 3 27 |
  5. | 9 5 5 4 26 |
     +-----------------------------------+ 

Вы также можете выбрать кластеры ваших данных, используя параметр кластер . Обратите внимание, что Stata выберет столько кластеров, сколько вы запросите, а не столько наблюдения.

  использовать "d:wrsample.dta", очистить

bsample 3, кластер (кластер1)
список 

     +-----------------------------------+
     | id wt strata1 cluster1 x |
     |-------------------------------------------------|
  1. | 6 5 3 3 19 |
  2. | 7 5 4 3 20 |
  3. | 8 5 4 3 27 |
  4. | 6 5 3 3 19|
  5. | 7 5 4 3 20 |
     |-------------------------------------------------|
  6. | 8 5 4 3 27 |
  7.  | 1 4 1 1 15 |
  8. | 2 4 1 1 29 |
     +-----------------------------------+ 

В этом примере Stata выбрала кластер 3 дважды и кластер 1 один раз для общего из трех кластеров.

Установка начального числа

При выборе случайной выборки данных вы можете сделать это таким образом, чтобы воспроизводимо. Другими словами, вы можете создать один и тот же образец, если нужно. Для этого вам нужно будет установить семя. Семя — это число, с которого Stata (или любая другая программа) начинает свой алгоритм генерации псевдослучайные числа. Если вы не установите начальное значение, Stata запустится. его алгоритм с семенем 123456789. Чтобы посадить семя, используйте команду set seed , за которой следует число. Число может быть очень большие, включающие 30 и более цифр. Не забудьте сделать это в файле .do или в запишите где-нибудь начальный номер. Дополнительную информацию см. в Руководстве по управлению статистическими данными.

  набор семян 2038947  

 

Как зарегистрировать образцы — учебные модули ENA 1 документация

Введение

Перед отправкой большинства типов данных в ENA необходимо зарегистрировать образцы. Каждый образец представляет собой единицу биоматериала, обычно связанную с одним событием сбора, из которого была создана библиотека секвенирования.

Для каждого реального образца, используемого в проекте секвенирования, необходимо зарегистрировать отдельный образец базы данных. Эти образцы дают контекст вашим данным, поэтому важно обеспечить, чтобы связанные с ними метаданные были как можно более обширными. и максимально точно. Как правило, вы должны зарегистрировать один образец для каждой биологической повторности, в то время как технические повторы, которые использовали один и тот же образец реального мира должен быть представлен с использованием одного объекта образца ENA. Если с одним и тем же образцом было проведено несколько экспериментов, в результате должен получиться только один образец базы данных, т.к. подробности эксперимента будут регистрироваться отдельно.

Контрольные списки

Чтобы гарантировать, что каждый образец зарегистрирован с минимальным количеством метаданных, ENA предоставляет «Проверочные списки образцов». Они предоставляют набор минимальных атрибутов, которые вы должны предоставить для данного типа выборки.

Эти контрольные списки разработаны в сотрудничестве с различными исследовательскими сообществами, чтобы обеспечить их актуальность и реалистичны для своего контекста. Ознакомьтесь со всеми образцами контрольных списков здесь. Обратите внимание, что каждый контрольный список содержит набор обязательных значений, которые должны всегда указываться, а также рекомендуемые значения. которые должны быть предоставлены везде, где это возможно, и необязательные значения, которые являются рекомендуемыми значениями, не относящимися к каждому случаю. При регистрации образца важно выбрать наиболее подходящий контрольный список образцов и предоставить наиболее возможны метаданные.

Примечание

Если ваш образец метаданных не обеспечивает достаточного контекста для легкой интерпретации ваших данных, вас могут попросить обновите образцы. Важно уделить время выбору правильного контрольного списка и метаданных при первой регистрации образцов.

Если вы не можете найти подходящий контрольный список для вашего типа данных образца, сначала свяжитесь с нашим справочная служба для консультации. Пожалуйста, используйте контрольный список по умолчанию ENA образца только в том случае, если вам сообщили, что нет других подходящих вариантов.

Если вы не можете указать значение для обязательного поля в контрольном списке, используйте один из INDSC приняла условия для сообщения об отсутствующей стоимости.

Таксономия

Наиболее важным атрибутом любой выборки является ее таксономическая классификация. Это должен быть таксон видового ранга из базы данных таксономии NCBI. Также убедитесь, что вы знакомы с услугами таксономии ENA. и используйте правильную таксономию для описания ваших образцов.

В частности, рассмотреть экологическую таксономию параметры, доступные вам при работе с образцами окружающей среды.

Если в базе данных таксономии нет подходящего таксона, вы можете запросить его добавление, создав запрос на таксономию.

About the Author

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Related Posts