Полигональная графика. Что это такое, и как ее создавать

Решение.

Строим точки основываясь на данных из таблицы. Полученные точки соединяем отрезками прямой. Обратите внимание на точки (0; 0) и (13; 0), расположенные на оси абсцисс и имеющие своими абсциссами числа, на 1 меньшее и большее, чем соответственно абсциссы самой левой и самой правой точек. Полигон частот изображен на рисунке.

Если полигон строят по данным интервального ряда, то в качестве абсцисс точек берут середины соответствующих интервалов. Крайние левую и правую точки соединяют с точками оси абсцисс - серединами ближайших интервалов, частоты которых равны нулю. Конечно, в этом случае полигон лишь приближенно отображает зависимость частот от значений аргумента.

Кумулята служит для графического изображения кумулятивного вариационного ряда. Для ее построения на оси абсцисс откладывают значения аргумента, а на оси ординат - накопленные частоты или накопленные относительные частоты. Масштаб на каждой оси выбирают произвольно. Далее строят точки, абсциссы которых равны вариантам (в случае дискретных рядов) или верхним границам интервалов (в случае интервальных рядов), а ординаты - соответствующим частотам (накопленным частотам). Эти точки соединяют отрезками прямой. Полученная ломаная и является кумулятой.

Пример построения кумуляты

По данным таблицы составить кумулятивный вариационный ряд, для которого построить кумуляту.

Решение.

Cоставим кумулятивный вариационный ряд (см. таблицу ниже), для которого построим кумуляту.

Гистограмму используют для изображения интервальных рядов. Для построения гистограммы по данным вариационного ряда с равными интервалами, как и для построения полигона, на оси абсцисс откладывают значения аргумента, а на оси ординат - значения частот или относительных частот. Далее строят прямоугольники, основаниями которых служат отрезки оси абсцисс, длины которых равны длинам интервалов, а высотами - отрезки, длины которых пропорциональны частотам или относительным частотам соответствующих интервалов.

В результате получают ступенчатую фигуру в виде сдвинутых друг к другу прямоугольников, площади которых пропорциональны частотам (или относительным частотам).

Если интервалы неравные, то на оси ординат следует откладывать в произвольно выбранном масштабе значения плотности распределения (абсолютной или относительной). Таким образом, высоты прямоугольников, которые мы строим, должны равняться плотностям соответствующих интервалов.



При графическом изображении вариационного ряда с помощью гистограммы плотность изображается так, как если бы она оставалась постоянной внутри каждого интервала. На самом деле, как правило, это не так. Если построить распределение по частям интервалов, то можно убедиться в том, что плотность распределения на различных участках интервала не остается постоянной. Плотность, полученная ранее, представляла лишь некоторую среднюю плотность. Итак, гистограмма изображает не фактическое изменение плотности распределения, а лишь средние плотности распределения на каждом интервале.

Если построена гистограмма интервального распределения, то полигон того же распределения можно получить, если соединить прямолинейными отрезками середины верхних оснований прямоугольников.

Пример построения гистограммы

По результатам тестирования по математике учащихся 7-го класса получены данные о доступности заданий теста (отношение числа учащихся, правильно выполнивших задания, к числу тестировавшихся учащихся), предствленные ниже, в таблице.
Тест содержал 25 заданий. Построить гистограмму.

Решение.

Откладываем на оси абсцисс 7 отрезков длиной 10. На них, как на основаниях, строим прямоугольники, высоты которых соответственно равны 1, 1, 5, 7, 7, 3, 1. Полученная ступенчатая фигура и является искомой гистограммой.

Пример построения гистограммы

Данные, приведенные в предыдущем примере представим более подробно (см. таблицу ниже.). Построить гистограмму.

Для наглядности строят различные графики статистического распределения, и, в частности, полигон и гистограмму.

Полигон

Полигоном частот называют ломаную, отрезки которой соединяют точки . Для построения полигона частот на оси абсцисс откладывают варианты , а на оси ординат – соответствующие им частоты . Такие точки соединяют отрезками прямых и получают полигон частот.

Полигоном относительных частот называют ломаную, отрезки которой соединяют точки . Для построения полигона относительных частот на оси абсцисс откладывают варианты , а на оси ординат – соответствующие им относительные частоты (частости) . Такие точки соединяют отрезками прямых и получают полигон частот.

Пример 1

Построить полигон частот и полигон относительных частот (частостей):

2 7 8 15 16 17 15 35 64 55 21 10

Вычислим относительные частоты (частости):

Относительные частоты, 2 15 0.075 7 35 0.175 8 64 0.320 15 55 0.275 16 21 0.105 17 10 0.050 Итого 200 1.000

Полигон частот

Полигон относительных частот

В случае интервального ряда для построения полигона в качестве берутся середины интервалов.

  • К оглавлению решебника по
    • Теории вероятностей и математической статистике 〉〉
    • Статистике 〉〉

Гистограмма

В случае интервального статистического распределения целесообразно построить гистограмму.

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною , а высоты (в случае равных интервалов) должны быть пропорциональны частотам. При построении гистограммы с неравными интервалами по оси ординат наносят не частоты, а плотность частоты . Это необходимо сделать для устранения влияния величины интервала на распределение и иметь возможность сравнивать частоты.

В случае построения гистограммы относительных частот (гистограммы частостей) высоты в случае равных интегралов должны быть пропорциональны относительной частоте , а в случае неравных интервалов высота равна плотности относительной частоты .

Пример 2

Построить гистограмму частот и относительных частот (частостей)

2-5 5-8 8-11 11-14 14-17 17-20 15 35 64 55 21 10

Вычислим относительные частоты:

Интервалы, Относительные частоты, 2 – 5 15 0.075 5 – 8 35 0.175 8 – 11 64 0.320 11 – 14 55 0.275 14 – 17 21 0.105 17 – 20 10 0.050 Итого 200 1.000

Гистограмма частот

Гистограмма относительных частот

Пример 3

Построить гистограмму частот (случай неравных интервалов).

2-4 4-8 8-13 13-15 15-17 17-20 15 35 64 55 21 10

Вычислим плотности частоты:

Интервалы, Длина интервала, Плотность частоты, 2 – 4 15 2 7.500 4 – 8 35 4 8.750 8 – 13 64 5 12.800 13 – 15 55 2 27.500 15 – 17 21 2 10.500 17 – 20 10 3 3.333 Итого 200 -- --

Гистограмма частот

Для выполнения этого задания проделайте следующие пункты.

  1. Перейдите на новый рабочий лист. Введите данные представленные в примере в ячейки А1:А36.

2. Сначала получите распределение выборки по частотам и относительным частотам (частостям) в виде:

w i w 1 w 2 w k

Для этого в ячейку С1 введите «x i », в ячейку С2 введем «n i » в ячейку С3 ввести w i .

  1. Далее необходимо заполнить ячейки D1:W1 значениями ряда данных от минимального 0 до максимального 19. Для этого можно использовать маркер заполнения.

4. Затем с помощью функции СЧЁТЕСЛИ подсчитайте, сколько раз наблюдается то или иное значение. Для этого установите курсор в ячейку D2. Вызовите функцию СЧЁТЕСЛИ в строку Диапазон введите абсолютную ссылку на диапазон ячеек $А$1:$А$36 (ссылка на диапазон ячеек должна быть абсолютной!). В строке Критерий введите адрес ячейки D1, в которой находится первая варианта 0 и щелкните ОК. В результате в ячейке появится число 1.

  1. Теперь с помощью маркера заполнения скопируйте функцию, находящиеся в ячейке D2, в ячейки Е2: W2. В результате получим распределение выборки по частотам:
x i
n i

6. Далее вычислите относительные частоты. Для выполнения этого задания необходимо сначала вычислить объем выборки. Для этого в ячейку Х2 поставьте курсор, нажмите значок автосуммы , а затем на Enter. В результате в этой ячейке появится сумма всех частот 36 (сумма чисел диапазона D2: W2).

7. Вычислите относительные частоты. Для этого поместите курсор в ячейку D3 и наберите в ней формулу: =D2/$Х$2 (ссылка на объем выборки должна быть абсолютной!). Выделите эту ячейку и скопируйте набранную формулу с помощью Маркера заполнения в ячейки D3: W3.



8. Теперь постройте полигон частот. Его можно быстро построить с помощью обычного Мастера диаграмм . Для этого выделите диапазон ячеек D1:W2 и вызовите Мастер диаграмм .

9. В появившемся диалоговом окне Мастера диаграмм (шаг 1 из 4): тип диаграммы выберите Диаграмма XY , а затем вариант Линии и точки . Нажмите кнопку Далее .

10. В следующем окне Мастера диаграмм (шаг 2 из 4 ): диапазон данных отметьте Ряды в строках , и нажмите Далее .

11. В следующем окне Мастера диаграмм (шаг 3 из 4 ): ряд данных ничегоменять не нужно, нажмите сразу Далее

12. В последнем окне Мастера диаграмм (шаг 4 из 4 ): элементы диаграмм

· в поле Заголовок наберите: «Полигон частот »;

· в поле Ось Х (категорий ): название оси X: «Варианты »;

· в поле Ось Y (значений ): название оси Y: «Частоты »;

13. В области Отображать Сетку снимите галочку с переключателя Ось Y (значений ).

14. В правой области снимите галочку с переключателя Показать легенду и нажмите на кнопку Готово .

16. В результате у Вас должен следующий полигон частот.

17. Теперь постройте полигон относительных частот. Для этого выделите интервал ячеек с вариантами D1:W1, а затем удерживая клавишу Ctrl мышью выделите интервал ячеек с относительными частотами D3:W3.

18. Вызовите Мастер диаграмм и проделайте все те же действия, что и при построении полигона частот, за исключением, подписей. В окне Мастер диаграмм (шаг 4 из 4 ): элементы диаграмм в поле Заголовок наберите: «Полигон относительных частот ». Здесь же необходимо набрать другое название оси Y: «Относительные частоты », название оси Х остается такое же, как и в полигоне частот.

20. После всех выполненных по форматированию этой диаграммы действий обратите внимание на то, что числа на оси Y имеют различное количество знаков после запятой. Чтобы количество знаков после запятой в подписях оси было одинаковым, следует:

  • щелкнуть дважды мышью по этой оси;
  • в появившемся диалоговом окне Ось Y выбрать вкладку Число ;
  • в группе Категория выбрать Числовой и установить Число дробных знаков : 2.
  • нажать ОК .

Готовый полигон относительных частот должен иметь вид:

Контрольные вопросы.

1. Для чего предназначена функция СРЗНАЧ?

2. С помощью каких характеристик оценивают разброс статистических данных? Какие функции в Excel их вычисляют? В чем отличие функции оценки разброса данных для генеральной и выборочной совокупности?

3. В чем отличие функций СЧЕТ и СЧЕТЗ?

4. Что такое мода и какая функция ее вычисляет?

5. Что такое медиана и какая функция ее вычисляет?

6. Как вычислить размах варьирования?

7. С помощью каких характеристик оценивают отклонение случайного распределения от нормального? Какой смысл этих характеристик и какие функции в Excel их вычисляют?

8. Что такое Инструменты Анализа ? Как загрузить Пакет Анализа в Excel ?

9. Опишите последовательность действий, которые необходимо совершить для генерации случайных чисел распределенных нормально.

10. Как построить гистограмму?

11. Для чего предназначен инструмент Описательная статистика ?

12. Что называется полигоном частот и полигоном относительных частот?

Графическое изображение вариационных рядов

Графическое изображение зависимости между величинами дает возможность представить эту зависимость наглядно. Графики могут служить основой для открытия новых свойств, соотношений и закономерностей.

Наиболее употребительными графиками для изображения вариационных рядов, т. е. соотношений между значениями признака и соответствующими частотами или относительными частотами, являются полигон, гистограмма и кумулята.

Полигон чаще всего используют для изображения дискретных рядов. Для построения полигона в прямоугольной системе координат на оси абсцисс в произвольно выбранном масштабе откладывают значения аргумента, т. е. варианты, а на оси ординат также в произвольно выбранном масштабе - значения частот или относительных частот. Масштаб выбирают такой, чтобы была обеспечена необходимая наглядность, и чтобы рисунок имел желательный размер. Далее в этой системе координат строят точки, координатами которых являются пары соответствующих чисел из вариационного ряда. Полученные точки последовательно соединяют отрезками прямой. Крайнюю "левую" точку соединяют с точкой оси абсцисс, абсцисса которой находится слева от рассматриваемой точки на таком же расстоянии, как абсцисса ближайшей справа точки. Аналогично крайнюю "правую" точку также соединяют с точкой оси абсцисс.

Кумулята служит для графического изображения кумулятивного вариационного ряда. Для ее построения на оси абсцисс откладывают значения аргумента, а на оси ординат - накопленные частоты или накопленные относительные частоты. Масштаб на каждой оси выбирают произвольно. Далее строят точки, абсциссы которых равны вариантам (в случае дискретных рядов) или верхним границам интервалов (в случае интервальных рядов), а ординаты - соответствующим частотам (накопленным частотам). Эти точки соединяют отрезками прямой. Полученная ломаная и является кумулятой.

Графики являются наглядной формой отображения рядов распределения. Для изображения рядов применяются линейные графики и плоскостные диаграммы, построенные в прямоугольной системе координат.

Для графического представления атрибутивных рядов распределения используются различные диаграммы: столбиковые, линейные, круговые, фигурные, секторные и т. д.

Для дискретных вариационных рядов графиком является полигон распределения.

Полигоном распределения называется ломаная линия, соединяющая точки с координатами или где - дискретное значение признака, - частота, - частость.

График строится в принятом масштабе. Вид полигона распределения приведен на рис. 5.1.

Для изображения интервальных вариационных рядов применяют гистограммы , представляющие собой ступенчатые фигуры, состоящие из прямоугольников, основания которых равны ширине интервала , а высота - частоте (частости ) равноинтервального ряда или плотности распределения неравноинтервального Построение диаграммы аналогично построению столбиковой диаграммы. Общий вид гистограммы приведен на рис. 5.2.

Для графического представления вариационных рядов может использоваться также кумулята – ломаная линия, составленная по накопленным частотам (частостям). Накопленные частоты наносятся в виде ординат; соединяя вершины отдельных ординат отрезками прямой, получаем ломаную линию, имеющую неубывающий вид. Координатами точек на графике для дискретного ряда являются для интервального ряда - Начальная точка графика имеет координаты самая высокая точка - Общий вид кумуляты приведен на рис.5.3. Использование кумуляты особенно удобно при проведении сравнений вариационных рядов.

При построении графиков рядов распределения большое значение имеет соотношение масштабов по оси абсцисс и оси ординат . В этом случае и необходимо руководствоваться «правилом золотого сечения», в соответствии с которым высота графика должна быть примерно в два раза меньше его основания .

При проведении эмпирического исследования ряда распределения рассчитываются и анализируются следующие группы показателей:

Показатели положения центра распределения;

Показатели степени его однородности;

Показатели формы распределения.

Показатели положения центра распределения. К ним относятся степенная средняя в виде средней арифметической и структурные средние – мода и медиана.

Средняя арфметическая для дискретного ряда распределения рассчитывается по формуле:

В отличие от средней арифметической, рассчитываемой на основе всех вариант, мода и медиана характеризует значение признака у статистической единице, занимающей определенное положение в вариационном ряду.

Медиана ( Me) - значение признака у статистической единицы, стоящей в середине ранжированного ряда и делящей совокупность на две равные по численности части.

Мода (Mo) - наиболее часто встречаемое значение признак в совокупности. Мода широко используется в статистической практике при изучении покупательского спроса, регистрации цен и др.

Для дискретных вариационных рядов Mo и Me выбираются в соответствии с определениями: мода - как значение признака с наибольшей частотой : положение медианы при нечетном объеме совокупности определяется ее номером , где N – объем статистической совокупности. При четном объеме ряда медиана равна средней из двух вариантов, находящихся в середине ряда.

Медиану используют как наиболее надежный показатель типичного значения неоднородной совокупности, так как она нечувствительна к крайним значениям признака, которые могут значительно отличаться от основного массива его значений. Кроме этого, медиана находит практическое применение вследствие особого математического свойства: Рассмотрим определение моды и медианы на следующем примере: имеется ряд распределения рабочих участка по уровню квалификации.

Данные приведены в таблице 5.2.

Мода выбирается по максимальному значению частоты: при n max = 14 Mo =4, т.е. чаще всего встречается 4-ый разряд. Для нахождения медианы Me определяются центральные единицы Это 25 и 26-ая единицы. По накопленным частотам определяется группа, в которую попадают эти единицы. Это 4-ая группа, в которой значение признака равно 4. Таким образом, Me = 4, это означает, что у половины рабочих разряд ниже 4-го, а у другой – выше четвертого. В интервальном ряду значения Mo и Me вычисляются более сложным путем.

Мода определяется следующим образом:

По максимальному значению частоты определяется интервал, в котором находится значение моды. Он называется модальным.

Внутри модального интервала значение моды вычисляется по формуле:

Для расчета медианы в интервальных рядах используется следующий подход:

По накопленным частотам находится медианный интервал. Медианным называется интервал, содержащий центральную единицу.

Внутри медианного интервала значение Me определяется по формуле:

В неравноинтервальных рядах при вычислении Mo используется другая частотная характеристика – абсолютная плотность распределения:

Расчет моды и медианы для интервального ряда распределения рассмотрим на примере ряда распределения рабочих по стажу, приведенного в таблице 5.3.

Расчет Mo:

Максимальная частота n max = 13, она соответствует четвертой группе, следовательно, модальным является интервал с границами 12 – 16 лет.

Моду рассчитаем по формуле:

Чаще всего встречаются рабочие со стажем работы около 13 лет. Мода не находится в середине модального интервала, она смещена к его нижней границе, связано это со структурой данного ряда распределения (частота предмодального интервала значительно больше частоты постмодального интервала).

Расчет медианы:

По графе накопленных частот определяется медианный интервал. Он содержит 25 и 26-у статистические единицы, которые находятся в разных группах – в 3-ей и 4-ой. Для нахождения Me можно использовать любую из них. Расчет проведем по 3-ей группе:

Такое же значение Me можно получить при её расчете по 4-ой группе:

При сдвоенном центре Me всегда находится на стыке интервалов, содержащих центральные единицы. Вычисленное значение Me показывает, что у первых 25 рабочих стаж работы – менее 12 лет, а у оставшихся 25-ти, следовательно, - более 12 лет.

Моду можно определить графически по полигону распределения в дискретных рядах, по гистограмме распределения – в интервальных, а медиану - по кумуляте.

Для нахождения моды в интервальном ряду правую вершину модального прямоугольника нужно соединить с правым верхним углом предыдущего прямоугольника, а левую вершину – с левым верхним углом последующего прямоугольника. Абсцисса точки пересечения этих прямых и будет модой распределения.

Для определение медианы высоту наибольшей ординаты кумуляты, соответствующей общей численности совокупности, делят пополам. Через полученную точку проводят прямую, параллельную оси абсцисс, до пересечения ее с кумулятой. Абсцисса точки пересечения является медианой.

Кроме Mo и Me в вариантных рядах могут быть определены и другие структурные характеристики – квантили. Квантили предназначены для более глубокого изучения структуры ряда распределения. Квантиль – это значение признака, занимающее определенное место в упорядоченной по данному признаку совокупности. Различают следующие виды квантилей:

квартили – значения признака, делящие упорядоченную совокупность на 4 равные части;

децили – значения признака, делящие совокупность на 10 равных частей;

перцентели - значения признака, делящие совокупность на 100 равных частей.

Если данные сгруппированы, то значение квартиля определяется по накопленным частотам: номер группы, которая содержит i -ый квантиль. Определяется как номер первой группы от начала ряда, в котором сумма накопленных частот равна или превышает i ·N, где I – индекс квантиля. Если ряд интервальный, то значение квантиля определяется по формуле:

Рассчитаем квартили для ряда распределения рабочих участка по стажу работы:

Следовательно, у четверти рабочих стаж менее 7 лет и у четверти – более 16 лет. Таким образом, для характеристики положения центра ряда распределения можно использовать 3 показателя: среднее значение признака , мода, медиана .

При выборе вида и формы конкретного показателя центра распределения необходимо исходить из следующих рекомендаций:

Для устойчивых социально-экономических процессов в качестве показателя центра используют среднюю арифметическую. Такие процессы характеризуются симметричными распределениями, в которых

Для неустойчивых процессов положение центра распределения характеризуется с помощью Mo или Me . Для асимметричных процессов предпочтительной характеристикой центра распределения является медиана, поскольку занимает положение между средней арифметической и модой.

Вторая важнейшая задача при определении общего характера распределения – это оценка степени его однородности. Однородность статистических совокупностей характеризуется величиной вариации (рассеяния) признака, т.е. несовпадением его значений у разных статистических единиц. Для измерения вариации в статистике используются абсолютные и относительные показатели. Выяснение общего характера распределения предполагает не только оценку степени его однородности, но и исследование формы распределения, т.е. оценку симметричности и эксцесса.

Из математической статистики известно, что при увеличении объема статистической совокупности и одновременного уменьшении интервала группировки полигон либо гистограмма распределения все более и более приближается к некоторой плавной кривой, являющейся для указанных графиков пределом. Эта кривая называется эмпирической кривой распределения и представляет собой графическое изображение в виде непрерывной линии изменения частот, функционально связанного с изменением вариант.

В статистике различают следующие виды кривых распределения :

одновершинные кривые; многовершинные кривые.

Однородные совокупности описываются одновершинными распределениями. Многовершинность распределения свидетельствует о неоднородности изучаемой совокупности или о некачественном выполнении группировки.

Одновершинные кривые распределения делятся на симметричные, умеренно асимметричные и крайне асимметричные.

Распределение называется симметричным, если частоты любых 2-х вариантов, равноотстоящих в обе стороны от центра распределения, равны между собой . В таких распределениях

Для характеристики асимметрии используют коэффициенты асимметрии.

Наиболее часто используются следующие из них:

Коэффициент асимметрии Пирсона

В одновершинных распределениях величина этого показателя изменяется от -1 до +1. в симметричных распределениях As=0. При As>0 наблюдается правосторонняя асимметрия (рис.5.4). В распределениях с правосторонней асимметрией Mo Me

Рис. 5.4.Правосторонняя асимметрия Рис. 5.5. Левосторонняя асимметрия

Чем ближе по модулю As к 1, тем асимметрия существеннее:

Коэффициент асимметрии Пирсона характеризует асимметрию только в центральной части распределения, поэтому более распространенным и более точным является коэффициент асимметрии , рассчитанный на основе центрального момента 3-его порядка:

Центральным моментом в статистике называется среднее отклонение индивидуальных значений признака от его среднеарифметической величины.

Центральный момент k-ого порядка рассчитывается как:

Соответственно формулы для определения центрального момента третьего порядка имеют следующий вид:

Для оценки существенности рассчитанного вторым способом коэффициента асимметрии определяется его средняя квадратическая ошибка:

Для одновершинных распределений рассчитывается еще один показатель оценки его формы – эксцесс . Эксцесс является показателем островершинности распределения . Он рассчитывается для симметричных распределений на основе центрального момента 4-ого порядка

К плосковершинным.