График накопленных частот. Полигональная графика. Что это такое, и как ее создавать. Принципы построения статистических группировок

Графики являются наглядной формой отображения рядов распределения. Для изображения рядов применяются линейные графики и плоскостные диаграммы, построенные в прямоугольной системе координат.

Для графического представления атрибутивных рядов распределения используются различные диаграммы: столбиковые, линейные, круговые, фигурные, секторные и т. д.

Для дискретных вариационных рядов графиком является полигон распределения.

Полигоном распределения называется ломаная линия, соединяющая точки с координатами или где - дискретное значение признака, - частота, - частость.

График строится в принятом масштабе. Вид полигона распределения приведен на рис. 5.1.

Для изображения интервальных вариационных рядов применяют гистограммы , представляющие собой ступенчатые фигуры, состоящие из прямоугольников, основания которых равны ширине интервала , а высота - частоте (частости ) равноинтервального ряда или плотности распределения неравноинтервального Построение диаграммы аналогично построению столбиковой диаграммы. Общий вид гистограммы приведен на рис. 5.2.

Для графического представления вариационных рядов может использоваться также кумулята – ломаная линия, составленная по накопленным частотам (частостям). Накопленные частоты наносятся в виде ординат; соединяя вершины отдельных ординат отрезками прямой, получаем ломаную линию, имеющую неубывающий вид. Координатами точек на графике для дискретного ряда являются для интервального ряда - Начальная точка графика имеет координаты самая высокая точка - Общий вид кумуляты приведен на рис.5.3. Использование кумуляты особенно удобно при проведении сравнений вариационных рядов.

При построении графиков рядов распределения большое значение имеет соотношение масштабов по оси абсцисс и оси ординат . В этом случае и необходимо руководствоваться «правилом золотого сечения», в соответствии с которым высота графика должна быть примерно в два раза меньше его основания .

При проведении эмпирического исследования ряда распределения рассчитываются и анализируются следующие группы показателей:

Показатели положения центра распределения;

Показатели степени его однородности;

Показатели формы распределения.

Показатели положения центра распределения. К ним относятся степенная средняя в виде средней арифметической и структурные средние – мода и медиана.

Средняя арфметическая для дискретного ряда распределения рассчитывается по формуле:

В отличие от средней арифметической, рассчитываемой на основе всех вариант, мода и медиана характеризует значение признака у статистической единице, занимающей определенное положение в вариационном ряду.

Медиана ( Me) - значение признака у статистической единицы, стоящей в середине ранжированного ряда и делящей совокупность на две равные по численности части.

Мода (Mo) - наиболее часто встречаемое значение признак в совокупности. Мода широко используется в статистической практике при изучении покупательского спроса, регистрации цен и др.

Для дискретных вариационных рядов Mo и Me выбираются в соответствии с определениями: мода - как значение признака с наибольшей частотой : положение медианы при нечетном объеме совокупности определяется ее номером , где N – объем статистической совокупности. При четном объеме ряда медиана равна средней из двух вариантов, находящихся в середине ряда.

Медиану используют как наиболее надежный показатель типичного значения неоднородной совокупности, так как она нечувствительна к крайним значениям признака, которые могут значительно отличаться от основного массива его значений. Кроме этого, медиана находит практическое применение вследствие особого математического свойства: Рассмотрим определение моды и медианы на следующем примере: имеется ряд распределения рабочих участка по уровню квалификации.

Данные приведены в таблице 5.2.

Мода выбирается по максимальному значению частоты: при n max = 14 Mo =4, т.е. чаще всего встречается 4-ый разряд. Для нахождения медианы Me определяются центральные единицы Это 25 и 26-ая единицы. По накопленным частотам определяется группа, в которую попадают эти единицы. Это 4-ая группа, в которой значение признака равно 4. Таким образом, Me = 4, это означает, что у половины рабочих разряд ниже 4-го, а у другой – выше четвертого. В интервальном ряду значения Mo и Me вычисляются более сложным путем.

Мода определяется следующим образом:

По максимальному значению частоты определяется интервал, в котором находится значение моды. Он называется модальным.

Внутри модального интервала значение моды вычисляется по формуле:

Для расчета медианы в интервальных рядах используется следующий подход:

По накопленным частотам находится медианный интервал. Медианным называется интервал, содержащий центральную единицу.

Внутри медианного интервала значение Me определяется по формуле:

В неравноинтервальных рядах при вычислении Mo используется другая частотная характеристика – абсолютная плотность распределения:

Расчет моды и медианы для интервального ряда распределения рассмотрим на примере ряда распределения рабочих по стажу, приведенного в таблице 5.3.

Расчет Mo:

Максимальная частота n max = 13, она соответствует четвертой группе, следовательно, модальным является интервал с границами 12 – 16 лет.

Моду рассчитаем по формуле:

Чаще всего встречаются рабочие со стажем работы около 13 лет. Мода не находится в середине модального интервала, она смещена к его нижней границе, связано это со структурой данного ряда распределения (частота предмодального интервала значительно больше частоты постмодального интервала).

Расчет медианы:

По графе накопленных частот определяется медианный интервал. Он содержит 25 и 26-у статистические единицы, которые находятся в разных группах – в 3-ей и 4-ой. Для нахождения Me можно использовать любую из них. Расчет проведем по 3-ей группе:

Такое же значение Me можно получить при её расчете по 4-ой группе:

При сдвоенном центре Me всегда находится на стыке интервалов, содержащих центральные единицы. Вычисленное значение Me показывает, что у первых 25 рабочих стаж работы – менее 12 лет, а у оставшихся 25-ти, следовательно, - более 12 лет.

Моду можно определить графически по полигону распределения в дискретных рядах, по гистограмме распределения – в интервальных, а медиану - по кумуляте.

Для нахождения моды в интервальном ряду правую вершину модального прямоугольника нужно соединить с правым верхним углом предыдущего прямоугольника, а левую вершину – с левым верхним углом последующего прямоугольника. Абсцисса точки пересечения этих прямых и будет модой распределения.

Для определение медианы высоту наибольшей ординаты кумуляты, соответствующей общей численности совокупности, делят пополам. Через полученную точку проводят прямую, параллельную оси абсцисс, до пересечения ее с кумулятой. Абсцисса точки пересечения является медианой.

Кроме Mo и Me в вариантных рядах могут быть определены и другие структурные характеристики – квантили. Квантили предназначены для более глубокого изучения структуры ряда распределения. Квантиль – это значение признака, занимающее определенное место в упорядоченной по данному признаку совокупности. Различают следующие виды квантилей:

квартили – значения признака, делящие упорядоченную совокупность на 4 равные части;

децили – значения признака, делящие совокупность на 10 равных частей;

перцентели - значения признака, делящие совокупность на 100 равных частей.

Если данные сгруппированы, то значение квартиля определяется по накопленным частотам: номер группы, которая содержит i -ый квантиль. Определяется как номер первой группы от начала ряда, в котором сумма накопленных частот равна или превышает i ·N, где I – индекс квантиля. Если ряд интервальный, то значение квантиля определяется по формуле:

Рассчитаем квартили для ряда распределения рабочих участка по стажу работы:

Следовательно, у четверти рабочих стаж менее 7 лет и у четверти – более 16 лет. Таким образом, для характеристики положения центра ряда распределения можно использовать 3 показателя: среднее значение признака , мода, медиана .

При выборе вида и формы конкретного показателя центра распределения необходимо исходить из следующих рекомендаций:

Для устойчивых социально-экономических процессов в качестве показателя центра используют среднюю арифметическую. Такие процессы характеризуются симметричными распределениями, в которых

Для неустойчивых процессов положение центра распределения характеризуется с помощью Mo или Me . Для асимметричных процессов предпочтительной характеристикой центра распределения является медиана, поскольку занимает положение между средней арифметической и модой.

Вторая важнейшая задача при определении общего характера распределения – это оценка степени его однородности. Однородность статистических совокупностей характеризуется величиной вариации (рассеяния) признака, т.е. несовпадением его значений у разных статистических единиц. Для измерения вариации в статистике используются абсолютные и относительные показатели. Выяснение общего характера распределения предполагает не только оценку степени его однородности, но и исследование формы распределения, т.е. оценку симметричности и эксцесса.

Из математической статистики известно, что при увеличении объема статистической совокупности и одновременного уменьшении интервала группировки полигон либо гистограмма распределения все более и более приближается к некоторой плавной кривой, являющейся для указанных графиков пределом. Эта кривая называется эмпирической кривой распределения и представляет собой графическое изображение в виде непрерывной линии изменения частот, функционально связанного с изменением вариант.

В статистике различают следующие виды кривых распределения :

одновершинные кривые; многовершинные кривые.

Однородные совокупности описываются одновершинными распределениями. Многовершинность распределения свидетельствует о неоднородности изучаемой совокупности или о некачественном выполнении группировки.

Одновершинные кривые распределения делятся на симметричные, умеренно асимметричные и крайне асимметричные.

Распределение называется симметричным, если частоты любых 2-х вариантов, равноотстоящих в обе стороны от центра распределения, равны между собой . В таких распределениях

Для характеристики асимметрии используют коэффициенты асимметрии.

Наиболее часто используются следующие из них:

Коэффициент асимметрии Пирсона

В одновершинных распределениях величина этого показателя изменяется от -1 до +1. в симметричных распределениях As=0. При As>0 наблюдается правосторонняя асимметрия (рис.5.4). В распределениях с правосторонней асимметрией Mo Me

Рис. 5.4.Правосторонняя асимметрия Рис. 5.5. Левосторонняя асимметрия

Чем ближе по модулю As к 1, тем асимметрия существеннее:

Коэффициент асимметрии Пирсона характеризует асимметрию только в центральной части распределения, поэтому более распространенным и более точным является коэффициент асимметрии , рассчитанный на основе центрального момента 3-его порядка:

Центральным моментом в статистике называется среднее отклонение индивидуальных значений признака от его среднеарифметической величины.

Центральный момент k-ого порядка рассчитывается как:

Соответственно формулы для определения центрального момента третьего порядка имеют следующий вид:

Для оценки существенности рассчитанного вторым способом коэффициента асимметрии определяется его средняя квадратическая ошибка:

Для одновершинных распределений рассчитывается еще один показатель оценки его формы – эксцесс . Эксцесс является показателем островершинности распределения . Он рассчитывается для симметричных распределений на основе центрального момента 4-ого порядка

К плосковершинным.

Полигон распределения вероятностей  


Аналогично все указанные приемы обработки и построения могут быть распространены и на другие показатели, например на объемы поставок, интервалы между поставками, объемы суточных отпусков и суточных объемов поставок. Эти полигоны распределения описывают, как в течение отчетного года на предприятии изменялись объемы поставок, интервалы поставок и объемы суточных отпусков и т.д.  

Любой полигон описывается набором средних значений интервалов (диапазонов) вариаций какого-либо одного признака и частостью появления этого среднего значения . Каждый из полигонов распределения можно выразить аналитически, например, для ряда распределения объемов поставок (Q, W), формула будет выглядеть следующим образом  

Аналогично аналитически можно выразить полигоны распределения интервалов между поставками (Т, У) и объемов суточных отпусков (R, СО  

Полигон распределения - ломаная линия, построенная на графике и характеризующая изменение вероятностей различных исходов событий при повторных испытаниях.  

Следующей задачей является оценка возможных сочетаний значений нормообразующих факторов, которые могут иметь место в интервалах отгрузки в плановом году. Возможность получения результата вытекает из анализа данных, приведенных на рис. 5.8 и 5.9. На каждом из этих 12 графиков построены два полигона распределений вариаций значений нормообразующих факторов в целом за три года и за один год из этого же периода. Они построены по четырем предприятиям - горно-обогатительному и лесообрабатывающему комбинатам и двум машиностроительным заводам. На графиках по осям абсцисс отложены диапазоны вариаций значений нормообразующих факторов на каждом из этих предприятий, а по осям ординат - частости появления значений признаков в соответствующих периодах. Штриховые линии полигонов, проведенные на графиках, построены по результатам обработки фактических данных за один отчетный год (1), сплошные - в целом за трехлетний период (Z).  

Поскольку, как уже говорилось выше, из полигона распределения легко можно получить гистограмму и наоборот, использование данного метода рассмотрим в предположении, что исходным графиком является гистограмма. В случае, если известен только полигон распределения, мы можем восстановить по нему гистограмму, тщательно его измерив и определив опорные точки (середины интервалов) этого полигона, и затем применить изложенный метод непосредственно к гистограмме. Относительно способа ее построения примем следующие допущения.  

В табл. 6.3.1 показаны все необходимые исходные данные, позволяющие рассчитать эмпирическую функцию распределения , гистограмму и полигон распределения.  

Ниже на рис. 6.3.10 и 6.3.11 приведены гистограмма и полигон распределения относительных частот.  

II. Диаграммы 1. Диаграммы рас- а) ДГ распределения по одному полигон распределения гистограмма  

Вариационные ряды могут быть изображены графически в виде полигона распределения и гистограммы.  

Полигоны распределения чаще всего применяются для изображения дискретных вариационных рядов.  

Полигон распределения и гистограмма есть реализация распределения выборочной совокупности при ограниченном числе наблюдений (N), а предельная кривая при N - > °° является распределением генеральной совокупности . Распределение генеральной совокупности является теоретическим распределением. Отдельные распределения изучены и поддаются точному аналитическому опи-  

Если уменьшить интервалы и одновременно увеличивать число наблюдений при конечной численности группы, то полигон распределения и гистограмма станут приближаться  

Для изображения вариационных рядов применяются линейные и плоскостные диаграммы , построенные в прямоугольной системе координат . При дискретной вариации признака графиком вариационного ряда служит полигон распределения. Рассмотрим пример его построения по следующим данным.  

Полигон распределения представляет собой замкнутый многоугольник, абсциссами вершин которого являются значения варьирующегося признака, а ординатами - соответствующие им частоты (рис. 3.8).  

Наглядно ряды распределения можно представить при помощи их графического изображения, позволяющего судить о форме распределения. Наиболее часто для этой цели используют полигон и гистограмму.  

На графике (рис. 4.1) представлены полигон (ломаная прямая) и гистограмма (совокупность прямоугольников) вышеуказанного распределения.  

Полигон степени влияния отобранных факторов на изучаемый показатель - распределение суммы рангов влияния факторов на изучаемый показатель. Если соединить его начало и конец прямой линией, то можно видеть, насколько далека полученная ранжировка от ранжировки, соответствующей полной согласованности мнений опрашиваемых экспертов. При этом возможны три случая ранжировки  

Полигон - это графическое изображение дискретного вариационного ряда в прямоугольной системе координат , при котором величины признака X откладываются на оси абсцисс, а соответствующие им частости W - на оси ординат. Эти точки соединяются отрезками прямой, полученная фигура представляет распределение совокупности по признаку X.  

Для расчета специфицированных норм производственных запасов требуется перейти от аналитической записи каждого полигона к вероятностным характеристикам - плотностям распределения вариаций объемов поставок (или соответственно интервалов поставок, объемов суточных отпусков и т.п.). Построенная же по полигону плотность распределения вариаций этого признака - Р(Х X показывает, как будут изменяться вариации признака X в плановом году. Далее будет более подробно пояснено, что эти плотности распределения обладают свойством устойчивости, по ним можно рассчитать специфицированные нормы производственных запасов для планового года. Причем будет показано, что чем больше неравномерность (размах вариаций фактора), тем выше должно быть установлено значение определяемой нормы производственного запаса при прочих одинаковых или примерно одинаковых условиях (например, при одном и том же годовом объеме поступления, одинаковых частотах поставок и годовом объеме расхода и т.д.).  

Разберем, как от аналитического выражения полигона вариаций признака (например, для объемов поставок - Q, W) перейти к плотности распределения вариаций этого же признака - Q, P(Q). Здесь для двух указанных выше случаев применяются разные обозначения величины вариаций объемов поставок и разные обозначения изменений частости объемов поставок и их вероятностей. В первом случае данные но отчетному  

Графически вариационные ряды изображаются в форме кривой распределения или полигона частоты. Приведем пример.  

Из цифрового и графического изображения рядов видно, что во втором году произошло значительное улучшение распределения долблений по уровням механических скоростей . Так, во втором году первый интервал оказался совершенно не заполненным, ряд стал короче и вершина полигона сдвинулась вправо к большим показателям скоростей.  

Рис. 13. Гистограмма, полигон и плотность распределения вероятности отсчета у аналогового измерительного прибора /info/5256">плотности распределения вероятности отсчета р (х), показанную на рис. 13, б.  

Вариация данных анализируется с помощью полигона распределения, кумуляты (кривой меньше, чем) и огивы (кривой больше, чем). Все эти виды графиков рассматриваются в главе 5. Линейные графики используются в решении задач классификации данных (см. гл. 6). Применение линейных графиков в анализе динамики рассмотрено в главе 9, а использование их для анализа связей -в главе 8. В этих же главах рассмотрено использование точечных диаграмм (см., например, поле корреляции в гл. 8).  

Полигон распределения представляет собой многоугольник, который строится на прямоугольной) оооординатной сетке следующим образом. В выбранных масштабахша оси абсцисс наносится шкала для фактических значений случайной величины X, на оси ординат-  

Построим полигон, гистограмму, кумуляту и огиву (рис. 4.1) на основании следующих данных о распределении сельского населения в России на 1 января 1998 г. по возрастным группам (млн человек).  

В первую очередь, для соблюдения условий сопоставимости показателей сравниваемых видов транспорта должны использоваться не просто отчетные данные, а расчетные показатели капиталовложений, эксплуатационных расходов и приведенных затрат. Это требование объясняется некоторой несопоставимостью фактических отчетных данных по трубопроводному и железнодорожному транспорту . В частности, если взять перекачку нефти по трубопроводу с промысла на завод, то в затратах по этому виду транспорта найдут отражение все расходы по интервалу перевозочного процесса от приемного резервуара головной перекачивающей станции нефтепровода до сдаточного резервуара конечного пункта нефтепровода на заводе. В случае доставки этой же нефти по железной дороге в ведомственной отчетности не будут отражены затраты на налив и слив нефти. Естественно, что в связи с этим фактические отчетные данные железной дороги должны быть скорректированы и приведены в сопоставимый вид с показателями магистрального трубопровода. Нельзя также пользоваться при решении задачи распределения перевозок нефтегрузов между рассматриваемыми видами транспорта среднесетевыми показателями для оценки железнодорожного варианта. Показатели последнего должны быть вполне конкретными, т. е. отражающими истинные-затраты именно по рассматриваемому направлению при догрузке его дополнительным потоком нефти или нефтепродуктов. В целях более точной оценки железнодорожного варианта затраты могут1 рассчитываться не только по рассматриваемой железной дороге , но и по полигону сети, в пределах которого сказывается влияние- дополнительного потока нефтегрузов. При отсутствии такого влияния можно ограничиться определением затрат лишь по рассматриваемой железной дороге.  

Для наглядности определения закономерностей изменения признака ряд распределения целесообразно представлять вчвиде полигонов (так как все изучаемые в настоящей работе признаки характеризуются дискретными величинами). Для изображения ряда распределения графически необходимо определение размера интервала группировок исходных данных.  

Для графического изображения рядов распределения кроме гистограммы и полигона могут применяться также кумулятивная кривая и огива1.  

Физический смысл полигонов вариаций значений нормообразующих факторов, приведенных на рис. 5.8 и 5.9, состоит в следующем они показывают, как изменялись условия производства и отгрузки готовой продукции на предприятиях в отчетных периодах . Из графика, приведенного на рис. 5.8г, следует, что объемы суточного производства пиломатериалов на лесодеревообрабатывающем комбинате ЛДК-4 изменялись в диапазоне от 100 до 900 куб. м (т.е. размах вариаций их будет от Rmia = 100 до -Rmax = 900 куб. м/сутки). Объемы производства пиломатериалов 430 куб. м/сутки составляли основную долю 44% (Р(Ю - 0,44), 580 куб. м/сутки - 28%, 690 куб. м/сутки - 4% и т.д. На рис. 5.8д и 5.8е построены распределения вариаций суточных объемов отгрузок пиломатериалов и интервалов между отгрузками, которые были в отчетном периоде . Объемы суточных отгрузок менялись в диапазоне от 50 до 780 куб. м/сутки (рис. 5.8д). В основном они составляли по 200-500 куб. м/ сутки - 45% (Р(О) = 0,45 при О = 200-580 куб. м/сутки), 580 куб. м/ сутки - 13%, 640 куб. м/сутки - 4% и т.д.  

Группировка – это разбиение совокупности на группы, однородные по какому-либо признаку.

Назначение сервиса . С помощью онлайн-калькулятора Вы сможете:

  • построить вариационный ряд , построить гистограмму и полигон;
  • найти показатели вариации (среднюю, моду (в т.ч. и графическим способом), медиану, размах вариации, квартили, децили, квартильный коэффициент дифференциации, коэффициент вариации и другие показатели);

Инструкция . Для группировки ряда необходимо выбрать вид получаемого вариационного ряда (дискретный или интервальный) и указать количество данных (количество строк). Полученное решение сохраняется в файле Word (см. пример группировки статистических данных).

Если группировка уже осуществлена и заданы дискретный вариационный ряд или интервальный ряд , то необходимо воспользоваться онлайн-калькулятором Показатели вариации . Проверка гипотезы о виде распределения производится с помощью сервиса Изучение формы распределения .

Виды статистических группировок

Вариационный ряд . В случае наблюдений дискретной случайной величины одно и то же значение можно встретить несколько раз. Такие значения x i случайной величины записывают с указанием n i числа раз его появления в n наблюдениях, это и есть частота данного значения.
В случае непрерывной случайной величины на практике применяют группировку.
  1. Типологическая группировка – это разделение исследуемой качественно разнородной совокупности на классы, социально–экономические типы, однородные группы единиц. Для построения данной группировки используйте параметр Дискретный вариационный ряд.
  2. Структурной называется группировка , в которой происходит разделение однородной совокупности на группы, характеризующие ее структуру по какому–либо варьирующему признаку. Для построения данной группировки используйте параметр Интервальный ряд.
  3. Группировка, выявляющая взаимосвязи между изучаемыми явлениями и их признаками, называется аналитической группировкой (см. аналитическая группировка ряда).

Пример №1 . По данным таблицы 2 постройте ряды распределения по 40 коммерческим банкам РФ. По полученным рядам распределения определите: прибыль в среднем на один коммерческий банк, кредитные вложения в среднем на один коммерческий банк, модальное и медианное значение прибыли; квартили, децили, размах вариации, среднее линейное отклонение, среднее квадратическое отклонение, коэффициент вариации.

Решение :
В разделе «Вид статистического ряда» выбираем Дискретный ряд. Нажимаем Вставить из Excel . Количество групп: по формуле Стэрджесса

Принципы построения статистических группировок

Ряд наблюдений, упорядоченных по возрастанию, называется вариационным рядом . Группировочным признаком называется признак, по которому производится разбивка совокупности на отдельные группы. Его называют основанием группировки. В основание группировки могут быть положены как количественные, так и качественные признаки.
После определения основания группировки следует решить вопрос о количестве групп, на которые надо разбить исследуемую совокупность.

При использовании персональных компьютеров для обработки статистических данных группировка единиц объекта производится с помощью стандартных процедур.
Одна из таких процедур основана на использовании формулы Стерджесса для определения оптимального числа групп:

k = 1+3,322*lg(N)

Где k – число групп, N – число единиц совокупности.

Длину частичных интервалов вычисляют как h=(x max -x min)/k

Затем подсчитывают числа попаданий наблюдений в эти интервалы, которые принимают за частоты n i . Малочисленные частоты, значения которых меньше 5 (n i < 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
В качестве новых значений вариант берут середины интервалов x i =(c i-1 +c i)/2.

Пример №3 . В результате 5%-ной собственно-случайной выборки получено следующее распределение изделий по содержанию влаги. Рассчитайте: 1) средний процент влажности; 2) показатели, характеризующие вариацию влажности.
Решение получено с помощью калькулятора : Пример №1

Построить вариационный ряд. По найденному ряду построить полигон распределения, гистограмму, кумуляту. Определить моду и медиану.
Скачать решение

Пример . По результатам выборочного наблюдения (выборка А приложение):
а) составьте вариационный ряд;
б) вычислите относительные частоты и накопленные относительные частоты;
в) постройте полигон;
г) составьте эмпирическую функцию распределения;
д) постройте график эмпирической функции распределения;
е) вычислите числовые характеристики: среднее арифметическое, дисперсию, среднее квадратическое отклонение. Решение

На основе данных, приведенных в Таблице 4 (Приложение 1) и соответствующих Вашему варианту, выполнить:

  1. На основе структурной группировки построить вариационный частотный и кумулятивный ряды распределения, используя равные закрытые интервалы, приняв число групп равным 6. Результаты представить в виде таблицы и изобразить графически.
  2. Проанализировать вариационный ряд распределения, вычислив:
    • среднее арифметическое значение признака;
    • моду, медиану, 1-ый квартиль, 1-ый и 9-тый дециль;
    • среднее квадратичное отклонение;
    • коэффициент вариации.
  3. Сделать выводы.

Требуется: ранжировать ряд, построить интервальный ряд распределения, вычислить среднее значение, колеблемость среднего значения, моду и медиану для ранжированного и интервального рядов.

На основе исходных данных построить дискретный вариационный ряд ; представить его в виде статистической таблицы и статистических графиков. 2). На основе исходных данных построить интервальный вариационный ряд с равными интервалами. Число интервалов выбрать самостоятельно и объяснить этот выбор. Представить полученный вариационный ряд в виде статистической таблицы и статистических графиков. Указать виды примененных таблиц и графиков.

С целью определения средней продолжительности обслуживания клиентов в пенсионном фонде, число клиентов которого очень велико, по схеме собственно-случайной бесповторной выборки проведено обследование 100 клиентов. Результаты обследования представлены в таблице. Найти:
а) границы, в которых с вероятностью 0.9946 заключено среднее время обслуживания всех клиентов пенсионного фонда;
б) вероятность того, что доля всех клиентов фонда с продолжительностью обслуживания менее 6 минут отличается от доли таких клиентов в выборке не более чем на 10% (по абсолютной величине);
в) объем повторной выборки, при котором с вероятностью 0.9907 можно утверждать, что доля всех клиентов фонда с продолжительностью обслуживания менее 6 минут отличается от доли таких клиентов в выборке не более чем на 10% (по абсолютной величине).
2. По данным задачи 1, используя X 2 критерий Пирсона, на уровне значимости α = 0,05 проверить гипотезу о том, что случайная величина Х – время обслуживания клиентов – распределена по нормальному закону. Построить на одном чертеже гистограмму эмпирического распределения и соответствующую нормальную кривую.
Скачать решение

Дана выборка из 100 элементов. Необходимо:

  1. Построить ранжированный вариационный ряд;
  2. Найти максимальный и минимальный члены ряда;
  3. Найти размах вариации и количество оптимальных промежутков для построения интервального ряда. Найти длину промежутка интервального ряда;
  4. Построить интервальный ряд. Найти частоты попадания элементов выборки в составленные промежутки. Найти средние точки каждого промежутка;
  5. Построить гистограмму и полигон частот. Сравнить с нормальным распределением (аналитически и графически);
  6. Построить график эмпирической функции распределения;
  7. Рассчитать выборочные числовые характеристики: выборочное среднее и центральный выборочный момент;
  8. Рассчитать приближенные значения среднего квадратического отклонения, асимметрии и эксцесса (пользуясь пакетом анализа MS Excel). Сравнить приближенные расчетные значения с точными (рассчитанные по формулам MS Excel);
  9. Сравнить выборочные графические характеристики с соответствующими теоретическими.
Скачать решение

Имеются следующие выборочные данные (выборка 10%-ная, механическая) о выпуске продукции и сумме прибыли, млн. руб. По исходным данным:
Задание 13.1.
13.1.1. Постройте статистический ряд распределения предприятий по сумме прибыли, образовав пять групп с равными интервалами. Постройте графики ряда распределения.
13.1.2. Рассчитайте числовые характеристики ряда распределения предприятий по сумме прибыли: среднюю арифметическую, среднее квадратическое отклонение, дисперсию, коэффициент вариации V. Сделайте выводы.
Задание 13.2.
13.2.1. Определите границы, в которых с вероятностью 0.997 заключена сумма прибыли одного предприятия в генеральной совокупности.
13.2.2. Используя x2-критерий Пирсона , при уровне значимости α проверить гипотезу о том, что случайная величина X – сумма прибыли – распределена по нормальному закону.
Задание 13.3.
13.3.1. Определите коэффициенты выборочного уравнения регрессии.
13.3.2. Установите наличие и характер корреляционной связи между стоимостью произведённой продукции (X) и суммой прибыли на одно предприятие (Y). Постройте диаграмму рассеяния и линию регрессии.
13.3.3. Рассчитайте линейный коэффициент корреляции. Используя t-критерий Стьюдента, проверьте значимость коэффициента корреляции. Сделайте вывод о тесноте связи между факторами X и Y, используя шкалу Чеддока .
Методические рекомендации . Задание 13.3 выполняется с помощью этого сервиса .
Скачать решение

Задача . Следующие данные представляют собой затраты времени клиентов на заключение договоров. Построить интервальный вариационный ряд представленных данных, гистограмму, найти несмещенную оценку математического ожидания, смещенную и несмещенную оценку дисперсии.

Пример . По данным таблицы 2:
1) Постройте ряды распределения по 40 коммерческим банкам РФ:
А) по величине прибыли;
Б) по величине кредитных вложений.
2) По полученным рядам распределения определите:
А) прибыль в среднем на один коммерческий банк;
Б) кредитные вложения в среднем на один коммерческий банк;
В) модальное и медианное значение прибыли; квартили, децили;
Г) модальное и медианное значение кредитных вложений.
3) По полученным в п. 1 рядам распределения рассчитайте:
а) размах вариации;
б) среднее линейное отклонение;
в) среднее квадратическое отклонение;
г) коэффициент вариации.
Необходимые расчеты оформите в табличной форме. Результаты проанализируйте. Сделайте выводы.
Постройте графики полученных рядов распределения. Графически определите моду и медиану.

Решение:
Для построения группировка с равными интервалами воспользуемся сервисом Группировка статистических данных .

Рисунок 1 – Ввод параметров

Описание параметров
Количество строк : количество исходных данных. Если размерность ряда небольшая, укажите его количество. Если выборка достаточно объемная, то нажмите кнопку Вставить из Excel .
Количество групп : 0 – число групп будет определяться по формуле Стэрджесса.
Если задано конкретное число групп, укажите его (например, 5).
Вид ряда : Дискретный ряд.
Уровень значимости : например, 0.954 . Этот параметр задается для определения доверительного интервала среднего значения.
Выборка : Например, проведена 10% -ная механическая выборка. Указываем число 10 . Для наших данных указываем 100 .

Для наглядности строят различные графики статистического распределения, в частности, полигон и гистограмму.

Определение . Полигоном частот называют ломаную, отрезки которой соединяют точки (x 1 , n 1), (x 2 , n 2), …, (x k , n k).

Для построения полигона частот на оси абсцисс откладывают варианты x i , а на оси ординат – соответствующие им частоты n i . Точки (x i , n i) соединяют отрезками прямых и получают полигон частот.

Определение. Полигоном относительных частот называют ломаную, отрезки которой соединяют точки (x 1 , w 1), (x 2 , w 2), …, (x k , w k).

Для построения полигона частот на оси абсцисс откладывают варианты x i , а на оси ординат w i . Точки (x i , w i) соединяют отрезками прямых и получают полигон относительных частот.

На рисунке изображен полигон относительных частот следующего распределения:

Рис. 6. Полигон относительных частот.

В случае непрерывного признака целесообразно строить гистограмму, для чего интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько частичных интервалов длинной h и находят для каждого частичного интервала n i – сумму частот вариант, попавших в i-ый интервал.

Определение . Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высоты равны отношению (плотность частоты).

Рис. 7. Гистограмма частот.

Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс, на расстоянии .

Площадь i-го частичного прямоугольника равна =─ сумме частот вариантi-го интервала; следовательно, площадь гистограммы частот равна сумме всех частот, то есть объему выборки n.

На рисунке 2 изображена гистограмма частот распределения объема n=100, приведенного в таблице 1.

Частичный интервал,

длиною h=5

Плотность частоты

Определение . Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длинною h, а высоты равны отношению (плотность относительной частоты).

Для построения гистограммы относительных частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии . Площадьi-го частичного прямоугольника равна =─ относительной частоте вариант, попавших вi-й интервал. Следовательно, площадь гистограммы относительных частот равна сумме всех относительных частот, то есть единице.

    В результате выборки получена следующая таблица распределения частот.

Построить полигоны частот и относительных частот распределения.

Для начала построим полигон частот.

Рис. 8. Полигон частот.

Чтобы построить полигон относительных частот найдем относительные частоты, для чего разделим частоты на объем выборки n.

n = 3 + 10 + 7 = 20.

Получаем

Построим полигон относительных частот.

Рис. 9. Полигон относительных частот.

2. Построить гистограммы частот и относительных частот распределения.

Найдем плотность частоты :

Частичный интервал,

длиною h = 3

Сумма частот вариант частичного интервала

Плотность частоты

Полигон частот

Пусть нам дан ряд распределения, записанный с помощью таблицы:

Рисунок 1.

Определение 1

Полигон частот -- ломанная, которая соединяет точки $(x_m,n_m)$ ($m=1,2,\dots ,m)$.

То есть, для построения полигона частот необходимо на оси абсцисс откладывают значения вариант, а по оси ординат соответствующие частоты. Полученные точки соединяют ломанной:

Рисунок 2. Полигон частот.

Помимо обычной частоты существует еще понятие относительной частоты.

Получаем следующую таблицу распределения относительных частот:

Рисунок 3.

Определение 2

Полигон относительных частот -- ломанная, которая соединяет точки $(x_m,W_m)$ ($m=1,2,\dots ,m)$.

То есть, для построения полигона частот необходимо на оси абсцисс откладывают значения вариант, а по оси ординат соответствующие относительные частоты. Полученные точки соединяют ломанной:

Рисунок 4. Полигон относительных частот.

Гистограмма частот

Помимо понятия полинома для непрерывных значений существует понятие гистограммы.

Заметим, что площадь одного такого прямоугольника $\frac{n_ih}{h}=n_i$. Следовательно, площадь всей фигуры равна $\sum{n_i}=n$, то есть равна объему выборки.

Определение 4

Гистограмма относительных частот -- ступенчатая фигура, состоящая из прямоугольников с основанием -- частичными интервалами длины $h$ и высотами $\frac{W_i}{h}$:

Рисунок 6. Гистограмма относительных частот.

Заметим, что площадь одного такого прямоугольника $\frac{W_ih}{h}=W_i$. Следовательно, площадь всей фигуры равна $\sum{W_i}=W=1$.

Примеры задачи на построение полигона и гистограммы

Пример 1

Пусть распределение частот имеет вид:

Рисунок 7.

Построить полигон относительных частот.

Построим сначала ряд распределения относительных частот по формуле $W_i=\frac{n_i}{n}$