Студопедия

КАТЕГОРИИ:

АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Использование методов математической статистики для анализа данных.




Занятие №1 13.02.2013

Системное программное обеспечение. Операционная система.

Систе́мноепрогра́ммноеобеспе́чение — это комплекс программ, которые обеспечивают управление компонентами компьютерной системы, такими как процессор, оперативная память, устройства ввода-вывода, сетевое оборудование, выступая как «межслойный интерфейс», с одной стороны которого аппаратура, а с другой - приложения пользователя. В отличие от прикладного программного обеспечения системное не решает конкретные прикладные задачи, а лишь обеспечивает работу других программ, управляет аппаратными ресурсами вычислительной системы и т.д.

                             

Операцио́ннаясисте́ма, сокр. ОС — комплекс управляющих и обрабатывающих программ, которые, с одной стороны, выступают как интерфейс между устройствами вычислительной системы и прикладными программами, а с другой стороны — предназначены для управления устройствами, управления вычислительными процессами, эффективного распределения вычислительных ресурсов между вычислительными процессами и организации надёжных вычислений. Это определение применимо к большинству современных операционных систем общего назначения.

В логической структуре типичной вычислительной системы операционная система занимает положение между устройствами с их микроархитектурой, машинным языком и, возможно, собственными (встроенными) микропрограммами — с одной стороны — и прикладными программами с другой.

Разработчикам программного обеспечения операционная система позволяет абстрагироваться от деталей реализации и функционирования устройств, предоставляя минимально необходимый набор функций (см.: интерфейс программирования приложений).

В большинстве вычислительных систем операционная система является основной, наиболее важной (а иногда и единственной) частью системного программного обеспечения. С 1990-х годов наиболее распространёнными операционными системами являются системы семейства Windows и системы класса UNIX (особенно Linux и Mac OS).

Основные функции ОС:

• Исполнение запросов программ (ввод и вывод данных, запуск и остановка других программ, выделение и освобождение дополнительной памяти и др.).

• Загрузка программ в оперативную память и их выполнение.

• Стандартизованный доступ к периферийным устройствам (устройства ввода-вывода).

• Управление оперативной памятью (распределение между процессами, организация виртуальной памяти).

• Управление доступом к данным на энергонезависимых носителях (таких как жёсткий диск, оптические диски и др.), организованным в той или иной файловой системе.

• Обеспечение пользовательского интерфейса.

• Сохранение информации об ошибках системы.

Компоненты операционной системы:

· Загрузчик

· Ядро

· Командный процессор (интерпретатор)

· Драйверы устройств

· Интерфейс

Загрузчик операционной системы — системное программное обеспечение, обеспечивающее загрузку операционной системы непосредственно после включения компьютера.

Ядро́ — центральная часть операционной системы (ОС), обеспечивающая приложениям координированный доступ к ресурсам компьютера, таким как процессорное время, память, внешнее аппаратное обеспечение, внешнее устройство ввода и вывода информации. Также обычно ядро предоставляет сервисы файловой системы и сетевых протоколов.

Оболочка операционной системы (от англ. shell — оболочка) — интерпретатор команд операционной системы, обеспечивающий интерфейс для взаимодействия пользователя с функциями системы.

Дра́йвер (англ. driver, мн. ч. дра́йверы[1]) — компьютерная программа, с помощью которой другие программы (обычно операционная система) получают доступ к аппаратному обеспечению некоторого устройства. Обычно с операционными системами поставляются драйверы для ключевых компонентов аппаратного обеспечения, без которых система не сможет работать. Однако для некоторых устройств (таких, как видеокарта или принтер) могут потребоваться специальные драйверы, обычно предоставляемые производителем устройства.

 

Прикладные программы.

Прикладная программа или приложение — программа, предназначенная для выполнения определенных пользовательских задач и рассчитанная на непосредственное взаимодействие с пользователем. В большинстве операционных систем прикладные программы не могут обращаться к ресурсам компьютера напрямую, а взаимодействуют с оборудованием и проч. посредством операционной системы. Также на простом языке — вспомогательные программы.

Программные средства общего назначения:

· Текстовые редакторы

· Текстовые процессоры

· Системы компьютерной вёрстки

· Графические редакторы

· СУБД

· Электронные таблицы

· Веб-браузер

По сфере применения прикладные программы бывают:

• Прикладное программное обеспечение предприятий и организаций. Например, финансовое управление, система отношений с потребителями, сеть поставок. К этому типу относится также ведомственное ПО предприятий малого бизнеса, а также ПО отдельных подразделений внутри большого предприятия. (Примеры:Управление транспортными расходами, Служба IT поддержки)

• Программное обеспечение обеспечивает доступ пользователя к устройствам компьютера.

• Программное обеспечение инфраструктуры предприятия. Обеспечивает общие возможности для поддержки ПО предприятий. Это системы управления базами данных, серверы электронной почты, управление сетью и безопасностью.

• Программное обеспечение информационного работника. Обслуживает потребности индивидуальных пользователей в создании и управлении информацией. Это, как правило, управление временем, ресурсами, документацией, например, текстовые редакторы, электронные таблицы, программы-клиенты для электронной почты и блогов, персональные информационные системы и медиа редакторы.

• Программное обеспечение для доступа к контенту. Используется для доступа к тем или иным программам или ресурсам без их редактирования (однако может и включать функцию редактирования). Предназначено для групп или индивидуальных пользователей цифрового контента. Это, например, медиа-плееры, веб-браузеры, вспомогательные браузеры и др.

• Образовательное программное обеспечение по содержанию близко кПО для медиа и развлечений, однако в отличие от него имеет четкие требования по тестированию знаний пользователя и отслеживанию прогресса в изучении того или иного материала. Многие образовательные программы включают функции совместного пользования и многостороннего сотрудничества.

• Имитационное программное обеспечение. Используется для симуляции физических или абстрактных систем в целях научных исследований, обучения или развлечения.

• Инструментальные программные средства в области медиа. Обеспечивают потребности пользователей, которые производят печатные или электронные медиа ресурсы для других потребителей, на коммерческой или образовательной основе. Это программы полиграфической обработки, верстки, обработки мультимедиа, редакторы HTML, редакторы цифровой анимации, цифрового звука и т.п.

• Прикладные программы для проектирования и конструирования. Используются при разработке аппаратного и программного обеспечения. Охватывают автоматизированное проектирование (computeraideddesign — CAD), автоматизированный инжиниринг (computeraidedengineering — CAE), редактирование и компилирование языков программирования, программы интегрированной среды разработки (IntegratedDevelopmentEnvironments).

Вопрос №2

Использование методов математической статистики для анализа данных.

Математическая статистика — раздел математики, разрабатывающий методы регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей массовых случайных явлений. В зависимости от математической природы конкретных результатов наблюдений статистика математическая делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы.

 

Выделяют описательную статистику, теорию оценивания и теорию проверки гипотез. Описательная статистика есть совокупность эмпирических методов, используемых для визуализации и интерпретации данных (расчет выборочных характеристик, таблицы, диаграммы, графики и т. д.), как правило, не требующих предположений о вероятностной природе данных. Некоторые методы описательной статистики предполагают использование возможностей современных компьютеров. К ним относятся, в частности, кластерный анализ, нацеленный на выделение групп объектов, похожих друг на друга, и многомерное шкалирование, позволяющее наглядно представить объекты на плоскости.

 

Методы оценивания и проверки гипотез опираются на вероятностные модели происхождения данных. Эти модели делятся на параметрические и непараметрические. В параметрических моделях предполагается, что характеристики изучаемых объектов описываются посредством распределений, зависящих от (одного или нескольких) числовых параметров. Непараметрические модели не связаны со спецификацией параметрического семейства для распределения изучаемых характеристик. В математической статистике оценивают параметры и функции от них, представляющие важные характеристики распределений (например, математическое ожидание, медиана, стандартное отклонение, квантили и др.), плотности и функции распределения и пр. Используют точечные и интервальные оценки.

 

Большой раздел современной математической статистики — статистический последовательный анализ, фундаментальный вклад в создание и развитие которого внес А. Вальд во время Второй мировой войны. В отличие от традиционных (непоследовательных) методов статистического анализа, основанных на случайной выборке фиксированного объема, в последовательном анализе допускается формирование массива наблюдений по одному (или, более общим образом, группами), при этом решение об проведении следующего наблюдения (группы наблюдений) принимается на основе уже накопленного массива наблюдений. Ввиду этого, теория последовательного статистического анализа тесно связана с теорией оптимальной остановки.

 

В математической статистике есть общая теория проверки гипотез и большое число методов, посвящённых проверке конкретных гипотез. Рассматривают гипотезы о значениях параметров и характеристик, о проверке однородности (то есть о совпадении характеристик или функций распределения в двух выборках), о согласии эмпирической функции распределения с заданной функцией распределения или с параметрическим семейством таких функций, о симметрии распределения и др.

 

Большое значение имеет раздел математической статистики, связанный с проведением выборочных обследований, со свойствами различных схем организации выборок и построением адекватных методов оценивания и проверки гипотез.

 

Задачи восстановления зависимостей активно изучаются более 200 лет, с момента разработки К. Гауссом в 1794 г. метода наименьших квадратов.

 

Разработка методов аппроксимации данных и сокращения размерности описания была начата более 100 лет назад, когда К. Пирсон создал метод главных компонент. Позднее были разработаны факторный анализ и многочисленные нелинейные обобщения.

 

Различные методы построения (кластер-анализ), анализа и использования (дискриминантный анализ) классификаций (типологий) именуют также методами распознавания образов (с учителем и без), автоматической классификации и др.

 

В настоящее время компьютеры играют большую роль в математической статистике. Они используются как для расчётов, так и для имитационного моделирования (в частности, в методах размножения выборок и при изучении пригодности асимптотических результатов).

Статистическая выборка

Выборка или выборочная совокупность — множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.

В математике и статистике сре́днееарифмети́ческое - одна из наиболее распространённых мер центральной тенденции, представляющая собой сумму всех наблюденных значений деленную на их количество.

Несмещенная дисперсия - несмещенная оценка дисперсии генеральной совокупности по выборке данных.

Измеряется в единицах измерения самой случайной величины. Равно корню квадратному из дисперсии случайной величины. Среднеквадратическое отклонение используют при расчёте стандартной ошибки среднего арифметического, при построении доверительных интервалов, при статистической проверке гипотез, при измерении линейной взаимосвязи между случайными величинами.

 

Среднеквадратическое отклонение:

 

 

3. Корреляция (от лат. correlatio), (корреляционная зависимость) — статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин. Математической мерой корреляции двух случайных величин служит корреляционное отношение В случае, если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической.

Впервые в научный оборот термин «корреляция» ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. В статистике слово «корреляция» первым стал использовать английский биолог и статистик ФрэнсисГальтон в конце XIX века.

Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными. В первом случае предполагается, что мы можем определить только наличие или отсутствие связи, а во втором — также и её направление. Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой. При этом коэффициент корреляции будет отрицательным. Положительная корреляция в таких условиях — это такая связь, при которой увеличение одной переменной связано с увеличением другой переменной. Возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин.

Регрессия (лат. regressio — обратное движение, отход), в теории вероятностей и математической статистике, зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин. В отличие от чисто функциональной зависимости y=f(x), когда каждому значению независимой переменной x соответствует одно определённое значение величины y, при регрессионной связи одному и тому же значению x могут соответствовать в зависимости от случая различные значения величины yЭтот термин в статистике впервые был использован Френсисом Гальтоном (1886) в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов, что не удивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (regressiontomediocrity), то есть «регресс». Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси ординат которой откладывались значения среднего роста сыновей, а по оси абсцисс — значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была линейной.

Итак, допустим, имеется выборка из двумерного распределения пары случайных переменных (X, Y). Прямая линия в плоскости (x, y) была выборочным аналогом функции

 

В теории вероятностей под термином «регрессия» и понимают эту функцию, которая есть не что иное как условное математическое ожидание случайной переменной Y при условии, что другая случайная переменная X приняла значение x. Если, например, пара (X, Y) имеет двумерное нормальное распределение с E(X)=μ1, E(Y)=μ2, var(X)=σ12, var(Y)=σ22, cor(X, Y)=ρ, то можно показать, что условное распределение Y при X=x также будет нормальным с математическим ожиданием, равным…

В этом примере регрессия Y на X является линейной функцией. Если регрессия Y на X отлична от линейной, то приведённые уравнения суть линейная аппроксимация истинного уравнения регрессии.

В общем случае регрессия одной случайной переменной на другую не обязательно будет линейной. Также не обязательно ограничиваться парой случайных переменных. Статистические проблемы регрессии связаны с определением общего вида уравнения регрессии, построением оценок неизвестных параметров, входящих в уравнение регрессии, и проверкой статистических гипотез о регрессии. Эти проблемы рассматриваются в рамках регрессионного анализа.

Простым примером регрессии Y по X является зависимость между Y и X, которая выражается соотношением: Y=u(X)+ε, гдеu(x)=E(Y | X=x), а случайные величины X и ε независимы. Это представление полезно, когда планируется эксперимент для изучения функциональной связи y=u(x) между неслучайными величинами y и x. На практике обычно коэффициенты регрессии в уравнении y=u(x) неизвестны и их оценивают по экспериментальным данным.

Коэффициент корреляции — это мера взаимосвязи измеренных явлений.

Коэффициент корреляции (обозначается «r») рассчитывается по специальной формуле и изменяется от -1 до +1. Показатели близкие к +1 говорят о том, что при увеличении значения одной переменной увеличивается значение другой переменной. Показатели близкие к -1 свидетельствуют об обратной связи, т.е. При увеличении значений одной переменной, значения другой уменьшается.

Коэффициент корреляции Пирсона характеризует существование линейной зависимости между двумя величинами.

4. Регрессия (лат. regressio — обратное движение, отход), в теории вероятностей и математической статистике, зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин. В отличие от чисто функциональной зависимости y=f(x), когда каждому значению независимой переменной x соответствует одно определённое значение величины y, при регрессионной связи одному и тому же значению x могут соответствовать в зависимости от случая различные значения величины y.

Этот термин в статистике впервые был использован Френсисом Гальтоном (1886) в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов, что не удивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (regressiontomediocrity), то есть «регресс». Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси ординат которой откладывались значения среднего роста сыновей, а по оси абсцисс — значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была линейной.

Итак, допустим, имеется выборка из двумерного распределения пары случайных переменных (X, Y). Прямая линия в плоскости (x, y) была выборочным аналогом функции

В теории вероятностей под термином «регрессия» и понимают эту функцию, которая есть не что иное как условное математическое ожидание случайной переменной Y при условии, что другая случайная переменная X приняла значение x. Если, например, пара (X, Y) имеет двумерное нормальное распределение с E(X)=μ1, E(Y)=μ2, var(X)=σ12, var(Y)=σ22, cor(X, Y)=ρ, то можно показать, что условное распределение Y при X=x также будет нормальным с математическим ожиданием. В этом примере регрессия Y на X является линейной функцией. Если регрессия Y на X отлична от линейной, то приведённые уравнения суть линейная аппроксимация истинного уравнения регрессии.

В общем случае регрессия одной случайной переменной на другую не обязательно будет линейной. Также не обязательно ограничиваться парой случайных переменных. Статистические проблемы регрессии связаны с определением общего вида уравнения регрессии, построением оценок неизвестных параметров, входящих в уравнение регрессии, и проверкой статистических гипотез о регрессии. Эти проблемы рассматриваются в рамках регрессионного анализа.

Простым примером регрессии Y по X является зависимость между Y и X, которая выражается соотношением: Y=u(X)+ε, гдеu(x)=E(Y | X=x), а случайные величины X и ε независимы. Это представление полезно, когда планируется эксперимент для изучения функциональной связи y=u(x) между неслучайными величинами y и x. На практике обычно коэффициенты регрессии в уравнении y=u(x) неизвестны и их оценивают по экспериментальным данным.

Линейная регрессия (англ. Linearregression) — используемая в статистике регрессионная модель зависимости одной (объясняемой, зависимой) переменной y от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) x с линейной функцией зависимости.

Модель линейной регрессии является часто используемой и наиболее изученной в эконометрике. А именно изучены свойства оценок параметров, получаемых различными методами при тех или иных предположениях о вероятностных характеристиках факторов и случайных ошибок модели. Предельные (асимптотические) свойства оценок нелинейных моделей также выводятся исходя из аппроксимации последних линейными моделями. Необходимо отметить, что с эконометрической точки зрения более важное значение имеет линейность по параметрам, чем линейность по факторам модели.

Коэффициенты линейной регрессии показывают скорость изменения зависимой переменной по данному фактору, при фиксированных остальных факторах (в линейной модели эта скорость постоянна):

Параметр , при котором нет факторов, называют часто константой. Формально - это значение функции при нулевом значении всех факторов. Для аналитических целей удобно считать, что константа - это параметр при "факторе", равном 1 (или другой произвольной постоянной, поэтому константой называют также и этот "фактор").

Линейная модель может быть как с константой, так и без константы. Тогда в этом представлении первый фактор либо равен единице, либо является обычным фактором соответственно.

5. В медицинской информатике чаще всего применяют специально разработанные программы. В настоящее время не все учреждения имеют программные продукты, которые используют систему электронного документооборота (в том числе электронной истории болезни и амбулаторной карты). В этом случае пользуются стандартными программными средствами, которые позволяют формировать отдельные медицинские документы в электронном виде и осуществлять обработку данных.Самый распространенный редактор MiсrosoftWord, программа входящая в MicrosoftOffice.

n MiсrosoftWord – текстовый редактор, программа для создания и обработки текстовых документов. Представление редактора позволяет просматривать на экране готовый к печати документ без необходимости расходовать бумагу на пробную печать. Отформатированные символы отображаются на экране так, как они будут выглядеть на печати.

Правила ввода текста в программе Word

n Клавишей Enter пользуйтесь только для перехода от абзаца к абзацу, на другую строку текст переходит сам.

n Пробел ставится в качестве разделителя слов (не более одного пробела).

n Перед знаками препинания:. , : ; ? ! …пробел не ставится, он ставится после него.

n Пробелставиться перед открывающейся скобкой, а после – нет пробела.

n Пробел не ставится перед закрывающейся скобкой, а ставится после нее.

n Если за закрывающейся скобкой идет знак препинания, то пробел ставиться после знака, а между скобкой и знаком пробел не ставится.

n Черточка может быть:

n Дефис(какой-либо) – перед и после дефиса пробелы не ставится;

n Тире(Москва – это город) – тире отделяется пробелом с двух сторон.

n Перемещение по набранному тексту

n Существуют два понятия – курсор ввода и указатель мыши.

n Курсор ввода представляет собой мигающую вертикальную полоску |. Он указывает место, в которое будет вводиться текст. Для его перемещения используются клавиши управления курсором или мышь. Для перемещения курсора с помощью мыши следует установить указатель мыши в нужную позицию и щелкнуть ЛКМ

n Клавиша - Перемещение курсора

n á -На одну строку вверх

n â -На одну строку вниз

n ß -На одну позицию влево

n à -На одну позицию вправо

n Ctrl+á -На один абзац вверх

n Ctrl+â -На один абзац вниз

n Ctrl+ß -На одно слово влево

n Ctrl+à -На одно слово вправо

n PgUp -На один экран вверх

n PgDn -На один экран вниз

n End -В начало строки

n Home -В конец строки

n Ctrl+Home -В начало документа

n Ctrl+End -В конец документа

Редактирование текста

           Для удаления символа на клавиатуре имеются две клавиши:    
BackSpace(верхний ряд цифр) – удаляет символы слева от курсора;

           Delete (Del) – удаляет символы справа от курсора.

           Для того чтобы удалить лишний или неправильный символ, нужно установить курсор перед или после него и нажать нужную клавишу.

           Для удаления фрагмента текста следует выделить его и нажать клавишу Delete. Если выделить фрагмент текста и набрать на клавиатуре новый текст, он вставится вместо выделенного фрагмента.

 










Последнее изменение этой страницы: 2018-04-12; просмотров: 284.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...