Логлинейная модель

Логлинейные модели, описанные здесь, игнорируют любую структуру, связывающую категории переменных, однако проблемы социальных наук часто включают переменные с упорядоченными категориями (например, переменные статуса в примере социальной мобильности, рассмотренном ранее). Лео Гудман предоставил основу для расширения стандартных лог-линейных моделей с помощью условий мультипликативного взаимодействия в форме:

для представления двухфакторного u- члена. Этот расширенный класс моделей, известный как модели ассоциаций, имеет близкие параллели с моделями анализа соответствий, и оба класса были разработаны и расширены рядом других авторов.

Лог-линейные модели

Связь логарифма

В лог-линейных моделях предполагается, что счетчики в каждой ячейке соответствуют распределению Пуассона. Кроме того, среднее значение распределения в каждой ячейке, возможно, связано с классифицирующими факторами. После соответствующего кодирования коэффициенты в таблице I затем соотносятся со средним значением Пуассона в каждой ячейке через

где параметры β 0 , β 1 , β 2 ,… - значения, подлежащие оценке, а A 1 , A 2 , L 1 ,… - (фиктивные) переменные. (Логарифмическая функция - это натуральный логарифм с основанием e ≈ 2,71828….) Это уравнение дает название «лог-линейные модели», поскольку модель является линейной в логарифмическом масштабе. Технически логарифм называется функцией связи в номенклатуре обобщенных линейных моделей. Эквивалентно, но более кратко, правая сторона модели может быть записана в виде 1 + + L + G + D .

Уравнение (1) можно переписать как μ i = exp (β 0 + β 1 A 1 + β 2 A 2 +…); таким образом, логарифм гарантирует, что средние Пуассона μ i всегда остаются положительными. Использование журнала неявно предполагает, что факторы имеют мультипликативный эффект на ответ, а не аддитивный эффект. (Эквивалентно, влияние факторов аддитивно в логарифмической шкале.)

Категориальный анализ данных

Общее соотношение шансов и процедура CMH

Логлинейная модель полной независимости [1] [2] [3] неприемлемо плохо согласуется с таблицей 4( G 2 = 624 на 13 df), но модель «без взаимодействия второго порядка», [12] [13 ] [23], подходит довольно хорошо ( G 2 = 0,009 на 4 df). Отсутствие трехстороннего взаимодействия означает, что отношение шансов между математическим упражнением и соответствием стандарту в каждой подтаблице предварительного тестирования не зависит от результата предварительного тестирования. Следовательно, при оценке этого общего отношения шансов и проверке независимости между математическим упражнением и соответствием стандарту мы должны объединить данные по группам предварительных оценок, чтобы повысить точность оценки и статистическую мощность. Однако, как показано в таблице 4, мы не можем объединить, просто суммируя количество ячеек в этих группах.

Вместо этого мы применяем процедуру CMH, которая обеспечивает как оценку общего отношения шансов, так и критерий хи-квадрат условной независимости математических упражнений и соответствует стандартному, заданному предварительному баллу (т. Е. Проверке нулевой гипотезы о том, что общая отношение шансов равно 1). Оценка CMH общего отношения шансов объединяет числитель и знаменатель уравнения [4] отдельно.

где n ijk - наблюдаемое количество учеников на уровне i упражнения по математике, j - соответствует стандарту и k - балл предварительного тестирования, а n .. k - количество студентов в группе k предварительных баллов . Мы вычисляем доверительные интервалы для OR MH, используя стандартные ошибки для журнала ( OR MH ) и проверяя, равно ли OR MH 1, сравнивая квадрат журнала ( OR MH ), разделенный на его стандартную ошибку, со значениями X2 раздачи по 1 дф. (Мы можем выполнить аналогичный тест, используя критерий условного отношения правдоподобия для модели [23] [13] с учетом модели [12] [23] [13] и разницы между соответствующими значениями G 2. Тест CMH для однако условная независимость является самым сильным тестом (см. Holland and Thayer, 1988).

Применяя процедуру CMH к таблице 4, мы находим убедительные доказательства того, что модель условной независимости математических упражнений с соответствием стандартным заданным предварительным оценкам ) отклоняется ( X 2 = 18 на 1 df), и мы оцениваем общее отношение шансов как 1,45, с 95% доверительным интервалом (1,23, 1,72). Существует заметная положительная связь между выполнением упражнений по математике и соответствием стандарту итогового теста для учащихся в каждой группе предварительного тестирования.

Графические модели

Подбор модели, выбор модели и анализ отклонений

Параметры гауссовых (нормальных), лог-линейных и условных гауссовских графических моделей можно оценить с помощью оценки максимального правдоподобия. Сложность этой процедуры оценки зависит от топологии графа. Если граф триангулирован, то параметры можно оценивать отдельно для каждой клики. В гауссовых моделях ключевые параметры основаны на ковариационной матрице переменных в клике. Для лог-линейных моделей модель клики - это просто насыщенная лог-линейная модель, достаточной статистикой которой является только наблюдаемое количество ячеек. Обратите внимание, что эта процедура дважды подсчитывает переменные на пересечениях между кликами; поэтому, чтобы избежать этого двойного подсчета, затем делится на распределение по переменным на пересечении между кликами. Таким образом, итоговая модель выглядит так:

где C - множество клик графа, I - множество пересечений; φ С (V С ) является маргинальным распределение по кликову Cи ψ Я(V я ) является маргинальным распределением над пересечением I. Это фундаментальное представление графических моделей, которое используется во многих вычислительных алгоритмах.

Если граф модели не триангулирован, то для оценки параметров модели требуются итерационные алгоритмы. Наиболее распространенная оценка использует итеративное пропорциональное масштабирование. Если для параметров модели указаны априорные распределения, можно оценить параметры, используя оценку методом Монте-Карло с цепью Маркова.

Для подгонки графических моделей к данным можно использовать многие распространенные программные пакеты. Ключ к определению графической модели состоит в том, чтобы отметить, что клики графа задаются как многосторонние взаимодействия с использованием обозначения спецификации модели Уилкинсона и Роджерса, которое используется многими общими статистическими пакетами, такими как SAS и S. Используя функцию S glm, Модель на Рисунке 2будет записана как «Подсчет ∼ Пол * Отдел + Отдел * Принятие», а насыщенная модель будет записана как «Подсчет ∼ Пол * Отдел * Принятие». Специальные пакеты программного обеспечения для графических моделей, такие как MIM или CoCo, позволяют указывать модели в нотации кликов.

Обычно к одному набору данных можно подогнать несколько моделей. Насыщенная модель (со всеми возможными краями) всегда должна подходить, но могут быть и более экономные модели, которые подходят. Общей мерой соответствия модели для графических моделей является отклонение, которое определяется как двойная разница в логарифмическом правдоподобии между текущей моделью и насыщенной моделью. Это имеет асимптотическое распределение χ 2 со степенями свободы, равными разнице между числом параметров в модели-кандидате и числом параметров в модели с насыщением. Для гауссовых моделей количество параметров - это просто количество ребер. Для дискретных моделей количество параметров - это сумма размеров клик, где размер клики определяется как произведение количества состояний каждой из переменных.Таким образом, размер насыщенной модели экспоненциально зависит от числа переменных в модели.

Предположим, что исследователь сравнивает две разные модели-кандидаты: модель A и модель B. Если граф модели B может быть получен из графа модели A путем удаления ребер, модель B вложена в модель A. Разница в их отклонениях является критерием отношения правдоподобия. сравнение двух моделей (со степенями свободы, определяемыми разницей в количестве параметров). Если есть серия вложенных моделей (скажем, путем последовательного удаления серии ребер), то они могут быть организованы в таблицу, аналогичную таблице анализа дисперсии. Иногда это называют анализом отклонений.

Обратите внимание, когда данные являются разреженными по отношению к количеству переменных (например, когда в таблице непредвиденных обстоятельств имеется большое количество пустых ячеек или из-за того, что определенные комбинации переменных встречаются редко), то параметр насыщенной модели может быть затруднен. для оценки, и отклонение выборки может иметь плохое приближение к распределению χ 2. В таких случаях тест отношения правдоподобия может работать хорошо, даже если разница в отклонениях не является численно стабильным способом сравнения моделей.

Для поиска лучшей модели часто используются пошаговые процедуры. Они могут либо начинаться с насыщенной модели (присутствуют все ребра) и переходить к удалению ребер, либо из модели полной независимости (без ребер) и переходить к добавлению ребер. В случае лог-линейных моделей выбор модели путем добавления или удаления ребер ограничивает поиск классом графических моделей; однако разница в интерпретации между графическими и неграфическими моделями, совместимыми с одним и тем же графиком, довольно тонка и часто не имеет отношения к интерпретации результатов в более широком научном контексте. Обратите внимание, что такая пошаговая процедура не гарантирует сходимость к оптимальной (в смысле наилучшего соответствия наблюдаемым данным) модели.

Если модели не вкладываются, то для сравнения моделей можно использовать обычные штрафные меры правдоподобия (например, информацию Акаике и байесовскую информацию). Поиск в пространстве всех возможных моделей - область активных исследований, и для этой цели предлагается множество алгоритмов (особенно алгоритмов поиска ориентированных и полунаправленных графов). Большинство алгоритмов требует, чтобы все данные хотя бы частично наблюдались (допускаются пропущенные значения), но некоторые включают скрытые переменные в пространстве поиска.

При рассмотрении применения этих алгоритмов обнаружения моделей следует сделать два предостережения. Во-первых, модели могут быть повторно подогнаны к данным, и, следовательно, важно использовать перекрестную проверку для оценки соответствия модели. Во-вторых, многие методы поиска моделей мотивированы попытками выявления причин (как правило, ориентированные графические модели, в которых ребра ориентированы в причинном направлении, будут иметь меньше ребер). Однако обычные ограничения вывода причинно-следственных связей из данных наблюдений все еще применяются. Это особенно важно, если работа должна быть представлена ​​непрофессиональной аудитории, которая не знакома с определениями, допущениями и ограничениями процедур поиска причинно-следственной связи.

Радиобиология рака легких

Хосе Г. Базан,. Дэниел Зипс, в IASLC торакальной онкологии (второе издание), 2018 г.

Линейно-квадратичная модель.

Кривые выживаемости клеток имеют характерную форму при построении в логарифмической шкале с дозой облучения на оси абсцисс и логарифмом выживаемости клеток на оси ординат. При низких дозах кривая имеет тенденцию быть прямой (линейной). При увеличении дозы кривая изгибается в области нескольких Гр; эту область часто называют плечом кривой выживаемости. При очень высоких дозах кривая снова имеет тенденцию выравниваться. 1

Было предложено множество биофизических моделей, чтобы математически зафиксировать эту взаимосвязь между дозой облучения и выживаемостью клеток. Исчерпывающий обзор всех этих моделей выходит за рамки данной главы, но его можно найти в Hall and Giaccia 1 и Brenner et al. 2 Наиболее часто используемой моделью является модель LQ, которая предполагает, что есть два компонента уничтожения клеток: один пропорционален дозе облучения, а другой пропорционален квадрату дозы. 1 Выживание клеток в этой модели представлено следующей экспоненциальной функцией:

где S - доля клеток, выживших после дозы, D ; e - математическая константа, приблизительно равная 2,71828; и α и β - константы, которые представляют линейную и квадратичную составляющие уничтожения клеток, соответственно. При дозе D = α / β вклады линейной и квадратичной составляющих уничтожения клеток равны.

Модель LQ удобна тем, что зависит только от двух параметров ( α и β ), и ею относительно легко манипулировать математически. Однако есть и биологическое обоснование для использования этой модели. Как упоминалось ранее, двунитевые разрывы ДНК считаются основным механизмом, приводящим к гибели клеток. Одно попадание радиации (один электрон) может вызвать смертельное повреждение, вызывая разрывы двух соседних хромосом ( компонент αD ). Однако, когда два отдельных электрона вызывают два хромосомных разрыва, может произойти кумулятивное повреждение, и вероятность этого случая пропорциональна квадрату дозы ( βD 2). 1

Многомерный анализ: дискретные переменные (обзор)

5 альтернативных типов моделей

Для таблиц непредвиденных обстоятельств, связывающих несколько переменных отклика, альтернативные статистические подходы к логлинейным моделям могут описывать связь между переменными. Прежде всего, это анализ соответствий , графический способ представления ассоциаций в двусторонних таблицах непредвиденных обстоятельств, который был особенно популярен во Франции (например, Benzécri 1973; см. Многомерный анализ: дискретные переменные ( модели соответствия ). Строки и столбцы представлены точки на графике, положения которых указывают на связь между ними. Гудман (1986) разработал модельную версию этого подхода. Он показал, что он эквивалентен моделям корреляции., которые определяют оценки для категорий, которые максимизируют корреляции между категориальными переменными. Он также показал приблизительные связи с набором ассоциативных моделей, которые он помог разработать, некоторые из которых имеют форму логлинейной модели, но с оценками или подобными оценкам параметрами, присвоенными уровням порядковых переменных. Clogg and Shihadeh (1994) исследовали такие модели.

Другой графический способ представления многомерной взаимосвязи использует графические модели , изучающие структуру условной независимости между переменными. Грубо говоря, у графа есть набор вершин, каждая вершина представляет собой переменную. Ребро, соединяющее две вершины, представляет собой условную связь между соответствующими двумя переменными. Например, для четырех переменных график на рис. 2 изображает модель, которая предполагает, что X и Y независимы, а X и Z независимы, в зависимости от оставшихся двух переменных, но допускает связь между W и X и между каждой парой. переменных из множества < W, Y, Z>. Четыре ребра в графе, соединяющие W и X, W и Y, W и Z , а также Y и Z , представляют попарные условные ассоциации. Ребра не соединяют X и Y или X и Z , поскольку эти пары условно независимы. Многие логлинейные модели являются графическими моделями. Подробнее см. Lauritzen (1996) и « Графические модели: обзор» .

Фигура 2 . Графическое представление четырех переменных с условной независимостью между X и Y и между X и Z

Модели логистической / пробит-регрессии и логлинейные модели вместе с давно установившимися методами регрессии и ANOVA для переменных нормального отклика являются частными случаями широкого семейства обобщенных линейных моделей (Gill 2000). Эти модели характеризуются выбором распределения для переменной отклика (например, биномиальное, пуассоновское, нормальное), функцией моделируемого среднего (например, логит среднего, логарифм среднего, само среднее) и переменные, которые входят в формулу линейной модели в качестве предикторов.

Для двоичных данных наиболее популярной обобщенной линейной моделью является модель, использующая логит-преобразование вероятности p . Для данных подсчета обобщенные линейные модели обычно предполагают реакцию Пуассона, иногда называемую моделями регрессии Пуассона . Однако в подсчетах часто возникает большая изменчивость, чем позволяет распределение Пуассона (т. Е. Считается, что имеется избыточная дисперсия ). Распределение Пуассона заставляет дисперсию равняться среднему; в соответствии с ним, например, при данном среднем значении Y дисперсия условного распределения Yне может измениться при добавлении предикторов в модель или удалении из нее. Методы борьбы с избыточной дисперсией включают использование дискретных распределений, для которых дисперсия может превышать среднее значение, например отрицательного бинома , и добавление дополнительного члена ошибки к модели ( случайный эффект ) для учета необъяснимой изменчивости из-за таких факторов, как неизмеряемые переменные. и погрешность измерения.

Расширения обобщенных линейных моделей имеют дело с более сложными ситуациями. Например, иногда ответ представляет собой смесь дискретного и непрерывного, например, когда определенная часть ответов принимает значение 0, а остальные могут быть любым положительным действительным числом (например, ответы на вопрос: «Сколько времени вы тратите на упражнение каждый раз?»). неделя?'). Иногда наблюдения подвергаются цензуре - мы знаем только то, что реакция падает выше некоторой точки или ниже некоторой точки, например, когда мы подсчитываем события определенного типа с течением времени, но не можем наблюдать после окончания экспериментального периода (Andersen et al. 1993). Затем модели могут сосредоточиться на непрерывном времени до реакции на событие или дискретном подсчете событий. В зависимости от приложения и типа цензуры модели имеют разные имена, включая модели выживания, модели истории событий и модели тобита (например,Long 1997).

Растворимость фармацевтических твердых веществ

1.4.5.1 Комбинированный эффект ионизации и совместной платежеспособности

Полная растворимость ионизируемого лекарственного средства в смешанном растворителе может быть получена путем написания лог-линейной модели для различных видов лекарственного средства в растворе. При рассмотрении монопротонной слабой кислоты или одноосновного соединения солюбилизация за счет совместной растворимости для ионизированных и неионизированных фрагментов лекарственного средства может быть выражена с использованием уравнений лог-линейной модели 61:

S uf и S if - растворимость неионизированных и ионизированных частиц, соответственно, в смешанном растворителе; S u и S i - растворимость неионизированных и ионизированных частиц, соответственно, в воде; и σ u и σ i - солюбилизирующая способность сорастворителя для неионизированных и ионизированных частиц. Общая растворимость лекарственного средства получается как сумма S uf и S, если и определяется следующим уравнением:

Для монопротоновой слабой кислоты:

Для одноосновного соединения:

Солюбилизирующая способность неионизированных частиц, σ u , обычно выше, чем у ионизированных частиц, σ i , поскольку сорастворитель может солюбилизировать неионизированные частицы (более полярные) с большей эффективностью, чем ионизированные частицы (менее полярные). . Однако снижение солюбилизирующей способности более чем компенсируется увеличением растворимости ионизированных частиц (т. Е. S i >>S u). Следовательно, возможно, что комбинированный эффект ионизации и совместной растворимости лучше, чем какой-либо отдельный метод. Растворимость гидрохлоридной соли 2,2-дифенил-4-пиперидилдиоксолана в смесях пропиленгликоль-вода была лучше, чем растворимость свободного основания в смешанном растворителе или гидрохлоридной соли в воде. 67

Масса тела, гормональная терапия в период менопаузы и риск рака груди

B Моделирование риска

Повозрастную кривую заболеваемости раком молочной железы можно подогнать к общей линейной логарифмической форме, если возраст, t, заменить возрастом ткани груди, b (t), так что линейная зависимость находится между логарифмом заболеваемость, I (t), и журнал возраста ткани груди:

В заданном возрасте t скорость старения ткани груди, r (t), представляет собой скорость, с которой имеет место основной канцерогенный процесс, а r (t) суммируется от 0 до t, чтобы получить b (t) ( 8). Мы предполагаем, что r (t) примерно равно митотической скорости или, возможно, гибели клеток и, как следствие, замещению в каком-то компартменте стволовых клеток (11). Возраст ткани груди представляет собой, по крайней мере, приблизительно кумулятивное число делений стволовых клеток до возраста t.Гипотеза проста в том, что гормоны влияют на заболеваемость раком в основном за счет своего влияния на скорость митоза в компартменте стволовых клеток, как за счет увеличения вероятности того, что событие, повреждающее ДНК, будет зафиксировано в виде мутации, так и за счет своего стимулирующего эффекта, как это видно в экспериментах на животных.

Определение скорости старения тканей груди с возрастом, которое в количественном выражении учитывает эффекты менархе, менопаузы, возраста первых родов, а также кривая возрастной заболеваемости на рис. 40.2 показано на рис. 40.3 (8). Это определение предполагает, что старение тканей груди начинается во время менархе и продолжается с постоянной скоростью до первых родов, затем с меньшей скоростью до начала перименопаузального периода, постепенно снижаясь после этого до низкого уровня в постменопаузе. Чтобы учесть, что роды после 32 лет связаны с более высокой частотой рака груди, чем у нерожавших женщин, модель включает временное увеличение старения тканей груди во время беременности. Принимая r (t) от менархе до первой доношенной беременности (FFTP) за 1,0, показатель увеличивается до

4.0 в течение года FFTP, а затем падает до

0,7 до перименопаузы, затем постепенно снижается до

0,11 после менопаузы. Подходящий показатель времени ( k ) равен 4,5, что аналогично наиболее подходящему значению для многих эпителиальных видов рака. Подгонка модели показана гладкой кривой на рис. 40.2. Эта модель прекрасно описывает наблюдаемые эффекты возраста менархе, менопаузы и первых родов. Кратковременное повышение риска после родов можно приравнять к наблюдению, что более поздний возраст первых родов связан с долгосрочным повышением риска; По сути, преимущество первых родов в снижении скорости последующего старения тканей груди не имеет достаточно времени (до того, как произойдет снижение скорости в постменопаузе), чтобы компенсировать повышенную скорость во время беременности. Эта модель была расширена Рознером и его коллегами (3, 12), чтобы учесть влияние вторых и более поздних родов.

ПОПУЛЯРНЫЕ СТАТЬИ