Линии математически подгоняются, чтобы суммировать группу связанных значений, что чрезвычайно полезно для визуализации структуры данных 9. Когда используется подгонка,
исследователи должны также сообщить, насколько хорошо линия соответствует данным. Качество подгонки часто определяется с помощью «анализа остатков», в котором изучаются расстояния от каждого измеренного значения до предсказанного значения (определяемого итоговой линией), чтобы выяснить, не являются ли какие-либо из разностей систематическими, указывающими на более слабую подгонку линии к данным ( ниже и гл. 7). Наиболее общие итоговые линии:
• Соединительные линии: просто соедините подобные значения, чтобы показать тенденции, например такой линией, которая соединяет значения медиан в нескольких распределениях измерений, произведенных в течение некоторого времени. Стандартная гистограмма — простая столбиковая диаграмма, у которой соединительные линии верхушек столбиков указывают значения частотного распределения ( 21.19).
• Процедуры сглаживания: укажите, сколько исходных точек данных усреднено для каждой точки графика. Линии, полученные нанесением «скользящих средних» значений, могут упростить или «сгладить» итоговые линии, уменьшая вариабельность начерченных значений. Общая процедура состоит в выборе величины группы, скажем, 3 значения, усреднении значений в каждой из «скользящих групп» из 3 значений
• Линии регрессии метода наименьших квадратов: дайте уравнение для линии в поле данных ( 7.1). В простом линейном регрессионном анализе уравнение регрессии такое же, как и для любой прямой линии: у = а + Ьх. Уравнения нелинейной регрессии имеет дополнительные элементы (например, «квадратичный полином»), и эти элементы будут иметь показатели степени: у = а + Ьх + сх2. В любом случае получающиеся линии метода наименьших квадратов минимизируют сумму квадратов разностей между фактическим значением и значением, предсказанным линией регрессии.
• Кривые Lowess1: сообщите значения альфа (а) и лямбда (к). Кривые Lowess используются для обобщения данных, которые не могут быть описаны одной гладкой линией или кривой ( 21.21). Для сглаживания кривой Lowess исследователь должен установить 2 величины: альфу (а), называемую «параметром сглаживания», которая может быть любым положительным числом, но типичные значения от 0,25 до 1; и лямбду (к), степень некоторых полиномов, которая подбирается этим методом и равна 1 или 2.
• Сплайн-функции: используют множественные модели, одну для каждого набора смежных точек. Сообщите модель, использованную для подгонки кривой к данным. Сглаживающие сплайны — итоговые линии, которые проходят через все точки на графике в большей или меньшей степени ( 21.22). Они отражают компромисс между созданием итоговой кривой, сглаженной насколько возможно, и кривой, проведенной насколько возможно точно, проходящей насколько возможно близко к каждой точке данных. Таким образом, в одном крайнем случае сглаживающий сплайн может быть линией простой линейной регрессии (высокая гладкость, но низкая точность), а в другом — она может проходить через каждую точку (высокая точность, но низкая гладкость).
Будьте осторожны, интерполируя или экстраполируя значения итоговых линий.
Только некоторые из значений, которые образуют эти линии, взяты из данных, полученных в исследовании. Значения на линиях, лежащие между этими измеренными значениями, должны быть интерполированы (приняты) исключительно на основе этой линии. Значения на линиях вне этих измеренных значений должны быть экстраполированы (приняты) снова исключительно на основе линии ( 7.2). Таким образом, ошибки в подгонке линии к данным или в расширении значений вне данных могут привести к ошибкам интерполяции и экстраполяции.
Не проводите итоговые линии через разрывы шкалы 3.
Как упомянуто в указании 21.12, читатели предполагают, что равные отрезки шкалы представляют равные значения. Соединение значений через разрыв шкалы может визуально исказить интерпретацию данных ( 21.9).
Чтобы представить процент изменения или мультипликативные факторы, изобразите график значений в логарифмической шкале 16,20,21 .
Логарифмические шкалы полезны для представления скоростей изменения в противоположность величинам изменений. Эти шкалы устроены таким образом, что два равных расстояния представляют одно и то же процентное изменение. В полулогарифмическом графике только ось Y изображается в логарифмической шкале, тогда как на полностью логарифмическом графике обе шкалы являются логарифмическими ( 21.23).
Если данные меняются в диапазоне, скажем, от 1 до 50 ООО и будут изображены в стандартных арифметических шкалах, то различие между 1 и 10 будет визуально незначительным по сравнению с изменениями, скажем, от 1000 до 10 000. Если эти данные были бы начертаны на полулогарифмической шкале, вертикальное расстояние между 1 и 10, 10 и 100 и между 100 и 1000 было бы идентично, потому что степень изменения (здесь коэффициент 10) является одинаковым в каждом случае. Аналогично, вертикальное расстояние между 100 и 200 было бы таким же, как и между 200 и 400, 400 и 800 и т. д., потому что каждый интервал представляет удвоение значения ( 21.23, В).
Логарифмические шкалы начинаются с 1, а не 0, и никогда не принимают отрицательные значения. Фактически низший предел на логарифмической шкале определяется низшим пределом изображаемых данных. В отличие от арифметических шкал, отсутствие нулевой точки менее проблемно, потому что наклон линии обычно более важен, чем расстояние от нулевой базовой линии ( 21.23, С) 16.
Данные, изображенные в арифметических шкалах, которые формируют прямую линию (у = а + Ьх), увеличиваются или уменьшаются в зависимости от константы на фиксированную
величину и таким образом формируют арифметическую прогрессию. Однако данные, изображенные в логарифмических шкалах, которые формируют прямую линию (у = аЬ)9 увеличиваются на постоянный процент и таким образом формируют геометрическую прогрессию. Более крутая линия тренда на логарифмической шкале увеличивается с большей скоростью, чем другие линии тренда ( 21.23).