Причинами ненадежности тестов могут быть
Содержание статьи
Почему тест на коронавирус методом ПЦР дает разные результаты
В одной семье тест ПЦР на наличие коронавируса может давать разные результаты. Почему? Когда надо сдавать тест, а когда не надо?
Военный врач рассказал все тайны о коронавирусе!
Напомним, что в основе метода полимеразной цепной реакции (ПЦР) лежит многократное удвоение определенного участка ДНК исследуемого объекта при помощи ферментов в искусственных условиях (in vitro).
Три причины, почему тест ПЦР может «врать»
О причинах ненадежности тестов методом ПЦР рассказал Тengrinews. kz генеральный директор Национального центра биотехнологии Казахстана Ерлан Раманкулов.
По его словам, в первые дни после заражения коронавирус невидим для ПЦР-диагностики. Затем он «колонизирует» слизистые рта, носа и глотки — именно тогда больные теряют обоняние и вкус. В этот период его легко обнаружить. На третьем этапе вирус спускается в легкие, поэтому наличие его частиц в носоглотке зависит от разных факторов: «много ли кашляет больной, поел или попил ли он перед забором материала на анализ и так далее».
Пробу обычно берут из ротовой полости и дублируют мазком из носоглотки, если ограничились только последним, это снижает вероятность качественного забора биоматериала, отметил эксперт.
Третья причина — это неправильная обработка материала в лаборатории.
«Обычно ПЦР-анализ на коронавирус проводят в два этапа. Сначала одна команда лаборантов выделяет из собранных проб РНК, то есть генетический материал вируса. Затем вторая команда проводит полимеразную цепную реакцию, которая, собственно, и детектирует выделенную РНК. Оба этапа требуют от лаборантов высокой квалификации и знания всех тонкостей этих методик», — отметил специалист.
Не доверять коммерческим лабораториям
«Реконструкция такой сложности зачастую невозможна в старых зданиях. А если и возможна, то дорога по средствам и длительна по времени», — отметил Раманкулов.
Поэтому доверять коммерческим лабораториям он не советует.
Не сдавать тест из интереса
Также специалист не советует сдавать тест просто из интереса.
«Я бы посоветовал людям, которые чувствуют у себя легкую форму коронавируса, не сдавать тест. Ведь человек без хронических заболеваний перенесет все легко, а в больницу его с легкой формой все равно не госпитализируют», — отметил он.
Эксперт пояснил, чем отличается тест на ПЦР от «экспресс-теста». Если первый показывает, есть в организме вирус или нет прямо сейчас, то второй указывает на наличие антител. Если они есть, значит, организм уже справился с болезнью.
«Экспресс-тесты» тоже ненадежны
«К сожалению, большинство экспресс-тестов, которые наводнили рынок, плохие по качеству. Хороших экспресс-тестов очень мало. И естественно, бизнес покупает самый дешевый вариант. Нужно быть с ними осторожными», — сказал Ерлан Раманкулов.
Казахстанцы в панике
В Казахстане сейчас зарегистрирована вспышка коронавируса, причем ставится диагноз «пневмония», вызванная COVID-19, хотя тест вирус не обнаружил. При этом в одной семье тесты дают разные результаты. Из-за дефицита лекарств в аптеках казахстанцы обращаются за помощью друг к другу в социальных сетях. Многие пишут, что готовы купить препараты за любые деньги.
Президент Казахстана обратился к населению на фоне этой паники.
«Во исполнение моего поручения правоохранительные органы приступили к задержанию лиц, занимающихся спекуляцией лекарствами. Работа по обеспечению граждан лекарствами продолжается. Обращаюсь к гражданам с просьбой не поддаваться панике, порождающей ажиотажный спрос на лекарства», — написал Касым-Жомарт Токаев в Twitter.
Читайте по теме:
Эпидемиолог объяснил, почему «все врут» о коронавирусе
60% врачей не верят официальной статистике по коронавирусу
ВОЗ: появились доказательства воздушно-капельного распространения COVID
Источник
Откуда взялись в Google ненадёжные тесты
Если тесты сбоят на ранее протестированном коде, то это явный признак того, что в коде появилась какая-то новая ошибка. Раньше тесты проходили успешно и код был правильный, сейчас тесты сбоят и код работает неправильно. Цель хорошего набора тестов заключается в том, чтобы сделать этот сигнал настолько ясным и чётко адресованным, насколько возможно.
Ненадёжные (flaky), то есть недетерминированные тесты ведут себя иначе. Они могут показать как положительный, так и отрицательный результат на одном и том же коде. Другими словами, сбой теста может означать, а может и не означать появление новой проблемы. И попытка воспроизвести ошибку путём перезапуска теста на той же версии кода может привести или не привести к успешному проходу теста. Мы рассматриваем такие тесты как ненадёжные, и в конце концов они теряют свою ценность. Если изначальная проблема — это недетерминизм в рабочем коде, то игнорирование теста означает игнорирование бага в продакшне.
Ненадёжные тесты в Google
В системе непрерывной интеграции Google работает около 4,2 млн тестов. Из них примерно 63 тыс. показывают непредсказуемый результат в течение недели. Хотя они представляют менее 2% от всех тестов, но всё равно ложатся серьёзным бременем на наших инженеров.
Если мы хотим починить ненадёжные тесты (и избежать написания новых), то прежде всего нужно понять их. Мы в Google собираем много данных по своим тестам: время выполнения, типы тестов, флаги выполнения и потребляемые ресурсы. Я изучил, как некоторые из этих данных коррелируют с надёжностью тестов. Думаю, что это исследование может помочь нам улучшить и сделать более стабильными методы тестирования. В подавляющем большинстве случаев, чем больше тест (по размеру бинарника, использованию RAM или количеству библиотек), тем менее он надёжен. В остальной статье обсудим некоторые из обнаруженных закономерностей.
Предыдущее обсуждение ненадёжных тестов см. в статье Джона Микко от мая 2016 года.
Размер теста — большие тесты менее надёжны
Мы разбили тесты на три группы по размеру: маленькие, средние и большие. У каждого теста есть размер, но выбор метки субъективен. Инженер определяет размер, когда изначально пишет тест, и размер не всегда обновляется при изменениях теста. Для некоторых тестов эта метка больше не соответствует реальности. Тем не менее, у неё есть некоторая прогностическая ценность. В течение недели 0,5% наших маленьких тестов проявляли свойство недетерминированности, 1,6% средних тестов и 14% больших тестов [1]. Наблюдается явное уменьшение надёжности от маленьких тестов к средним и от средних к большим. Но это всё равно оставляет открытыми много вопросов. Мало можно понять, учитывая только размеры.
Чем больше тест, тем меньше надёжность
Мы собираем некоторые объективные оценки: бинарный размер теста и объём оперативной памяти, используемой во время работы теста [2]. Для этих двух метрик я сгруппировал тесты на две группы равного размера [3] и вычислил процент ненадёжных тестов в каждой группе. Числа внизу — это значения r2 для наилучшего линейного объективного прогноза [4].
Корреляция между метрикой и прогнозом ненадёжности теста | |
Метрика | r2 |
Бинарный размер | 0,82 |
Используемая RAM | 0,76 |
Рассматриваемые здесь тесты — это по большей мере герметичные тесты, которые выдают сигнал успех/неудача. Бинарный размер и использование RAM хорошо коррелировали по всей выборке тестов, и между ними нет особой разницы. Так что речь не просто о том, что большие тесты скорее будут ненадёжными, а о постепенном уменьшении надёжности с увеличением теста.
Ниже я составил графики с этими двумя метриками для всего набора тестов. Ненадёжность возрастает с увеличением бинарного размера [5], но мы также наблюдаем увеличение разности [6] в линейном объективном прогнозе.
График использования оперативной памяти внизу продвигается более чётко и начинает демонстрировать большие разности только между первой и второй вертикальными линиями.
Хотя размеры групп постоянны, но количество тестов в каждой из них разное. Точки справа на графике с большими разностями соответствуют группам, которые содержат гораздо меньше тестов, чем группы слева. Если взять меньшие 96% тестов (которые заканчиваются сразу за первой вертикальной чертой) и затем уменьшить размер групп, то получается гораздо более сильная корреляция (r2 равняется 0,94). Вероятно, это означает, что RAM и бинарный размер имеют гораздо большую предсказательную силу, чем показано на общих графиках.
Определённые инструменты коррелируют с частотой ненадёжных тестов
Некоторые инструменты обвиняют в том, что они являются причиной ненадёжных тестов. Например, тесты WebDriver (будь они написаны на Java, Python или JavaScript), имеют репутацию ненадёжных [7]. Для некоторых из наших обычных тестовых инструментов я вычислил долю ненадёжных тестов, написанных с помощью этого инструмента. Нужно отметить, что все эти инструменты чаще используются при создании тестов большего размера. Это не исчерпывающий список инструментов тестирования, и он покрывает примерно треть всех тестов. В остальных тестах используются менее известные инструменты или там нельзя определить инструмент.
Ненадёжность тестов при использовании некоторых из наших обычных тестовых инструментов | ||
Категория | Доля ненадёжных | Доля от всех ненадёжных тестов |
Все тесты | 1,65% | 100% |
Java WebDriver | 10,45% | 20,3% |
Python WebDriver | 18,72% | 4,0% |
Внутренний инструмент интеграции | 14,94% | 10,6% |
Эмулятор Android | 25,46% | 11,9% |
Все эти инструменты показывают процент ненадёжности выше среднего. А учитывая, что каждый пятый ненадёжный тест написан на Java WebDriver, становится понятно, почему люди на него жалуются. Но корреляция не означает наличия причинно-следственной связи. Зная результаты из предыдущего раздела, можно предположить, что некий иной фактор уменьшает надёжность тестов, а не просто инструмент.
Размер даёт лучший прогноз, чем инструменты
Можно совместить выбор инструмента и размер теста — и посмотреть, что важнее. Для каждого упомянутого инструмента я изолировал тесты, которые используют этот инструмент, и разделил их на группы по использованию памяти (RAM) и бинарному размеру, по такому же принципу, как и раньше. Затем рассчитал линию наилучшего объективного прогноза и насколько она коррелирует с данными (r2). Потом вычислил прогноз вероятности, что тест будет ненадёжным в самой маленькой группе [8] (которая уже покрывает 48% наших тестов), а также 90-й и 95-й процентиль по использованию RAM.
Предсказанная вероятность ненадёжности по RAM и инструменту | ||||
Категория | r2 | Наименьшая группа (48-й процентиль) | 90-й процентиль | 95-й процентиль |
Все тесты | 0,76 | 1,5% | 5,3% | 9,2% |
Java WebDriver | 0,70 | 2,6% | 6,8% | 11% |
Python WebDriver | 0,65 | −2,0% | 2,4% | 6,8% |
Внутренний инструмент интеграции | 0,80 | −1,9% | 3,1% | 8,1% |
Эмулятор Android | 0,45 | 7,1% | 12% | 17% |
Эта таблица показывает результаты вычислений для RAM. Корреляция сильнее для всех инструментов, кроме эмулятора Android. Если игнорировать эмулятор, то разница в корреляции между инструментами при схожем использовании RAM будет в районе 4-5%. Разница между самым маленьким тестом и 95-м процентилем составляет 8-10%. Это один из самых полезных выводов нашего исследования: инструменты оказывают некое влияние, но использование RAM даёт гораздо большие отклонения по надёжности.
Предсказанная вероятность ненадёжности по бинарному размеру и инструменту | ||||
Категория | r2 | Наименьшая группа (33-й процентиль) | 90-й процентиль | 95-й процентиль |
Все тесты | 0,82 | −4,4% | 4,5% | 9,0% |
Java WebDriver | 0,81 | −0,7% | 14% | 21% |
Python WebDriver | 0,61 | −0,9% | 11% | 17% |
Внутренний инструмент интеграции | 0,80 | −1,8% | 10% | 17% |
Эмулятор Android | 0,05 | 18% | 23% | 25% |
Для тестов в эмуляторе Android практически отсутствует корреляция между бинарным размером и ненадёжностью. Для других инструментов можно увидеть большую разницу прогноза ненадёжности между маленькими и большими тестами по по потреблению RAM; до 12 процентных пунктов. Но в то же время при сравнении тестов по бинарному размеру разница прогноза ненадёжности ещё больше: до 22 процентных пунктов. Это похоже на то, что мы видели при анализе использования RAM, и это ещё один важный вывод нашего исследования: бинарный размер важнее для отклонений в прогнозе ненадёжности, чем используемый инструмент.
Выводы
Выбранный разработчиком размер теста коррелирует с ненадёжностью, но в Google недостаточно вариантов выбора размера, чтобы этот параметр действительно был полезен для прогноза.
Объективно измеренные показатели бинарного размера и использования RAM сильно коррелируют с надёжностью теста. Это непрерывная, а не ступенчатая функция. Последняя показала бы неожиданные скачки и означала бы, что в этих точках мы переходим от одного типа тестов к другому (например, от модульных тестов к системным или от системных тестов к интеграционным).
Тесты, написанные с помощью определённых инструментов, чаще дают непредсказуемый результат. Но это в основном можно объяснить бóльшим размером этих тестов. Сами по себе инструменты вносят небольшой вклад в эту разницу по надёжности.
Следует с осторожностью принимать решение о написании большого теста. Подумайте, какой код вы тестируете и как будет выглядеть минимальный тест для этого. И нужно очень осторожно писать большие тесты. Без дополнительных защитных мер есть большая вероятность, что вы сделаете тест с недетерминированным результатом, и такой тест придётся исправлять.
Примечания
- Тест считался ненадёжным, если показывал хотя бы один ненадёжный результат в течение недели.
- Я также принял в расчёт количество библиотек, созданных для теста. В 1%-ной выборке тестов бинарный размер (0,39%) и использование RAM (0,34%) проявляют более прочные корреляции, чем количество библиотек (0,27). Далее я исследовал только бинарный размер и использование RAM.
- Примерно по 100 групп для каждой метрики.
- r2 измеряет, насколько близко линия наилучшего прогноза соответствует данным. Величина 1 означает, что линия полностью совпадает с данными.
- Есть две интересные области на графиках, где точки в реальности показывают обратную тенденцию к общему повышательному тренду. Одна начинается примерно на полпути к первой вертикальной линии и продолжается в течение двух точек данных, а вторая начинается прямо перед первой вертикальной линией, а заканчивается сразу после неё. Здесь размер выборки достаточно большой, так что это вряд ли будет просто случайный шум. Вокруг этих точек есть сгустки тестов, которые более или менее ненадёжные, чем можно ожидать исходя только из бинарного размера. Это перспектива для будущих исследований.
- Расстояние между наблюдаемой точкой и линией объективного прогноза.
- Другие инструменты для веб-тестирования тоже обвиняют, но мы чаще всего используем именно WebDriver.
- Некоторые из предсказанных процентов ненадёжности для самых маленьких групп вышли отрицательными. Хотя в реальности не может быть отрицательной части тестов, но это возможный результат при использовании такого типа прогноза.
Источник
Надежность и валидность тестов
-
Пишу на заказ дипломные, курсовые, магистерские работы по психологии, а также рефераты и эссе; делаю контрольные, отчеты по практике и статистические расчеты.
Я профессиональный психолог и автор работ по психологии с многолетним стажем. Выступаю как индивидуальный предприниматель (ИП): заключаю договор, выдаю чеки об оплате.
Помогаю студентам-психологам более 12 лет (этот сайт существует с 2007). Делаю качественно и быстро. Помогу даже с очень трудными темами.
Вы всегда можете узнать у меня, как идут дела с дипломной; оперативно передать пожелания руководителя; спросить то, что не понятно. Я всегда на связи.
Опишите ситуацию, и я скажу стоимость написания вашей работы.
В любом эмпирическом исследовании по психологии используются психологические тесты. Часто от студентов требуют указывать данные об их надежности и валидности.
Надежность психологических тестов
В обычной жизни надежность человека или какого-либо предмета означает уверенность в том, что на него можно положиться. Как же проверяют, что на психологический тест можно положиться?
Первый способ проверки надежности психологического теста – анализ устойчивости результатов теста. Действительно, если результаты использования теста на одной и той же выборке существенно не меняются при нескольких тестированиях, то это может служить критерием его надежности.
Повторное тестирование называется ретест. Его проводят с интервалом от недели до года. Затем анализируют корреляции нескольких замеров. Если корреляции между результатами ретестов не ниже 0,76, то такой тест считается надежным.
Недостатки ретестовой проверки надежности психологического теста.
1. Некоторые психологические показатели неустойчивы и изменчивы. Например, измеряя настроение, самочувствие в разное время дня или в разные дни, можно получить разные результаты, и это не будет следствием ненадежности теста.
2. При неоднократном заполнении одного и того же теста испытуемые к нему «привыкают». Они могут помнить свои ответы и отвечать так же. Могут, наоборот, менять ответы в сторону социальной желательности. Таким образом, ретестовая надежность не будет в полной мере отражать надежность теста.
Второй способ проверки надежности психологического теста – анализ согласованности различных частей теста. Например, в тесте один показатель, который диагностируется 10-ю вопросами. Согласованность данного теста определяется высокой корреляцией ответов на каждый вопрос с общим результатом по шкале.
Часто для определения согласованности психологического теста его расщепляют на две части. Можно это сделать, отбирая вопросы через один. Можно разделить первую и вторую половину теста. Далее анализируют корреляции ответов двух расщепленных частей теста. Чем выше корреляция, тем выше согласованность теста и его надежность.
Итак, надежность психологического теста – это характеристика его формальной пригодности для диагностики психологических показателей. Например, если тест диагностики тревожности надежен, то это значит, что при его использовании на разных выборках, в разное время вы будете получать схожие результаты. Но будут ли эти результаты характеризовать именно тревожность испытуемых? Надежность психологического теста этого не гарантирует. За это отвечает другой показатель – валидность психологического теста.
Валидность психологических тестов
Валидность психологических тестов отражает соответствие их результатов сущности измеряемых психологических феноменов. Например, насколько результат теста агрессивности отражает реальный уровень агрессивности респондента.
Можно выделить два основных способа определения валидности психологических тестов.
Первый способ выявления валидности психологического теста предполагает соотнесение результатов теста с аналогичными показателями других тестов. Например, для проверки валидности теста на самооценку можно сделать следующее:
- провести тестирование испытуемых по новому тесту;
- выявить самооценку испытуемых по другому тесту (предполагается, что он валиден);
- рассчитать корреляцию показателей самооценки по двум психодиагностическим методикам;
- статистически значимая корреляция даст основания говорить о валидности нового теста.
Такой способ позволяет выявить так называемую конструктную валидность. Она отражает соответствие выявляемого психологического показателя психологическому конструкту.
Второй способ выявления валидности психологического теста предполагает соотнесение результатов теста с внешними критериями. Такая валидность называется критериальная валидность психологического теста.
Например, показателем критериальной валидности теста склонности к отклоняющемуся поведению может быть реальное число правонарушений подростка. Применительно к тесту мотивации достижений показателем критериальной валидности может быть успешность выполнения той или иной деятельности.
Соотношение надежности и валидности психологических тестов
Надежность теста отражает его качество как метода диагностики, с точки зрения формальных показателей. Без учета содержательного анализа результатов.
Валидность оценивает именно содержательные результаты теста. Насколько они соответствуют реальным психологическим феноменам.
Надежный тест может не быть валидным. Например, тест инициативности может показывать высокую ретестовую надежность и согласованность частей. Однако, с содержательной точки зрения, результаты теста отражают не столько инициативность, сколько силу воли. То есть, надежность данного теста высокая, а валидность низкая.
В практике психологического тестирования надежность тестов с помощью ретеста. Валидность психологических тестов, как правило, проверяется с помощью анализа взаимосвязей с показателями других тестов, измеряющих аналогичные или схожие психологические показатели.
Примеры заключений о надежности и валидности психологически тестов
Тест смысложизненных ориентаций (СЖО)
Надежность СЖО
Надежность теста СЖО проверялась с помощью ретестирования с интервалом в 2 недели (испытуемые — 76 студентов МГУ). Результаты по тесту оказались устойчивы на уровне значимости 5% (р<0,05).
Валидность СЖО
Автором теста СЖО, Д.А. Леотьевым, была проведена проверка конструктной валидности СЖО. Для этого была сформирована выборка, включавшая студентов московских ВУЗов общей численностью 24 человека (мужчин и женщин).
Было проведено тестирование испытуемых по тестам: СЖО, УСК (уровень субъективного контроля) и САТ (тест на уровень самоакутализации). Далее был проведен корреляционный анализ показателей СЖО с показателями тестов УСК и САТ.
Все шесть показателей теста СЖО значимо положительно коррелируют с общей интернальностью и с интернальностью в области достижений, а также (кроме третьей субшкалы) — с интернальностью в области семейных отношений. Отмечены также значимые корреляции пятой субшкалы СЖО с интернальностью в производственной сфере и по отношению к здоровью-болезни.
Показатели теста СЖО положительно значимо коррелируют со следующими шкалами теста САТ: шкалой опоры и познавательных потребностей — все шесть показателей; шкалами компетентности во времени, самоуважения и представления о природе человека — все, кроме первой субшкалы; шкалой ценностных ориентации — все, кроме общего показателя, и шкалой спонтанности — третья, четвертая и пятая субшкалы. С остальными шкалами CAT значимых корреляций обнаружено не было.
Достаточно высокий уровень взаимосвязи показателей теста смысложизненных ориентаций (СЖО) с показателями интернальности (тест УСК) и показателями самоакутализации (тест САТ) позволяет говорить о конструктной валидности теста СЖО.
Леонтьев Д.А. Тест смысложизненных ориентаций (СЖО). 2-е изд. М.: Смысл, 2000, 18 с.
Методика Ш. Шварца для изучения ценностей личности
Методика Ш. Шварца для изучения ценностей личности была адаптирована в России В.Н. Карандашевым.
Согласно автору русскоязычной адаптации валидность и надежность опросника Шварца обеспечивается:
— тем фактом, что в основе данной психодиагностической методики лежит четкая и теоретически обоснованная концепция ее автора, содержащая операционализированные характеристики ценностей;
— тем, что что при разработке оригинальной версии опросника использовались данные исследований по 54 странам.
Карандашев В.Н. Методика Шварца для изучения ценностей личности: концепция и методическое руководство. — СПб.: Речь, 2004-70 с.
Методика «Уровень соотношения Ценности и Доступности в различных жизненных сферах» (УСЦД) (Е.Б.Фанталова)
В методике Е.Б. Фанталовой «Уровень соотношения Ценности и Доступности в различных жизненных сферах» используется список из 12 ценностей, взятых из списка терминальных ценностей методики М. Рокича.
Таким образом, надежность и валидность методики Е.Б. Фанталовой определяется надежностью и валидностью списка ценностей М. Рокича.
Надежность теста ценностных ориентаций М.Рокича проверялась автором через устойчивость ценностной структуры к ретестированию через временные интервалы от 3 недель до 14-16 месяцев на выборках студентов колледжей. Для отдельных ценностей при ретестировании с интервалом 3-7 недель показатель устойчивости варьируется от 0,51 до 0,88 (терминальные ценности) и от 0,45 до 0,70 (инструментальные ценности). Для русскоязычного варианта методики при ретестировании с интервалом в 2 недели были получены средние показатели надежности 0,82 (для терминальных ценностей) и 0,79 (для инструментальных).
О валидности методики ценностных ориентаций М. Рокича (а, следовательно, и методики Е.Б. Фанталовой) косвенно свидетельствуют результаты, полученные при обследовании различных социальных групп. Различия в оценках одних и тех же ценностей мужчинами и женщинами достигают статистически значимых пределов для 12 из 18 терминальных ценностей и для 8 инструментальных.
Леонтьев, Д.А. Методика изучения ценностных ориентации. — М.: Смысл, 1992. — 17 с.
Фанталова Е.Б. Об одном методическом подходе к исследованию мотивации и внутренних конфликтов // Психологический журнал, т. 13, 1992, N 1. С. 107-117.
Методика «Свободный выбор ценностей» Фанталовой Е.Б.
Методика «Свободный выбор ценностей» является составной частью ценностно-ориентированной системы автора «Диагностика внутреннего конфликта» (ДВК).
В данной методике Е.Б. Фанталова расширила список ценностей от 12 до 72. При этом надежность данной ценностной структуры и ее валидность автором не проверялась.
Фанталова Е.Б. Диагностика и психотерапия внутреннего конфликта. Самара, 2001.
Надеюсь, эта статья поможет вам написать работу по психологии самостоятельно. Если понадобится помощь, обращайтесь (все виды работ по психологии; статистические расчеты). Заказать
Источник