Андрей Маркеев: SharePoint блог: Как я исправил невоспроизводимую ошибку SharePoint с помощью UX-паттерна

понедельник, 5 августа 2013 г.

Как я исправил невоспроизводимую ошибку SharePoint с помощью UX-паттерна

В прошлый раз я теоретизировал о необходимости знаний по UX у SharePoint разработчиков. Сегодня хочется рассказать об интересном прецеденте использования UX-паттерна для исправления невоспроизводимой ошибки SharePoint.

Дано

Есть некоторый существующий программный модуль, который позволяет массово создавать сайты. За раз создается обычно от 2х до 18ти сайтов. После создания сайты программно настраиваются. Клиенты используют этот модуль пару раз в месяц или даже реже .

Иногда один или несколько сайтов не создаются по неизвестной причине. Ошибка валится на Webs.Add и она плавающая: то есть, то нет. Более того, по закону подлости она возникает исключительно на production environment. И это еще не всё, когда ко мне попала эта задача, логи с последней ошибкой уже потерлись, поэтому я даже не располагал сообщением об ошибке!...

И тем не менее, я смог решить эту задачу. Прежде чем читать решение, подумайте, что бы вы сделали в такой ситуации?

Стандартный подход

Стандартным подходом было бы поочередное исследование кода решения и затем кода Webs.Add через рефлектор, и попытка понять в чем может быть дело (скорее всего неудачная, т.к. Webs.Add довольно быстро уходит в Unmanaged код).

Можно конечно пробовать разные варианты параметров или порядка или какие-нибудь задержки... Но поскольку ошибка не воспроизводится нигде кроме production, а production можно обновлять только раз в 1-2 месяца, да еще и используется этот модуль не интенсивно... В общем методом "тыка" можно было бы растянуть проблему на годы. Собственно, это и происходило - когда я взялся за проблему, она существовала уже больше года.

UX подход

Давайте попробуем подойти к проблеме с точки зрения UX. Итак, есть некий интерфейс, пользователь заполняет некоторые поля, выбирает сколько создавать сайтов и т.п. В конце концов, он жмет на кнопку "Создать" - и сайты создаются ...или не создаются, как повезет. Интерфейс в том виде, в котором он попал ко мне, просто глотал все ошибки, всвязи с чем даже непонятно было, какой конкретно сайт не был создан. В результате пользователь шел и проверял, все ли сайты создались, и если нет - то досоздавал их вручную.

В моих любимых Apple UX Guidelines есть следующий пункт:

Display an informative, actionable alert message when something goes wrong. An alert should clearly convey what happened, why it happened, and the options for proceeding. Describe a workaround if one is available and do whatever you can to prevent the user from losing any data. Avoid using an alert to deliver information that the user can’t act upon.

В этих четырех предложениях - буквально всё, что вам нужно знать об обработке ошибок! На всякий случай по-русски:

Отображайте информативное, активное сообщение об ошибке (алерт), если что-то пошло не так. Сообщение должно четко описывать что случилось, почему это случилось, и что делать дальше. Опишите воркэраунд, если он существует, и сделайте всё возможное, чтобы предотвратить потерю данных. Не используйте алерты для отображения информации, если пользователь не может ничего с ней сделать.

Что это означает в нашем случае?

Нельзя "глотать" ошибки создания сайтов.
При отображении ошибки, необходимо предоставить не только информацию о том, что случилось и почему, но также необходимо предоставить возможность действия.

Решение

Решение очень простое, но при этом надежное и удобное.

Во-первых, я добавил информацию об ошибке: в случае, если один или несколько сайтов не были созданы, отображается таблица со статусом по каждому из сайтов (Success/Failure).

Во-вторых, рядом с Failure я добавил кнопку Retry. ВСЁ!

Если нажать Retry, модуль попытается пересоздать соответствующий сайт. Если все сайты в итоге удалось создать - то внизу появится ссылка перехода на корневой сайт проекта. Если сайты не пересоздаются - вверху также написано, что делать в этом случае (обратиться к команде поддержки и передать такие-то детали ошибки).

Такие улучшения интерфейса безусловно повлекли за собой некоторое количество работы и немного рефакторинга, т.к. для того, чтобы сделать возможность Retry, пришлось отделить код создания сайтов в обособленный метод, но в любом случае вся работа заняла 2 дня - с большими перерывами на чай и бильярд. Стоит ли говорить, что investigation мог бы занять практически сколько угодно времени и ни к чему не привести?

Отдельно отмечу: это решение полностью закрывает задачу. ПОЛНОСТЬЮ. С точки зрения пользователя, проблемы больше нет. Нажать пару раз кнопку Retry, при том что интерфейс используется пару раз в месяц - да это вообще не вопрос, верно же?

Выводы

Ошибку можно исправить, не исправляя ее
Я уже писал, что знания по UX меняют сам подход к разработке. И к исправлению ошибок - тоже. Всё, что мы с вами видели выше - это просто подход к решению с другой стороны. Много раз я убеждался, что это реально работает и дает плоды.

Так что вот. И да пребудет с вами UX! :)

21 комментарий:

Unknown5 августа 2013 г. в 11:56
Андрей, крайне полезная и показательная статья. Спасибо!
ОтветитьУдалить
Ответы
Unknown5 августа 2013 г. в 12:06
1) А в чем все таки причина ошибок? Может тупо можно было код 3 раза повторить с перерывами в случае ошибки?
2) Я так понял, что основная проблема, которая мешала жить - try с пустым catch. Возможно в самом интерфейсе и не было проблем, просто не сделали отображение ошибок.
3) Крайне сомнительно выглядит функция генерации сайтов для end-user. Возможно это админская функциональность, тогда почему не powershell? В нем можно при ошибке сразу из логов собрать нужные строки и подготовить пакет.
ОтветитьУдалить
Ответы
Unknown5 августа 2013 г. в 12:11
Думаю, причина ошибки в concurrency. Может быть клиентов и удовлетворил вывод сообщение об ошибке, но всё-таки ошибка-то осталась неисправленной. Надо было в коде написать перехват исключения и повторную попытку создания узла, вот это было бы исправление.
ОтветитьУдалить
Ответы
Unknown5 августа 2013 г. в 12:20
Кстати текст отображаемой ошибки доставляет неимоверно :)

>> Сообщение должно четко описывать что случилось, почему это случилось, и что делать дальше.
ОтветитьУдалить
Ответы
Romy63ru5 августа 2013 г. в 23:24
С одной стороны решение элегантное, с другой, что будет если человек нажмет 10 раз кнопку Retry и ничего не случится? меня бы взбесило.. :)
ОтветитьУдалить
Ответы

Добавить комментарий

Внимание! Реклама и прочий спам будут беспощадно удаляться.

Примечание. Отправлять комментарии могут только участники этого блога.

понедельник, 5 августа 2013 г.

Как я исправил невоспроизводимую ошибку SharePoint с помощью UX-паттерна

21 комментарий:

понедельник, 5 августа 2013 г.