Сценарий: у меня есть несколько повторяющихся контактов в таблице. Дубликаты идентифицированы, я могу просто удалить их, но проблема в том, что я не хочу потерять данные, которые могут быть у дубликата, а у оригинала нет. Какие-нибудь советы?
Пример данных :
ID Name Email School Dupe_Flag Key
1 AAA a@a X 1
2 AAB JKL 1
3 BBB b@b MNO X 2
4 BBC 2
Желаемый результат:
ID Name Email School Dupe_Flag Key
1 AAA a@a X 1
2 AAB a@a JKL 1
3 BBB b@b MNO X 2
4 BBC b@b MNO 2
Как связаны две записи? : Они оба имеют одно и то же ключевое значение, и только один столбец имеет Dupe_Flag SET, который является дублирующим столбцом.
В приведенном выше случае ID 1 будет удален, но информация электронной почты из ID 1 должна быть применена к ID 2.
Что такое данные? : У меня несколько сотен строк и несколько 100 дубликатов. Инструкция UPDATE для каждой строки громоздка и невыполнима.
Бизнес-правила для определения того, какие данные имеют приоритет:
Если в столбце из исходной/хорошей записи (Dupe_Flag НЕ установлен) нет данных и если в соответствующем столбце записи Dupe (имеющем то же значение ключа) есть данные, то этот столбец исходной записи следует обновить.
Любая помощь/скрипт действительно ценится! Спасибо ребята :)