Как уменьшить размер базы NTDS.DIT в четыре раза

Спойлер – никак.

Как-то мне довелось админить большой домен на несколько тысяч пользователей. После того как база NTDS.DIT выросла до 14ГБ, поднятие нового контроллера домена без использования функционала Install From Media (IFM) стало занимать несколько часов.

Я создал новый тестовый домен, создал в нем сходное количество пользователей, групп и компьютеров. Назначил каждому пользователю картинку на 100к и…

Получил размер базы меньше 1ГБ. Это «Ж-ж-ж» неспроста! – подумал я и обратился в MS Premier Support.

Те проанализировали количество объектов с помощью утилиты DBAnalyzer и ничего криминального не нашли.

После этого с помощью esentutl они посмотрели размер базы:

«Ух ты» – сказали суровые сибирские мужики инженеры MS – «да у вас индексов многовато». А не эта ли у вас проблема?

После включения Credentials Roaming и сохранения закрытых ключей в AD на Windows7/Windows 2008R2 был баг: «левые» закрытые DPAPI-ключи продолжают сохраняться в AD. В результате, у пользователя может быть несколько тысяч закрытых DPAPI-ключей, попутно значительно растет размер базы AD. Хотите решить проблему – удалите все ключи! Выборочно? Нет, выборочно нельзя – необходимо вычистить все три атрибута, относящиеся к PKI, при этом пользователю все сертификаты, хранящиеся в AD, необходимо перевыпускать.

Мы грустно вздохнули. «Мы ж ключи используем во всяких документооборотах и 1Сках через терминальную ферму», и закопали стюардессу.

Прошел год, я развернул еще несколько контроллеров домена (часов за 6 каждый без IFM) и подумал, что, пожалуй, стоит выкопать стюардессу.

Мы начали разбираться, что можно сделать.

Во-первых, мы пропатчили 100500 терминальных серверов. Это помогло остановить дальнейший рост AD, но зачистить базу не помогло.

Во-вторых, мы включили на всех контроллерах домена информацию о процессе сборщике мусора. Для этого в ветке HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\NTDS\Diagnostics надо найти параметр Garbage Collection и задать ему значение 1.

После этого в журнале Active Directory каждые 12 часов будет появляться событие с кодом 1646, содержащее текущие размеры базы:

Free hard disk space (megabytes), также известный как whitespace:

948

Total allocated hard disk space (megabytes):

14967

В-третьих, нам потребовался вывод утилиты repadmin /showobjmeta по пользователям, указанным через DN. Это дало нам возможность понять – сколько ключей есть у пользователя (и осознать масштаб проблемы).

В выводе также указывается статус ключа: ABSENT или PRESENT.

Инженеры MS Premier Support Инопланетяне подготовили скрипт dumpLVR.cmd, выгружающий список ключей пользователя в файл. Отсортировав список файлов по размеру, стало возможно охватить взором масштаб проблемы.

В принципе, вы просто можете выполнить по всем пользователям дамп в текстовый файл команды repadmin /showobjmeta. Будет то же самое, что в скрипте.

После этого я зачистил сотруднику ключи и… увидел то же, что и вы на скриншоте:

– ключей стало вдвое больше;

– часть ключей получили статус ABSENT (т. е. в учетке их нет, но они лежат на кладбище и продолжают занимать место);

– база подросла.

Зато мы поняли – ключи возвращаются назад, если их удаление произошло при активном сеансе на терминальном сервере, так как включен Credentials Roaming, который при выходе из системы выгружает все актуальные ключи в базу AD.

Выполнив принудительное завершение сеанса пользователя на терминальном сервере перед зачисткой и частичную чистку профиля пользователя, мы получили перевод всех ключей в статус ABSENT! Это уже был успех.

В-четвертых, мы снизили до 9 дней срок хранения объектов на «кладбище», чтобы ускорить их удаление из базы.

Set-ADObject -Identity “CN=Directory Service,CN=Windows NT,CN=Services,CN=Configuration,DC=firstbank,DC=local” -Partition “CN=Configuration ,DC =COM” -Replace @{tombstoneLifetime=’9′}

Обратите внимание: удаленный объект сначала хранится в корзине, а потом на кладбище, вследствие чего срок хранения объекта составляет 2*Tomb.

Как я увидел дальше – Garbage Collection не всегда успевал зачистить все объекты за один проход, иногда приходилось ждать несколько дней.

В-пятых, мы занялись инвентаризацией используемых систем. Взяли отключенных пользователей и тех, кто 100% не пользуется системами с PKI. А инженеры MS инопланетяне составили очередной скрипт по зачистке ключей по списку пользователей – delete_credentails_From_File.vbs. Мы зачистили эти ключи (предварительно завершив терминальные сессии) и через 18 дней получили рост свободного места в базе.

Это был прямо успех-успех!
В принципе, вместо этого скрипта вы можете использовать свой. Смысл – зачистка атрибутов msPKIAccountCredentials, msPKIRoamingTimeStamp и msPKIDPAPIMasterKeys у заранее указанного списка пользователей.

В-шестых, началась грустная рутина. Сначала мы еще раз прошерстили пользователей 1С и смогли вычистить еще ряд пользователей. Но оставался документооборот (ДО), в котором были ключи у 40% пользователей – толстячков ☹

К счастью, админы документооборота предложили отличную идею: просмотреть логи приложения на предмет исходного IP-адреса. Если адрес был локальный (т. е. пользователь запускал клиента ДО на своем ПК), то его ключ можно было смело чистить.

Таким образом, мы смогли зачистить эти ключи примерно у 90% учетных записей и освободить в базе 8820МБ. Ииихаа.

В-седьмых, началась рутина по офлайн-дефрагментации базы AD, которую было необходимо сделать на каждом контроллере.

  • Net stop ntds
  • Ntdsutil
  • Activate instance ntds
  • Files
  • Compact to c:\temp
  • Q
  • Q
  • copy “c:\temp\ntds.dit” “C:\Windows\NTDS\ntds.dit”
  • del C:\Windows\NTDS\*.log
  • net start ntds

Как вы думаете, сколько будет 14967–8820?

3900МБ, да-да. В старой таблице индексов было много ссылок на удаленные объекты. Так как офлайн-дефрагментация пересоздала таблицу индексов, размер базы стал еще меньше, чем мы рассчитывали!

И вот это уже был прям успешище!

Ну и надо было вернуть назад срок хранения удаленных объектов.

Столь малый размер БД позволил нам не только уменьшить время на развертывание (развертывание через IFM занимало примерно столько же времени), но и добиться ряда других бонусов:

– при полномочном восстановлении и последующей репликации AD процесс увеличения USN уже бы не занял несколько часов;

– для оптимальной производительности AD базу требовалось кэшировать в памяти. Снижение на 10ГБ размера базы на каждом RWDC и на 12ГБ на каждом RODC позволило сэкономить только на памяти пару десятков тысяч долларов.

Отдельное спасибо хочется сказать моим бывшим руководителям, у которых хватило мужества пройти со мной этот путь до конца, отстаивая необходимость этих мероприятий.

One thought on “Как уменьшить размер базы NTDS.DIT в четыре раза”

  1. Спасибо за отличный детектив! Читается на одном дыхании!

Leave a Reply

Your email address will not be published. Required fields are marked *