🍩Индексы

Зачем нужны индексы и примеры индексов

Индексы в базах данных необходимы для ускорения поиска и выборки данных. Они представляют собой специальные структуры данных, которые помогают сократить количество дисковых операций ввода-вывода, необходимых для выполнения запроса.

Основные типы индексов:

  • Первичный ключ - индекс, организованный на основе ключевого поля таблицы. Позволяет быстро находить записи по уникальному идентификатору.234

  • Вторичный индекс - индекс, организованный на основе другого поля, отличного от первичного ключа. Позволяет быстро находить записи по значению этого поля.3

  • Уникальный индекс - индекс, в котором значения встречаются только один раз. Обеспечивает уникальность данных.

  • Неуникальный индекс - индекс, в котором значения могут повторяться. Полезен для поиска по диапазону значений.

Индексы реализуются с помощью различных структур данных, например, B-деревьев, которые позволяют эффективно находить нужные записи. Использование индексов значительно ускоряет выполнение запросов, особенно при поиске по диапазону значений или агрегации данных

Какие виды индексов есть в PostgreSQL?

В PostgreSQL существует несколько основных типов индексов:

  • Первичный ключ (Primary Key) - индекс, организованный на основе ключевого поля таблицы. Позволяет быстро находить записи по уникальному идентификатору.

  • Вторичный индекс (Secondary Index) - индекс, организованный на основе другого поля, отличного от первичного ключа. Позволяет быстро находить записи по значению этого поля.

  • Уникальный индекс (Unique Index) - индекс, в котором значения встречаются только один раз. Обеспечивает уникальность данных.

  • Неуникальный индекс (Non-Unique Index) - индекс, в котором значения могут повторяться. Полезен для поиска по диапазону значений.

  • B-дерево (B-Tree) - наиболее распространенный тип индекса, эффективный для поиска по диапазону значений.

  • Хеш-индекс (Hash Index) - индекс, работающий только с простыми условиями равенства.

  • GiST (Generalized Search Tree) - индекс, поддерживающий различные типы поиска, например, для пространственных данных.

  • SP-GiST (Space-Partitioned Generalized Search Tree) - индекс, позволяющий организовывать на диске самые разные несбалансированные структуры данных.

  • GIN (Generalized Inverted Index) - инвертированный индекс, эффективный для поиска по массивам и другим составным типам данных.

  • BRIN (Block Range Index) - индекс, основанный на диапазонах значений в блоках данных, эффективный для очень больших таблиц.

Почему поиск в b-tree быстрее, чем линейный перебор?

Поиск в B-дереве быстрее, чем линейный перебор, потому что B-дерево использует структуру данных, которая позволяет эффективно хранить и извлекать данные из больших объемов данных. В отличие от линейного перебора, который требует просмотра каждого элемента в последовательности, B-дерево использует индексирование и хранение данных в виде дерева, что ускоряет поиск.

В B-дереве каждый узел содержит не только само значение, но и указатели на левый и правый поддеревья. Это позволяет быстро найти нужное значение, сравнивая значение искомого элемента с значением в текущем узле. Если значение искомого элемента меньше значения в текущем узле, то поиск продолжается в левом поддереве; если больше, то в правом. Это уменьшает количество операций, необходимых для поиска, и делает процесс более эффективным.

Кроме того, B-дерево спроектировано для обработки больших объемов данных на реальном оборудовании, что также улучшает его производительность. Это достигается за счет использования индексирования, что уменьшает количество операций ввода-вывода, необходимых для поиска, и улучшает общую производительность

Как порядок полей в составном индексе влияет на эффективность поиска по данному полю?

Порядок полей в составном индексе оказывает существенное влияние на эффективность поиска по отдельным полям[3][4]:

  1. Ведущие поля: Поля, расположенные в начале составного индекса, называются ведущими. Они определяют структуру индекса и влияют на его эффективность.

  2. Поиск по ведущим полям: Поиск по ведущим полям составного индекса будет наиболее эффективным, так как база данных может использовать индекс для быстрого доступа к данным[3][4].

  3. Поиск по неведущим полям: Поиск по полям, расположенным в конце составного индекса, будет менее эффективным. База данных может быть вынуждена просматривать все записи в индексе, чтобы найти соответствующие данные[3][4].

  4. Частичные индексы: Для повышения эффективности поиска по неведущим полям можно использовать частичные индексы, которые содержат только необходимые данные[3].

  5. Составные условия: Составные условия в запросах, соответствующие порядку полей в индексе, будут выполняться наиболее эффективно[3][4].

Таким образом, правильный порядок полей в составном индексе является ключевым фактором для обеспечения высокой производительности запросов, особенно при поиске по отдельным полям. Необходимо тщательно продумывать структуру индекса, исходя из особенностей запросов к базе данных[3][4].

Citations: [1] https://dzen.ru/a/ZWmgS8JKdxgJsG6I [2] https://keldysh.ru/seminars/seminar.xhtm?filter=past&src=seminar11.xml [3] https://postgres.men/database/postgresql/index-composite-introduction/ [4] http://c3gdlk.ru/blog/bazy-dannyh/poryadok-polej-v-sostavnom-indekse.html [5] https://www.planetaexcel.ru/forum/index.php?FID=1&PAGE_NAME=read&TID=148662&TITLE_SEO=148662-vyvod-vsekh-sovpadeniy-po-familiya-io-i-familiya-imya-otchestvo-iz-raznykh-knig.

Зачем нужен foreigh key?

Внешний ключ (foreign key) в базах данных используется для установления связи между двумя различными таблицами. Он обеспечивает ссылочную целостность данных, гарантируя, что значения в столбце, связанном с внешним ключом, ссылаются на существующие значения в другой таблице, содержащей первичный ключ[2][4][5].

Таким образом, основное назначение внешнего ключа (foreign key) заключается в обеспечении целостности данных и поддержании связей между таблицами в базе данных.

Citations: [1] https://otvet.mail.ru/question/210740205 [2] https://ravesli.com/foreign-key-sql/ [3] https://metanit.com/sql/mysql/2.5.php [4] https://selectel.ru/blog/tutorials/how-to-create-mysql-primary-foreign-keys/ [5] https://learn.microsoft.com/ru-ru/sql/relational-databases/tables/primary-and-foreign-key-constraints?view=sql-server-ver16

Какой индекс используют для jsonb?

Для оптимизации поиска данных в формате JSONB в PostgreSQL рекомендуется использовать GIN-индекс[1][4]. GIN-индекс (Generalized Inverted Index) позволяет эффективно индексировать вложенные структуры данных в JSONB.

Создание GIN-индекса для JSONB столбца выглядит следующим образом[4]:

CREATE INDEX ON table_name USING GIN (jsonb_column);

Важно отметить, что для оптимизации поиска по конкретным ключам в JSONB можно использовать специальный оператор jsonb_path_ops[4]:

CREATE INDEX ON table_name USING GIN (jsonb_column jsonb_path_ops);

Это позволяет ускорить поиск с использованием оператора @> (содержит), например[4]:

SELECT * FROM table_name WHERE jsonb_column @> '{"key": "value"}';

Таким образом, GIN-индекс с jsonb_path_ops является эффективным решением для индексации JSONB столбцов в PostgreSQL, обеспечивая высокую производительность при поиске по вложенным структурам данных.

Citations: [1] https://sky.pro/wiki/sql/optimizatsiya-zaprosov-v-postgre-sql-indeks-na-json-stolbtse/ [2] https://habr.com/ru/companies/skillfactory/articles/692914/ [3] https://ru.stackoverflow.com/questions/1315922/%D0%A1%D1%87%D0%B5%D1%82%D1%87%D0%B8%D0%BA-%D0%B4%D0%BB%D1%8F-%D0%B8%D0%BD%D0%B4%D0%B5%D0%BA%D1%81%D0%BE%D0%B2-json [4] https://sky.pro/wiki/sql/optimizatsiya-poiska-v-json-massive-postgre-sql-indeksirovanie/ [5] https://clickhouse.com/docs/ru/sql-reference/functions/json-functions

Какие данные не надо индексировать?

Не рекомендуется индексировать следующие типы данных в базе данных:

1. **Данные с высокой частотой изменения**[1][2][4]

- Частые обновления индексов могут замедлять производительность при вставке, удалении и изменении данных

- Примеры: счетчики, временные метки, флаги состояния

2. **Данные с низкой селективностью**[1][2][4]

- Индексы на столбцы с малым количеством уникальных значений не эффективны

- Примеры: пол, статус, флаги

3. **Данные с большим объемом значений**[1][2][4]

- Индексирование столбцов с длинными текстовыми значениями увеличивает размер индекса

- Примеры: описания, комментарии, большие текстовые поля

4. **Данные, используемые только для фильтрации**[1][2]

- Если столбец используется только в операциях фильтрации, а не в запросах с сортировкой или объединением, индекс может быть избыточным

- Пример: столбец для фильтрации по дате

5. **Данные, используемые только в запросах с агрегацией**[1][2]

- Если столбец используется только в запросах с агрегацией (sum, count, avg), индекс может быть неэффективен

- Пример: столбец для подсчета количества

Таким образом, при проектировании индексов в базе данных следует избегать индексирования данных с высокой частотой изменения, низкой селективностью, большим объемом значений, используемых только для фильтрации или агрегации. Это позволит оптимизировать производительность и размер индексов[1][2][4].

Citations:

[1] https://practicum.yandex.ru/blog/chto-takoe-normalizaciya-dannyh/

[2] https://club.shelek.ru/viewart.php?id=177

[3] https://appmaster.io/ru/blog/chto-takoe-normalizatsiia-dannykh

[4] https://blog.arealidea.ru/seo-blitz/kak-zakryt-ssylki-i-tekst-ot-poiskovykh-sistem/

[5] https://info-comp.ru/database-normalization

На сколько ускорится поиск по полю, если его сделать primary key?

Если сделать поле primary key, это не обязательно ускорит поиск по нему12. Основные моменты:

Наличие primary key само по себе не влияет на скорость поиска в таблице с одной таблицей. Однако часто primary key сопровождается созданием индекса, который ускоряет поиск.

Точное ускорение зависит от нескольких факторов, включая тип базы данных, размер данных, структуру индексов и конкретные запросы.

Основные преимущества использования primary key:

  1. Индексация:

    • Primary key автоматически создает уникальный индекс на поле, что значительно ускоряет операции поиска, так как индексы позволяют базе данных быстро находить записи без необходимости полного сканирования таблицы.

  2. Уникальность:

    • Primary key гарантирует уникальность значений в поле, что упрощает и ускоряет операции поиска и сравнения.

  3. Организация данных:

    • В некоторых базах данных (например, MySQL с движком InnoDB) данные физически организованы в соответствии с первичным ключом, что может дополнительно ускорить доступ к данным.

Примерное ускорение:

  • Без индекса: Поиск по неиндексированному полю требует полного сканирования таблицы, что имеет временную сложность O(n), где n — количество записей в таблице.

  • С индексом: Поиск по индексированному полю (primary key) имеет временную сложность O(log n) благодаря использованию структур данных, таких как B-деревья или хэш-таблицы.

Пример:

Предположим, у вас есть таблица с 1 миллионом записей. Если поле не индексировано, поиск может занять значительное время, так как база данных должна просканировать каждую запись. Если поле является primary key, база данных может использовать индекс для быстрого поиска, что значительно сокращает время выполнения запроса.

Примерное сравнение:

  • Без индекса: Полное сканирование таблицы из 1 миллиона записей может занять несколько секунд или даже минут, в зависимости от производительности системы.

  • С индексом: Поиск по индексу может занять миллисекунды, так как база данных может быстро найти нужную запись с помощью индекса.

Заключение:

Создание primary key на поле может значительно ускорить поиск по этому полю, особенно в больших таблицах. Однако точное ускорение зависит от конкретных условий и конфигурации вашей базы данных. Важно также учитывать, что индексы занимают дополнительное место и могут замедлить операции вставки и обновления данных, поэтому необходимо балансировать между производительностью поиска и другими аспектами работы с базой данных.

Last updated