Data-diff: различия между версиями
Перейти к навигации
Перейти к поиску
Dzmuh (обсуждение | вклад) (Новая страница: «{{Заготовка}} '''data-diff''' — это инструмент командной строки и библиотека Python для эффективного сравнения строк в двух разных базах данных. * Проверяет множество различных баз данных (например, PostgreSQL -> Snowflake) * Выводит разницу строк в деталях * Простой CLI/API для...») |
Dzmuh (обсуждение | вклад) (→Ссылки) |
||
| Строка 13: | Строка 13: | ||
== Ссылки == | == Ссылки == | ||
* {{github|datafold|data-diff}} | * {{github|datafold|data-diff}} | ||
[[Категория:Программное обеспечение по алфавиту]] | [[Категория:Программное обеспечение по алфавиту]] | ||
[[Категория:Свободное программное обеспечение, написанное на Python]] | [[Категория:Свободное программное обеспечение, написанное на Python]] | ||
Текущая версия от 01:33, 4 мая 2023
Это заготовка статьи. |
data-diff — это инструмент командной строки и библиотека Python для эффективного сравнения строк в двух разных базах данных.
- Проверяет множество различных баз данных (например, PostgreSQL -> Snowflake)
- Выводит разницу строк в деталях
- Простой CLI/API для создания мониторинга и предупреждений
- Соединяет типы столбцов разных форматов и уровней точности (например, Double ⇆ Float ⇆ Decimal)
- Проверка более 25 млн строк менее чем за 10 с и более 1 млрд строк примерно за 5 минут.
- Работает для таблиц с десятками миллиардов строк
data-diff разбивает таблицу на более мелкие сегменты, а затем вычисляет контрольные суммы каждого сегмента в обеих базах данных. Когда контрольные суммы для сегмента не равны, он далее разделит этот сегмент на еще меньшие сегменты, суммируя их, пока не дойдет до разных строк.
Ссылки
- Проект Data-diff на сайте GitHub