banner

Блог

Jun 28, 2023

Apache Iceberg меняет все: что под ним?

Высокопроизводительный формат таблиц Apache Iceberg с открытым исходным кодом навсегда изменил использование озера данных и анализ данных, сделав традиционные хранилища данных менее привлекательными, отмечает Джейсон Хьюз из Dremio.

В условиях постоянно растущих объемов данных ни для кого не секрет, что предприятия изо всех сил пытаются получить немедленную выгоду от этих данных, одновременно пытаясь внедрить системы, способные реагировать на их будущее использование. Что будет на горизонте, предсказать сложно. Платформы данных должны удовлетворять эту двойную потребность, и основные технологии стимулируют их эволюцию для достижения этой цели. Apache Iceberg с открытым исходным кодомОткрывает новое окно. Высокопроизводительный формат аналитических таблиц меняет способы доступа компаний к данным и их использования, обеспечивая фундаментальную гибкость анализа данных.

Iceberg обеспечивает беспрепятственную производительность хранилищ данных для озера данных, поскольку традиционные хранилища данных стали скорее альбатросом, чем спасательной шлюпкой для предприятий, ищущих экономически эффективную аналитику. Созданный в инженерной сфере Netflix, что позволяет им рассматривать Amazon S3 в качестве своего хранилища данных, Iceberg представляет собой готовый к производству проект с открытым исходным кодом, используемый для анализа данных в таких компаниях, как Netflix, Adobe, Apple и многих других, в течение длительного времени. В дополнение к проверенной готовности к производству, его API-интерфейсы также обеспечивают совместимость, но его выпуск 1.0 в конце прошлого года закрепил эту совместимость в качестве гарантии и укрепил его статус для хранилищ данных промышленного уровня и вариантов использования в области науки о данных. Iceberg рос огромными темпами: за последние 12 месяцев было объединено 1559 запросов на включение, а разработку программного обеспечения через Apache Software Foundation в настоящее время поддерживают Amazon, Snowflake, Google, Tabular и Dremio, среди других.

Формат таблиц, такой как Iceberg, является важнейшим компонентом новой архитектуры Lakehouse, которая позволяет аналитическим рабочим нагрузкам выполнять запросы к огромным объемам данных в хранилищах облачных объектов, таких как S3 и ADLS. Таблицы Iceberg упрощают операции языка манипулирования данными (DML) непосредственно в этих облачных хранилищах объектов. Их можно оптимизировать разными способами, например, с помощью секционирования, сортировки и индексирования, чтобы обеспечить эффективную организацию и обработку данных в больших масштабах. В то же время пользователям становится проще работать, поскольку им не нужно знать основные сведения о таблице, чтобы воспользоваться преимуществами производительности.

Рост популярности Iceberg как стандарта формата открытых таблиц, лежащего в основе озерных домиков, изменил то, что значит создавать и использовать современную инфраструктуру данных. В конечном итоге этот новый подход поглотит хранилища данных, которые требуют постоянного перемещения данных и создают множество копий данных, привязывая компании к проприетарным, часто дорогостоящим решениям. Если у вас есть два решения, оба из которых могут поддерживать эквивалентные рабочие нагрузки, но одно закрытое, а другое открытое и менее затратное с точки зрения времени, ресурсов и лицензирования, история технологий обычно показывает, что последнее побеждает.

См. больше: Руководство для лидеров по улучшению визуализации данных и дизайна информационных панелей.

На протяжении десятилетий хранилища данных служили инструментом для запроса огромных объемов исторических структурированных данных из различных источников и обеспечения быстрого выполнения аналитических рабочих нагрузок. Они предложили эффективную политику управления данными, обеспечивающую доступность, удобство использования и безопасность данных. Они предложили технологические возможности, позволяющие реализовать лучшие практики, такие как медленное изменение размеров и управление основными данными. Но данные в хранилище являются заложниками системы конкретного поставщика, которую может использовать только вычислительный механизм хранилища. Хранилище и/или вычислительные ресурсы в этих системах стоят дорого (обычно одно, а то и оба), и эта стоимость приводит к трудному выбору для организаций: запускать все рабочие нагрузки, необходимые бизнесу, с высокими затратами или не запускать все рабочие нагрузки, необходимые для бизнеса. потребности бизнеса с меньшими затратами. Хранилища данных также не позволяют организациям выполнять рабочие нагрузки машинного обучения, которые им необходимы, и они не могут хорошо справляться с рабочими нагрузками полуструктурированных и неструктурированных данных, если вообще справляются с ними, что становится ожиданием на рынке.

ДЕЛИТЬСЯ