Онлайн-сервисов, предлагающих нам хранить данные «в интернете» сейчас стало очень много. Ставший классикой жанра Amazon S3, аналогичный ему Rackspace Cloud Files, всем знакомые Dropbox и Google Drive, решения для онлайн-бэкапа CrashPlan и Mozy, толпа однотипных «файлообменников» — всех не перечислишь. Но мысль одна и та же: пользовательские данные лежат где-то на серверах компании, предлагающей услугу, а уж она заботится в меру своих сил и возможностей об их сохранности и доступности. Господа аналитики пророчат, что к 2016 году люди будут хранить около 30% своего контента именно таким образом.
Но нам, конечно, интереснее посмотреть на ситуацию не с позиции владельца iPhone, который загружает в Instagram фотографию своего отражения в зеркале, а с позиции наших клиентов, среди которых много компаний, работающих в сфере телевидения и кинопроизводства. Работа с видео имеет свою специфику. В первую очередь это существенные объемы данных и повышенные требования к пропускной способности каналов. Один час HD-видео, сжатого при помощи кодека ProRes 422, занимает 63 ГБ дискового пространства при битрейте 130-140 Мбит/с. Поэтому медиаданные, с которыми ведется оперативная работа, всегда стараются размещать на высокопроизводительных системах хранения, подключенных к клиентам через достаточно «широкие» каналы.
Очевидно, что облачное хранение для, например, монтажа видео в реальном времени, не сгодится совершенно. А что насчет архивации?
Действительно, в большинстве компаний всегда остро стоит вопрос регулярного освобождения систем хранения данных от файлов, к которым более не нужен постоянный доступ и их переносе на более дешевые носители информации. Кто-то хранит архивы на кассетах и жестких дисках, кто-то использует LTO-3/4/5. Но проблемы одни и те же: носители нужно хранить в прохладном, сухом и закрытом от любопытствующих месте, а также содержать некий каталог, пользуясь которым можно было бы найти кассету, жесткий диск или картридж LTO, содержащий файл, который срочно потребовалось восстановить. В этом контексте идея перенести тяжкое бремя заботы об архивной информации на некую стороннюю компанию за соответствующую денежную компенсацию выглядит весьма заманчивой. Но стоит ли действительно игра свеч?
LTO-5 vs Amazon Glacier
Мой коллега Дмитрий Афанасьев тоже задавался этим вопросом. В итоге, он просто сравнил стоимость хранения архивных данных по классической схеме (библиотека с приводами LTO-5) с использованием только-только появившегося сервиса Amazon Glacier, предлагающего, на первый взгляд, очень заманчивые цены.
Но сначала — рассмотрим плюсы и минусы. Что хорошо в LTO-5? Во-первых, высокая производительность: если нужно записывать или считывать данные быстрее, достаточно установить дополнительные приводы. Во-вторых, уже разработано достаточно внушительное количество ПО для архивации, начиная от монстров типа NetBackup, и заканчивая нишевыми решениями, например, часто используемый нашими клиентами Archiware PresSTORE. Минусы? Высокая единоразовая стоимость решения (пресловутый CapEx), необходимость размещения оборудования в специализированном помещении (сиречь, серверной комнате или датацентре), а также наличие квалифицированного персонала, который будет заниматься его обслуживанием. Не забудьте про картриджи — их тоже нужно покупать и где-то хранить.
В случае с Glacier капитальные затраты отсутствуют в принципе — клиент платит только за фактическое использование. Не нужно обслуживать ленточную библиотеку и покупать картриджи. Однако, скорость записи и восстановления ограничена «толщиной» интернет-канала до датацентра Amazon. Также, в случае с Glacier действует ряд других ограничений — невозможно восстановить отдельный файл (файлы группируются в т.н. «bundles», представляющие собой минимальную единицу хранения), восстановление файлов происходит с задержкой до нескольких часов, наконец, на рынке еще нет «созревших» программных продуктов, работающих с Glacier. Добавьте сюда достаточно сложную систему взаиморасчетов с Amazon — определенное количество данных можно восстановить бесплатно, дальше начинает работать «счетчик», за удаление данных, которые хранятся менее трех месяцев, взимается дополнительный штраф, да и связать всю эту затею с нашей родной бухгалтерией будет ой как непросто.
Принимая во внимание вышеупомянутые факторы, попробуем сравнить стоимость хранения 100TB архивных данных для этих двух схем.
Классика: LTO-5
100TB — вроде и не много, но уже и не мало. Для размещения такого объема потребуется около 67 картриджей LTO-5 (считая, что на каждом можно разместить 1.5TB данных). Совсем большую ленточную библиотеку под такой объем брать нет смысла — нашим кандидатом будет IBM TS3200 с двумя приводами FC.
Среднерыночные цены: один картридж LTO-5 — $80. IBM TS3200 с двумя приводами — около $11.000.
Итого, получаем капитальное вложение порядка $16.360.
Hip stuff: Amazon Glacier
Базовый ценник — проще не придумаешь. При размещении в Ирландском датацентре стоимость составляет $0.011 за гигабайт в месяц. То есть, аренда мощностей Amazon обойдется в $1100 ежемесячно. Это значит, что уже чуть больше, чем за год, эта стоимость сравняется с затратами на ленточную библиотеку. Наконец, Amazon взимает отдельную плату за восстановление данных. Если восстанавливать, скажем, 8TB в год, то суммарно за это удовольствие придется заплатить еще $960. То есть, каждый год необходимо будет выплачивать сумму в $14160 — и уже через 13 месяцев затраты сравняются с таковыми на покупку решения на базе ленточной библиотеки.
То есть, LTO-5 дешевле?
Как сказать!
Вышеприведенный расчет учитывает далеко не все факторы. Например, зарплату сотрудников. В самом деле, квалификация для обслуживания этих решений нужна разная. Если в случае с Glacier можно будет тратить на сотрудника, скажем, на $1000 меньше, этот вариант становится значительно выгоднее. Плюс, нет затрат, связанных с размещением оборудования и картриджей — а это электроэнергия, арендная плата за помещение или место в стойках. К тому же, доступность инфраструктуры Amazon в большинстве случаев будет выше.
Но самое слабое место Glacier — интернет-канал. 1TB данных будет загружаться больше суток, если используется канал в 100Mb. А если данные нужны, как оно всегда бывает, еще вчера? А если нужно восстановить 10TB исходных файлов R3D? Добавьте сюда довольно-таки грабительские цены на интернет для юридических лиц в России и фактическое (на данный момент) отсутствие ПО для работы с Amazon Glacier.
Однако, я уверен, что с ростом скорости аплинков вариант облачного архивирования будет становиться все привлекательнее и привлекательнее именно для больших объемов, с которыми приходится сталкиваться медиакомпаниям. А пока — загрузим картриджи в библиотеку, поставим на архивацию очередной десяток терабайт данных, и помечтаем о светлом будущем. Ведь оно наступит, правда?