Sådan sikkerhedskopieres Google BigQuery

Forudsætninger

Backupstrategierne er baseret på følgende antagelser:

  • Datastørrelse i BigQuery: 50TB
  • Metode til indtagelse af data: Tilføj kun (Indlæs data i nye daglige partitioner, idet alle de historiske data bevares i ældre partitioner)
  • Belastningsfrekvens: Dagligt
  • Aktuel datalagring i BQ: 2 års data gemt uden sletninger eller arkivering
  • Trinvis daglig belastningsstørrelse: 50 / (2 * 365) ~ = 70 GB
  • Det kan være nødvendigt at genoprette fuld sikkerhedskopi en gang i 3 år (Eks .: hele datasæt eller projekt slettes ved et tilfælde og bemærkes på en eller anden måde meget sent)
  • Delvis (partition eller tabel) backupgendannelse kan være nødvendig en gang i kvartalet (Eks .: buggy ETL-operation afkortet tabel eller partition)
  • Alle data i 1 år skal bevares
  • Efter 1 år kan de nødvendige resume / aggregerede data sikkerhedskopieres separat (ubetydelig i størrelse), og daglige sikkerhedskopier kan slettes.

Backup strategi

BQ laver automatiske snapshots bag kulisserne, der kan gendannes inden for 2 dage (for dråber) og 7 dage for tabeldata. Følgende punkter og sikkerhedskopieringsstrategi kan bruges til at gendanne fra gendannelsesoperationer, der ikke bemærkes inden for 2 dage i dråber 7 dage for tabeldata. For mere information om snapshots og fortrydelse, se dette og dette.

Alternativ 1 (omkostningseffektiv mulighed i GCS):

  • Sikkerhedskopiér alle de aktuelle data én gang til GCS
  • Backup trinvis belastning (nye partitioner og nye tabeller) hver dag efter ETL-vinduet er færdig
  • Brug GCS-enkeltregion
  • Brug kaldelinjelager til aktuel sikkerhedskopi og daglige inkrementelle sikkerhedskopier, der er ældre end 1 måned
  • Brug nærlinjelager til daglige inkrementelle sikkerhedskopier i 30 dage
  • Efter 30 dage skal du flytte den daglige trinvise sikkerhedskopi fra nærlinie til koldline
  • Efter 1 år skal du slette den daglige trinvise sikkerhedskopi fra koldlinjen
  • Brug spand i et andet GCP-projekt også til at gendanne sig fra utilsigtede projektsletninger og til at give separate IAM-privilegier og adgangsområder. (NB: Ejere af projektet kan stoppe sletningen inden for 30 dage. Denne sag er den mest pessimistiske, men tilføjer ingen ekstra omkostninger.)
  • Med denne strategi vil der være en kopi i GCS

Alternativ 2 (1 historisk kopi i et andet datasæt og projekt):

  • Kopier alle de aktuelle datasæt én gang til andre datasæt med backup-dato inkluderet i navnet i et projekt oprettet specifikt til sikkerhedskopier.
  • Kopier nye partitioner og nye tabeller dagligt, og tilføj sikkerhedskopieringsdatasæt, hvis andre data ikke ændres.
  • Med dette eksempelstrategi vil der være 1 sikkerhedskopi, der rummer hele historikken

Alternativ 3 (overflødige kopier; hvis dataændringer er uforudsigelige, dvs. at ukontrolleret mængde af tabeller er afkortet og indlæst, opdateres data i tidligere partitioner osv.):

  • Kopier alle de aktuelle datasæt dagligt til andre datasæt med backup-dato inkluderet i navnet i et projekt oprettet specifikt til sikkerhedskopier
  • Definer en datasæt-sletningsstrategi eks:
  • Opbevar backup-datasæt til ugens start i 4 uger, og slet andre daglige backup-datasæt efter 1 uge.
  • Opbevar backup-datasæt til begyndelsen af ​​måneden i 3 måneder, og slet andre ugentlige backup-datasæt efter 1 måned.
  • Med dette eksempelstrategi vil der være 7 + 3 + 2 = 12 kopier i BigQuery
  • Størrelse kan reduceres afhængigt af forretningskrav.

Koste

  • Samlet sikkerhedskopieringsstørrelse, der er gemt i kold linje: 50 TB + 70 GB * 335 ~ = 73,5 TB
  • Samlet sikkerhedskopi størrelse gemt i nærlinjen: 70 GB * 30 = 2,1 TB
  • Oplagringsomkostninger på Coldline på 73,5 TB i enkeltregion (eks: Finland): 301,06 USD pr. Måned
  • Omkostningsopbevaring på 2,1 TB i enkeltregion (eks: Finland): 21,50 USD pr. Måned
  • Samlede omkostninger: 322,56 USD pr. Måned

Bemærk prisfastsættelse kan ændres, se venligst på GCS-prisside for detaljer om prisfastsættelse.

Og du kan bruge GCP-priskalkulator til at beregne omkostningerne med ajourført prissætning.

Andre opbevaringsalternativer til 75 TB

  • Coldline enkeltregion: 307,20 USD pr. Måned
  • Coldline multiregion: 537,60 USD pr. Måned
  • Nærliggende multiregion: 768 USD pr. Måned

For andre beregninger: https://cloud.google.com/products/calculator/

For opbevaring af priser: https://cloud.google.com/storage/pricing