Discord Patch Notes: May 4, 2026 (새 탭에서 열림)

Welcome to Patch Notes! In this series, we comb through the newest changes in performance, reliability, responsiveness, usability, and general bug-squishing we’ve done to make Discord better. If you discover an issue of your own, check out our Bimonthly Bug Megathread on the com…

모델 서빙의 라우팅 현황 (새 탭에서 열림)

넷플릭스는 대규모 개인화 경험을 제공하기 위해 수백 개의 모델과 초당 100만 건의 요청을 처리하는 중앙 집중식 머신러닝(ML) 모델 서빙 플랫폼을 운영하고 있습니다. 이 플랫폼은 'Switchboard'라는 라우팅 계층을 통해 클라이언트 마이크로서비스와 복잡한 ML 모델 인프라를 분리하여, 클라이언트의 수정 없이도 새로운 모델을 신속하게 실험하고 배포할 수 있는 환경을 구축했습니다. 이를 통해 넷플릭스는 모델 추론뿐만 아니라 데이터 전처리 및 특징 추출을 포함한 전체 워크플로우를 표준화된 API로 추상화하여 혁신의 속도를 높이고 있습니다. ### 넷플릭스의 워크플로우 중심 모델 정의 * 넷플릭스에서 모델은 단순한 추론 함수(`score(features)`)를 넘어, 입력 데이터 변환, 특징(feature) 계산, 추론, 후처리를 모두 포함하는 독립적인 '워크플로우'로 정의됩니다. * 클라이언트는 사용자 ID나 국가와 같은 최소한의 컨텍스트만 제공하며, 모델 서빙 플랫폼이 필요한 데이터를 다른 마이크로서비스에서 가져와 직접 특징을 계산합니다. * 이러한 구조 덕분에 클라이언트는 모델의 내부 로직이나 데이터 의존성을 알 필요가 없으며, 모델의 아키텍처가 변하더라도 클라이언트 코드를 수정할 필요가 없습니다. ### 중앙 집중형 라우팅 엔진, Switchboard * 넷플릭스는 표준 API 게이트웨이나 서비스 메시가 제공하지 못하는 실험 플랫폼과의 통합, gRPC 지원, 도메인 특화 라우팅을 구현하기 위해 자체 프록시 서비스인 'Switchboard'를 개발했습니다. * Switchboard는 클라이언트 요청을 적절한 모델 인스턴스와 클러스터 샤드로 전달하는 역할을 수행하며, 초당 100만 건 이상의 요청을 처리하면서도 높은 가용성을 유지합니다. * 모델 배포 시 섀도 모드(Shadow mode), 카나리 배포(Canary), 롤백 등을 클라이언트 모르게 수행할 수 있어 안전한 운영이 가능합니다. ### 인프라 복잡성을 감추는 모델 샤딩 분리 * 모델은 트래픽 패턴, SLA, CPU/메모리 요구사항에 따라 여러 연산 클러스터 샤드(VIP 주소)에 분산 배치됩니다. * 서빙 플랫폼은 이러한 물리적 배치 상태를 클라이언트로부터 은폐하여, 인프라의 변경이나 모델의 샤드 이동이 클라이언트 서비스에 영향을 주지 않도록 설계되었습니다. * 이를 통해 ML 연구자는 인프라 제약 없이 자유롭게 실험을 설계하고 모델을 배포할 수 있습니다. ### 'Objective' 기반의 추상화 계층 * 플랫폼은 'Objective'라는 열거형(Enum) 단위를 통해 모든 요청을 관리하며, 이는 비즈니스 목적(예: 콘텐츠 추천, 결제 사기 탐지)을 나타냅니다. * Objective는 요청이 전달될 특정 서빙 클러스터와 모델 유형/버전을 결정하는 기준이 됩니다. * 또한, 각 Objective는 고유한 API 규격을 정의하여 서로 다른 도메인의 클라이언트가 동일한 방식으로 플랫폼과 통신할 수 있도록 표준화합니다. 성공적인 대규모 ML 시스템을 구축하려면 모델의 생명주기를 클라이언트 애플리케이션으로부터 완전히 격리해야 합니다. 넷플릭스의 사례처럼 워크플로우 단위의 모델 정의와 'Objective' 중심의 라우팅 추상화를 도입함으로써, 인프라의 복잡성을 관리하면서도 머신러닝 혁신의 속도를 극대화할 수 있습니다.

Code Orange: Fail Small is complete. The result is a stronger Cloudflare network (새 탭에서 열림)

Cloudflare는 2025년 말 발생했던 두 차례의 대규모 장애를 계기로 추진한 인프라 회복 탄력성 강화 프로젝트인 'Code Orange: Fail Small'을 성공적으로 마무리했습니다. 이번 프로젝트를 통해 설정 변경의 안정성을 확보하고, 장애 발생 시 영향을 최소화하며, 비상 상황에서의 대응 체계를 전면 개편했습니다. 결과적으로 Cloudflare 네트워크는 잠재적인 문제를 조기에 감지하고 격리함으로써 전 세계 사용자에게 더욱 신뢰할 수 있는 서비스를 제공할 수 있게 되었습니다. ### 안전한 설정 변경을 위한 Snapstone 도입 설정 변경이 네트워크 전체에 즉각적으로 반영되어 발생하던 대규모 장애를 방지하기 위해 새로운 배포 매커니즘을 구축했습니다. * **Snapstone 시스템 개발**: 설정을 패키지화하여 단계적으로 배포하고, 실시간 상태 모니터링을 통해 문제가 감지되면 자동으로 롤백하는 통합 관리 도구를 도입했습니다. * **점진적 배포의 표준화**: 과거에는 팀별로 달랐던 배포 방식을 Snapstone으로 통일하여, 데이터 파일이나 글로벌 제어 플래그 등 모든 유형의 설정 변경에 '상태 기반 점진적 배포(Health-mediated deployment)'를 적용합니다. * **리스크 관리 자동화**: 위험한 설정 패턴이 발견되면 이를 Snapstone 관리 대상으로 즉시 편입시켜, 별도의 추가 작업 없이도 안전한 배포 사이클을 보장받을 수 있습니다. ### 장애 영향력 최소화 및 서비스 세분화 장애가 발생하더라도 서비스 전체가 중단되지 않도록 시스템의 구조적 유연성을 높였습니다. * **Fail Open 및 Fail Stale 구현**: 최신 설정을 읽지 못할 경우 마지막으로 정상 작동했던 설정을 사용(Fail Stale)하거나, 일부 기능을 제한하더라도 트래픽 흐름은 유지(Fail Open)하도록 프로그래밍 모델을 개선했습니다. * **고객 코호트별 세분화**: 서비스 실행 환경을 여러 독립적인 세그먼트로 나누어, 무료 사용자 그룹에 먼저 업데이트를 적용하고 점진적으로 확대하는 방식을 도입했습니다. * **폭발 반경(Blast Radius) 제한**: 특정 서비스(예: Workers 런타임)에서 문제가 발생하더라도 전체 네트워크가 아닌 소수의 특정 세그먼트에만 영향이 국한되도록 설계하여 대규모 장애로 확산되는 것을 차단합니다. ### 비상 접근 권한(Break Glass) 및 사고 관리 체계 개편 인프라 장애로 인해 관리 도구 자체가 마비되는 '자기 의존성' 문제를 해결하기 위해 비상 대응 절차를 강화했습니다. * **백업 인증 경로 확보**: 핵심 Zero Trust 보안 툴이 작동하지 않는 극한 상황에서도 시스템에 접근할 수 있도록 18개 주요 서비스에 대한 별도의 비상 인증 경로와 스크립트를 마련했습니다. * **실전 중심의 대응 훈련**: 200명 이상의 엔지니어가 참여하는 대규모 드릴(Drill)을 통해 비상 상황에서의 대응 속도와 숙련도를 높였습니다. * **고객 소통 강화**: 내부 모니터링 데이터가 외부 공지 시스템으로 신속하고 명확하게 전달될 수 있도록 소통 프로세스를 개선하여 장애 시 고객의 불확실성을 해소합니다. Cloudflare의 이번 개선 작업은 단순한 기술적 수정을 넘어, '작게 실패(Fail Small)'함으로써 더 큰 가용성을 보장하는 구조적 변화를 의미합니다. 사용자는 이제 더욱 견고해진 인프라 위에서 예상치 못한 설정 오류나 시스템 장애로부터 보호받으며 서비스를 이용할 수 있습니다.

메타가 종단간 암호화된 백업을 강화하는 방법 (새 탭에서 열림)

Meta는 하드웨어 보안 모듈(HSM) 기반의 백업 키 저장소를 통해 왓츠앱(WhatsApp)과 메신저(Messenger)의 종단간 암호화(E2EE) 백업 보안을 강화하고 있습니다. 이 시스템은 사용자의 복구 코드를 위변조 방지 하드웨어에 저장하여 Meta나 클라우드 제공업체를 포함한 제3자의 접근을 원천 차단하며, 최근 무선(OTA) 키 배포 방식과 배포 투명성 강화를 통해 인프라의 신뢰성을 한층 더 높였습니다. ### HSM 기반 백업 키 저장소의 구조 * 지리적으로 분산된 여러 데이터 센터에 HSM 함대(Fleet)를 구축하고, 다수결 합의(Majority-consensus) 복제 방식을 통해 하드웨어 수준의 복원력과 보안성을 확보합니다. * 사용자의 메시지 복구 코드는 HSM 내부에서만 관리되므로 외부에서는 절대 탈취할 수 없는 구조를 가집니다. * 최근 패스키(Passkeys) 지원을 통해 편의성을 높인 데 이어, 기존 비밀번호 기반 암호화 백업 인프라를 보호하기 위한 보안 업데이트를 지속적으로 적용하고 있습니다. ### 무선(OTA) 함대 키 배포 메커니즘 * 메신저 앱의 경우 앱 업데이트 없이도 새로운 HSM 함대를 유연하게 도입할 수 있도록, HSM 응답 과정에서 함대 공개 키를 무선(Over-the-Air)으로 전달하는 방식을 구축했습니다. * 키 배포의 신뢰성을 보장하기 위해 공개 키는 '검증 번들(Validation bundle)' 형태로 제공되며, 이는 Cloudflare의 서명과 Meta의 교차 서명을 통해 독립적인 암호화 증명을 제공합니다. * Cloudflare는 모든 검증 번들에 대한 감사 로그를 유지하여 배포 과정의 무결성을 외부에서 확인할 수 있도록 지원합니다. ### 배포 투명성 및 검증 가능성 * Meta는 시스템이 설계대로 작동하며 사용자 백업에 접근할 수 없음을 증명하기 위해, 새로운 HSM 함대를 배포할 때마다 보안 증거를 블로그 등을 통해 외부에 공개하기로 했습니다. * 함대 배포는 보통 수년 주기로 드물게 발생하지만, 매 배포 시마다 사용자가 기술 백서의 감사(Audit) 절차를 따라 보안성을 직접 검증할 수 있는 환경을 제공합니다. * 이러한 투명성 강화 조치는 Meta가 보안 백업 분야에서 기술적 리더십을 공고히 하고 사용자 신뢰를 얻기 위한 핵심 전략입니다. 종단간 암호화 백업 시스템의 구체적인 작동 원리와 감사 절차가 궁금한 개발자나 보안 전문가는 Meta가 공개한 "Security of End-To-End Encrypted Backups" 기술 백서를 통해 전체 사양을 상세히 확인할 수 있습니다.

동적 워크플로우 소개: 테넌트를 따르는 내구성 있는 실행 (새 탭에서 열림)

Cloudflare는 멀티테넌트 SaaS나 AI 에이전트처럼 런타임에 코드가 생성되는 환경을 지원하기 위해 'Dynamic Workflows'를 도입했습니다. 이는 기존의 정적 배포 방식에서 벗어나, 각 테넌트가 작성한 고유한 워크플로우 코드를 동적으로 로드하고 실행할 수 있게 해주는 내구성 있는 실행(Durable Execution) 솔루션입니다. 개발자는 이를 통해 개별 테넌트나 세션마다 서로 다른 비즈니스 로직을 가진 워크플로우를 격리된 샌드박스 환경에서 안전하고 신속하게 구동할 수 있습니다. ### 정적 워크플로우 배포의 한계 * 기존 Cloudflare Workflows는 `wrangler.jsonc` 설정 파일에 워크플로우 클래스를 미리 정의해야 하는 정적 바인딩 구조를 가졌습니다. * AI가 사용자별로 코드를 생성하거나, 각 저장소마다 고유한 파이프라인을 갖는 CI/CD 서비스와 같은 현대적인 플랫폼에서는 모든 테넌트의 로직을 미리 정의하는 것이 불가능합니다. * 컴퓨트(Dynamic Workers)와 스토리지(Durable Object Facets)는 이미 동적 배포가 가능해졌으나, 장기 실행이 필요한 워크플로우 영역은 여전히 테넌트별 맞춤화가 어려운 공백으로 남아 있었습니다. ### 동적 워크플로우의 구조와 작동 방식 * `@cloudflare/dynamic-workflows` 라이브러리는 약 300줄의 TypeScript 코드로 구성되며, 'Worker Loader'가 각 테넌트의 코드로 호출을 라우팅하는 역할을 수행합니다. * 워크플로우 엔진이 `run(event, step)` 함수를 호출할 때, 라이브러리는 수 시간 또는 수일 후에도 해당 워크플로우를 생성했던 정확한 테넌트의 코드를 찾아 실행을 재개합니다. * 테넌트는 표준 `WorkflowEntrypoint`를 사용하여 평범한 워크플로우 코드를 작성하며, 자신이 동적으로 관리되는 환경에 있다는 사실을 인지할 필요 없이 독립적인 실행 환경을 보장받습니다. ### 주요 기능 및 기술적 이점 * **기존 기능 완전 계승**: 워크플로우 상태 확인(`.status()`), 일시 중지(`.pause()`), 재시도, 동적 단계 실행, `step.sleep()`을 이용한 장기 대기, `step.waitForEvent()` 등의 모든 기능을 그대로 사용할 수 있습니다. * **고성능 격리 환경**: 싱글 디지트 밀리초(단위 수 밀리초) 내에 격리된 샌드박스 Worker가 생성되어 보안성과 속도를 동시에 확보합니다. * **확장성**: Workflows V2 아키텍처를 기반으로 설계되어, 계정당 초당 300개의 새로운 인스턴스 생성과 최대 50,000개의 동시 인스턴스 처리를 지원하여 에이전트 중심의 서비스 확장에 최적화되어 있습니다. AI 에이전트가 스스로 도구를 작성하고 실행하거나, 고객마다 고유한 비즈니스 자동화 로직을 부여해야 하는 SaaS 플랫폼을 구축 중이라면 Dynamic Workflows가 최적의 대안이 될 것입니다. 이 시스템을 통해 인프라 관리의 부담 없이 테넌트별로 특화된 내구성 있는 워크플로우를 무한히 확장할 수 있습니다.

글로벌 파트너십과 오픈 리소스를 통한 과학적 영향력 촉진 (새 탭에서 열림)

구글 리서치는 책임감 있고 포용적이며 엄격한 연구 원칙을 바탕으로 오픈 사이언스를 추진하며, 전 지구적 파트너십과 공개 리소스를 통해 과학적 발견의 가속화를 도모하고 있습니다. 오픈소스 소프트웨어와 데이터셋을 공유함으로써 연구자들이 성과를 재현하고 확장할 수 있는 환경을 조성하며, 이는 단순히 기술적 혁신에 머무르지 않고 전 세계적인 사회적 진보를 이끄는 촉매제 역할을 합니다. 구글은 트랜스포머 아키텍처부터 전문화된 의료 및 기후 모델에 이르기까지 다양한 자원을 공개하여 전 세계 연구 생태계의 역량을 강화하는 데 집중하고 있습니다. **글로벌 파트너십과 연구 생태계 협력** * 유씨 산타크루즈(UCSC) 유전체 연구소, 자넬리아 연구 캠퍼스, 인도 의학 연구소(AIIMS) 등 전 세계 주요 기관과 협력하여 전문 분야별 연구를 심화하고 있습니다. * 인간 범유전체 연구 컨소시엄(HPRC), 지구 바이오게놈 프로젝트(EBP), NIH BRAIN 이니셔티브와 같은 거대 글로벌 컨소시엄에 참여하여 인류 공통의 과제 해결에 기여합니다. * 인도, 한국, 일본, 호주를 시작으로 지역별 과학 개발자 커뮤니티를 구축하기 위한 투자를 확대하여 실질적인 기술 실천 공동체를 형성하고 있습니다. **분야별 핵심 오픈소스 도구 및 데이터셋** * **유전체학:** DeepVariant, DeepConsensus, DeepPolisher 등 딥러닝 기반 도구를 통해 DNA 분석의 정밀도를 높였으며, 이를 통해 전 세계적으로 250만 명의 전장 유전체 분석을 지원했습니다. * **뇌과학:** 1.4페타바이트 규모의 인간 뇌 조직 데이터셋(H01)과 쥐 시각 피질 지도(MICrONS)를 공개했으며, Neuroglancer 및 TensorStore 같은 도구로 페타스케일의 고해상도 뇌 지도를 탐색하고 분석할 수 있게 했습니다. * **지구 및 기상 모델링:** 18억 개의 건물 감지 데이터를 포함한 'Open Buildings', 하이브리드 기상 모델인 'NeuralGCM', 산불 연구를 위한 'FireBench' 등을 통해 기후 변화 대응과 재난 예측을 돕고 있습니다. * **헬스케어:** MedGemma를 포함한 의료용 파운데이션 모델(HAI-DEF)은 480만 회 이상의 다운로드를 기록 중이며, '오픈 건강 스택(OHS)'은 10개국 이상에서 6,500만 명의 수혜자를 위한 디지털 건강 솔루션 구축에 활용되고 있습니다. **오픈 사이언스가 창출한 실질적 성과** * **유전체 연구 혁신:** UCSC와의 협업을 통해 유전적 변이 식별 오류를 50% 줄였으며, 이는 인류의 다양성을 보다 정확하게 반영하는 범유전체 참조 자료 구축으로 이어졌습니다. * **기상 예측과 농업 지원:** 시카고 대학교 연구팀은 NeuralGCM을 활용해 인도 몬순의 시작을 한 달 전 예측하는 데 성공했으며, 이 정보는 3,800만 명의 인도 농민에게 전달되어 작물 재배 최적화에 기여했습니다. * **의학적 발견:** 존스 홉킨스 대학교 연구진은 구글이 공개한 H01 뇌 데이터셋을 분석하여 기존 학설에 없던 새로운 신경 세포 통신 방식을 발견했으며, 이는 알츠하이머와 같은 질환 연구에 새로운 전기를 마련했습니다. * **인도주의적 활동:** UN 난민기구(UNHCR)는 Open Buildings 데이터를 활용하여 난민 거주지의 재난 대응 샘플링을 최적화하고 해수면 상승에 따른 위험도를 평가하고 있습니다. 오픈 사이언스는 기술적 장벽을 허물고 전 세계 연구자들이 동등한 출발선에서 혁신을 이룰 수 있게 합니다. 연구자와 개발자들은 구글 리서치가 공개한 MedGemma나 NeuralGCM과 같은 특화된 모델과 방대한 데이터셋을 적극 활용함으로써, 각자의 도메인에서 연구의 재현성을 확보하고 사회적 임팩트가 큰 발견을 더 빠르게 도출할 수 있을 것입니다.

Cloudflare IPsec용 양자 내성 암호 정식 출시 (새 탭에서 열림)

Cloudflare는 양자 컴퓨터를 이용한 미래의 암호 해독 공격(Harvest-now-decrypt-later)에 대응하기 위해 Cloudflare IPsec 서비스에 양자 내성 암호화(PQC)를 정식 출시했습니다. 이번 업데이트는 하이브리드 ML-KEM(FIPS 203) 표준을 채택하여 기존 하드웨어 교체 없이도 Cisco, Fortinet 등 주요 벤더 장비와 상호 운용이 가능한 보안 터널을 구축할 수 있게 합니다. 이는 2029년까지 모든 서비스에 양자 내성 보안을 적용하려는 Cloudflare의 로드맵에서 중요한 이정표가 될 것입니다. ### IPsec 기반 양자 내성 암호화의 핵심 기술 * **하이브리드 ML-KEM 메커니즘**: 고전적인 Diffie-Hellman(DH) 방식과 양자 내성 방식인 ML-KEM을 결합한 핸드셰이크를 사용합니다. DH 교환을 먼저 수행한 뒤 그 결과로 ML-KEM 교환을 암호화하며, 두 방식의 출력값을 혼합해 데이터 평면(ESP)을 보호하는 세션 키를 생성합니다. * **소프트웨어 기반 구현**: ML-KEM은 격자 기반(Lattice-based) 암호 알고리즘으로, 전용 물리적 링크나 특수 하드웨어가 필요한 양자 키 분배(QKD)와 달리 일반 프로세서의 소프트웨어 환경에서 구동됩니다. * **주요 벤더 상호 운용성**: IETF 드래프트(`draft-ietf-ipsecme-ikev2-mlkem`) 표준을 준수하여 Cisco 8000 시리즈 라우터(v26.1.1 이상) 및 Fortinet FortiOS(v7.6.6 이상) 장치와 성공적으로 연동됩니다. ### IPsec 표준화가 TLS보다 늦어진 이유와 한계 * **QKD 기술에 대한 의존**: IPsec 커뮤니티는 한동안 양자 키 분배(QKD) 기술에 집중했으나, 이는 특수 장비가 필요하고 인터넷 규모의 확장이 어려우며 능동적 공격자를 차단할 인증 기능이 부족하다는 한계가 있었습니다. * **파편화된 표준화**: 2023년 발표된 RFC 9370은 병렬 키 교환의 틀은 마련했지만 구체적인 암호 스위트를 지정하지 않았습니다. 이로 인해 초기 구현체들이 서로 다른 암호를 사용하게 되면서 Palo Alto Networks 등 일부 벤더 간의 호환성 문제가 발생했습니다. * **산업계의 통합**: 이번에 도입된 드래프트 표준은 RFC 9370의 빈틈을 메우며 하이브리드 ML-KEM을 명시함으로써, 벤더들이 단일한 표준으로 결집할 수 있는 토대를 마련했습니다. ### 안전한 네트워크 전환을 위한 권장 사항 현재의 업데이트는 데이터 '암호화'에 집중되어 있어, Q-Day 이후의 실시간 공격을 완벽히 방어하려면 향후 '양자 내성 인증' 표준 도입이 추가로 필요합니다. 기업들은 전용 회선이 필요한 QKD 방식보다는 기존 인프라에서 즉시 적용 가능한 소프트웨어 기반 PQC 표준을 우선적으로 검토해야 하며, 장비 업그레이드 시 `draft-ietf-ipsecme-ikev2-mlkem` 지원 여부를 확인하는 것이 권장됩니다.