英伟达RDMA网络计划助力数据库业务可持续发展

2022-01-04 17:46 来源:电子说

云原生数据库TDSQL-C(原CynosDB,TDSQL为云原生数据库)是腾讯云开发的新一代高性能、高可用性的企业级分布式云数据库。TDSQL-C采用NVIDIA UCX RDMA优化关键路径系统性能,实现百万级以上QPS高吞吐量和128TB海量分布式智能存储,保证数据安全可靠。

云原生数据库TDSQL-C在实现高性能方面面临挑战。

TD-C采用计算和存储分离的架构,可以快速扩展和迁移节点。然而,TD-C引入的网络开销对实现高性能提出了更高的挑战。因此,有必要将软件优化与新硬件相结合,通过基于SPDK和UCXRDMA的零拷贝技术,降低用户状态和内核状态之间操作系统上下文切换和数据拷贝带来的性能损失,进一步优化关键路径的系统性能,降低请求延迟。

传统的TCP/IP网络存在以下缺点:发送给对端的应用缓冲区需要多次复制,对端接收数据时也需要多次复制到应用的接收缓冲区;要将应用缓冲区复制到TCP/IP的缓冲区,需要从用户状态进入内核状态,会有上下文切换。网络协议栈完全由CPU执行,消耗CPU。

英伟达RDMA网络解决方案+ConnectX系列网卡

“软硬”可以赋能数据库业务的可持续发展。

充分利用软硬件资源,在横向扩展、纵向扩展、RDMA等系统层面上做内核旁路的低延迟网络基础。以底层高性能硬件能力为支柱,为腾讯云数据库业务发展提供持续的系统源动力。

根据业务部门的需求以及服务器新产品导入团队多年来对RDMA技术的沉淀,建议使用配备NVIDIA ConnectX系列网卡的服务器,并使用NVIDIA RDMA网络方案专门优化数据库场景,充分利用RDMA天然的性能优势:

RDMA技术是用户空间进程绕过内核,直接调用RDMA网卡,实现与远程进程的高效快速通信。RDMA与由IBTA定义和维护的InfiniBand网络技术相关联。RDMA技术的优点可以解决TCP传输模式的各种缺点:

在整个数据传输过程中内存零拷贝。

网络传输完全卸载到网卡硬件,不占用CPU资源。

使用RDMA技术可以100%利用网络带宽。

整个数据传输过程由硬件完成,减少了系统延迟。

英伟达RDMA网络方案

帮助远程计算和存储网络优化

英伟达RDMA网络方案建立在硬件之上,优化远程计算和存储网络。

在RDMA和TCP关键性能指标的对比测试中,RDMA显示了其优势。例如,从oplog msg的性能数据来看,RDMA的实测延迟比TCP低71.7%,吞吐量高43.2%。在页面性能数据方面(页面大小为16KB),RDMA测量延迟比TCP低70.3%,吞吐量高52.3%。

腾讯云数据库是腾讯服务的基础设施,网络的时延和带宽对性能至关重要。RDMA技术的内核旁路和CPU卸载可以带来极低的延迟和极高的带宽。在NVIDIA网络产品上部署的推荐系统,将为腾讯用户提供业内一流的性能,让用户充分享受RDMA带来的技术红利。

3354腾讯云数据库TDSQL-C负责人

李志阳

英伟达作为RDMA技术的推动者和引领者,很高兴看到这项技术在腾讯的应用越来越广泛,正在从传统的HPC/AI业务向高性能存储和数据库领域拓展。UCX的使用大大提高了RDMA应用的开发效率和吞吐量,使RoCE能够快速与客户应用集成,从而帮助客户更快地走向市场,提供差异化的云产品和服务。

3354英伟达副总裁

Vadim Balahovski

 

延伸 · 阅读