美团超1.5万台Kafka，抗下每秒数亿消息量的同样

来源：清理设备　时间：2023-06-03

主要一般而言3个层面：

移入只能按厂内串行递交，每个厂内可能会普遍存在不算量中区移入缓比较慢，只能递交下个厂内，随之而来移入较高效率所受因素。移入一般在日间监督，如果移入拖至了午较颠峰还仍未展开时，可能会但会上都因素读书写出催促。移入催促和定时拉取普遍存在共用Fetcher寄存器的情况随之而来中区移入催促可能会但会因素定时购买者催促。

3）Consumer下端单寄存器框架普遍存在不足之处随之而来运维测试方法杂讯，并且单Consumer购买者的中区至不算不所受约束，购买者能力极低就只能跟上定时最从重新资料，当购买者的中区至不算增多时可能会但会激起追溯读书。

种系统层也主要最主要3类情况：

1）PageCache环境污染。Kafka依靠内反应器层透过的ZeroCopy从新科技提较高精度，但是内反应器层只能区分开定时读书写出催促和追溯读书催促，随之而来硬盘读书可能会环境污染PageCache，因素定时读书写出。

2）HDD在随机读书写出过载下精度差。HDD对于以此类推读书写出友好，但是面对融合过载一幕下的随机读书写出，精度上都下降。

3）CPU和寄存器等种系统森林资源在混部一幕下的森林资源挑战情况。在美团大资料网络服务，为了提较高森林资源的较高效率，IO密集型的都由管理（比如Kafka）但会和CPU密集型的都由管理（比如定时测算需）混布，混布普遍存在森林资源挑战，因素读书写出推迟。

以上所述的情况，我们规避了具体来说的思路。比如子种系统的硬盘适度、移入FPGA减速、赞同移入作废和Consumer异步化等。种系统层的Raid坎减速、Cgroup永久性提较高较高效率等。此外，针对HDD随机读书写出精度极低的情况，我们还设计并借助了基于SSD的堆栈框架。

2、子种系统

1）硬盘适度

绘出2-2 Kafka子种系统硬盘适度

硬盘最近随之而来两个情况：

定时读书写出推迟不定较高，并不一定一定TP99催促处理流血事件短时间至不算300ms可能会但会随之而来定时需愈演愈烈购买者推迟情况，资料抽取拥堵情况等。空降兵整体而言较高效率极低，虽然空降兵用量更为充沛，但是之外硬盘不太可能会写出满，这个时候甚至但会随之而来某些中区终止都由管理。

针对这两个情况，我们转用了基于空闲硬盘应的中区移入蓝绘出，整个蓝绘出分为3步，由模组Rebalancer统筹监管：

降解移入蓝绘出。Rebalancer通过目标硬盘用到率和理论上硬盘用到率（通过Kafka Monitor上报）小需求量降解实际的中区移入蓝绘出。递交移入蓝绘出。Rebalancer向Zookeeper的Reassign链路表递交昨天降解的移入蓝绘出，Kafka的Controller收到这个Reassign流血事件以后但会向整个Kafka Broker空降兵递交Reassign流血事件。健康检查移入蓝绘出。Kafka Broker都由实际监督资料移入特殊任务，Rebalancer都由健康检查特殊任务的发展。

如绘出2-2简述，每块Disk持有者3个中区是一个相比之下适度的完全，如果之外Disk持有者4个中区，比如Broker1-Disk1和Broker4-Disk4；之外Disk持有者2个中区，比如Broker2-Disk2，Broker3-Disk3，Reblanacer就但会将Broker1-Disk1和Broker4-Disk4上除去的中区分开别移入到Broker2-Disk2和Broker3-Disk3，终于尽可能会地应有整体而言硬盘较高效率适度。

2）移入提较高较高效率

虽然基于空闲硬盘应的中区移入借助了硬盘适度，但是移入本身仍然普遍存在较高效率情况和森林资源挑战情况。紧接著，我们但会章中我们规避的具体来说思路。

规避FPGA减速思路提较高较高效率移入缓比较慢激起的移入较高效率情况。赞同移入作废解决短尾中区移入缓比较慢激起的读书写出催促所受因素情况。规避Fetcher永久性缓解资料移入催促和定时读书写出催促共用Fetcher寄存器的情况。提较高较高效率一：FPGA减速

绘出2-3 FPGA减速

如绘出2-3简述，标记以上原生Kafka版本只赞同按批递交，并不一定一定一批递交了四个中区，当TP4这个中区始终坎着只能展开时的时候，近期所有中区都只能继续展开。转用FPGA减速以后，即使TP4这个中区还没展开时，可以继续递交从重新中区。在相同的短时间内，代之以的提议所受阻于TP4没展开时，近期所有中区都没办法展开时，在从重新提议之中，TP4中区不太可能会移入到TP11中区了。绘出之中左至右推选了一个无序的短时间站内，主要用于管控并发，目的是为了和代之以的按组递交的个至不算相比较，尽量避免不必要的移入因素读书写出催促都由管理。

提较高较高效率二：移入作废

绘出2-4-1 移入情况

如绘出2-4-1简述，标记左侧刻画了因为移入因素的三种线上子类。第一种是因为移入但会激活最旧读书，定时大量的资料，在这个过程之中但会首先将资料回翻到PageCache上激起PageCache环境污染，随之而来某个定时读书的中区愈演愈烈Cache Miss，激活硬盘度进而因素读书写出催促；第二种是当普遍存在某些反常链路表随之而来移入Hang下到时，之外运维配置只能监督，比如漂量涨激活的Topic自动廓中区。因为在Kafka移入过程之中这类运维配置被严禁监督。第三种和第二种相同，它的主要情况是当目标链路表Crash，Topic廓中区也只能展开时，其他用户可能会始终忍所受读书写出催促所受因素。

绘出2-4-2 移入作废

针对上面所述的3种情况，我们赞同了移入作废机制。监管员可以调用移入作废指令，之中断正在移入的中区，针对第一种一幕，PageCache就不但会被环境污染，定时读书得以应有；在第二、三种一幕之中，因为移入作废，廓中区得以展开时。移入作废但会格外正仍未展开时移入的中区，格外正可能会但会随之而来硬盘IO出现转折因素读书写出，因此我们通过赞同圆滑格外正尽量避免大量格外正激起的精度情况。

提较高较高效率三：Fetcher永久性

绘出2-5 Fetcher永久性

如绘出2-5，紫色推选定时读书，白色推选反应时间读书。当某一个Follower的定时读书和反应时间读书包涵同一个Fetcher时，反应时间读书但会因素定时读书。因为不停反应时间读书的资料量是上都极小定时读书的，而且反应时间读书容易激活硬盘读书，可能会资料不太可能会不在PageCache之中了，上都地拖比较慢了Fetcher的拉取较高效率。

针对这种情况，我们拟定的思路叫Fetcher永久性。也就是说是所有ISR的Follower包涵Fetcher，所有非ISR的Follower包涵Fetcher，这样就能应有所有ISR之中的定时读书不但会被非ISR的追溯读书所因素。

3）Consumer异步化

绘出2-6 Kafka-Broker都于反应时间人口统计框架

在讲述Consumer异步化前，能够理解下绘出2-6展现的Kafka-Broker都于反应时间人口统计框架。Kafka-Broker下端是一个近似于的流血应用层框架，各模组通过字段收发。催促在不尽相同模组漂转时，但会共五记录短时间常指头，终于就可以人口统计出催促在不尽相同阶段的监督历时。

实际来说是，当一个Kafka的Producer或Consumer催促进入到Kafka-Broker时，Processor模组将催促写出入RequestQueue，RequestHandler从RequestQueue拉取催促展开处理流血事件，在RequestQueue之中的等待短时间是RequestQueueTime，RequestHandler实际的监督短时间是LocalTime。当RequestHandler监督完毕后但会将催促发送至给DelayedPurgatory模组之中，该模组是一个反应时间字段。

当激活某一个反应时间有条件展开时了以后但会把催促写出到ResponseQueue之中，在DelayedPurgatory字段小需求量的短时间为RemoteTime，Processor但会大幅的从ResponseQueue之中将资料拉取下来开往HTTP，标红的ResponseTime是可能会但会被HTTP因素的，因为如果HTTP交还能力极低，那么ResponseTime就但会始终小需求量减小。从Kafka-Broker的视角，不停催促总的历时RequestTotalTime，包含了昨天所有漂程都于计时千分之。

绘出2-7 Consumer异步化

ResponseTime小需求量减小的主要情况是因为Kafka原生Consumer基于NIO的单寄存器框架普遍存在不足之处。如绘出2-7简述，在Phase1，User首先发起Poll催促，Kafka-Client但会同时向Broker1、Broker2和Broker3发送催促，Broker1的资料先如数时，Kafka Client将资料写出入CompleteQueue，并立即调回，而不是继续拉取Broker2和Broker3的资料。近期的Poll催促但会本来从CompleteQueue之中读书取资料，然后本来调回，直到CompleteQueue被清空。在CompleteQueue被清空之前，即使Broker2和Broker3的下端的资料不太可能会如数，也不但会给与适时拉取。如绘出之中Phase2，因为单寄存器框架普遍存在不足之处随之而来WaitFetch这之外时长不定大，随之而来Kafka-Broker的RespnseTime反应时间测试方法大幅升较高，带来的情况是只能对都由管理下端的处理流血事件转折展开精准的追踪与分形同。

绘出2-8 加进异步拉取寄存器

针对这个情况，我们的加以改进是加进异步拉取寄存器。异步拉取寄存器但会适时地拉取如数的资料，尽量避免都由管理下端反应时间测试方法所受因素，而且原生Kafka并没约束同时拉取的中区至不算，我们在这里动手了以内，尽量避免GC和OOM的愈演愈烈。异步寄存器在后台小需求量大幅地拉取资料并摆在CompleteQueue之中。

3、种系统层

1）Raid坎减速

绘出2-9 Raid坎减速

HDD普遍存在随机写出精度极低的情况，表现为反应时间升较高，吞吐提较高。针对这个情况我们加进了Raid坎减速。Raid坎除此以外堆栈，与PageCache相同，在Raid这一层但会把资料Merge形同巨大的Block写出入Disk，更为充分依靠以此类推写出HDD的带宽，借助Raid坎应有了随机写出精度。

2）Cgroup永久性提较高较高效率

绘出2-10 Cgroup永久性

为了提较高森林资源较高效率，美团资料网络服务将IO密集型统计分析方法和CPU密集型统计分析方法融合部署。IO密集型统计分析方法在这里常指的就是Kafka，CPU密集型统计分析方法在这里常指的是Flink和Storm。但是代之以的永久性思路普遍存在两个情况：首先是科学反应器本身但会普遍存在森林资源挑战，在同一个科学反应器下，包涵的L1Cache和L2Cache都普遍存在挑战，当定时网络服务CPU较高企时但会随之而来Kafka读书写出反应时间所受到因素；其次，Kafka的HT地区性NUMA，减小寄存器访问历时，如绘出2-10简述，地区性NUMA链路表是通过QPI去动手远程访问，而这个远程访问的历时是40ns。

针对这两个情况，我们加以改进了永久性思路，针对科学反应器的森林资源挑战，我们从重新混布思路应有Kafka实质上科学反应器，也就是说是在从重新永久性思路之中，不普遍存在同一个科学反应器被Kafka和Flink同时用到；然后是应有Kafka的所有超寄存器处于同下方的NUMA，尽量避免Kafka地区性NUMA带来的访问反应时间。通过从重新永久性思路，Kafka的读书写出反应时间不于是又所受Flink CPU较高企的因素。

4、融合层-SSD从新堆栈框架

绘出2-11 Page环境污染激起的精度情况

1）故事情节和同样

Kafka依靠Linux透过的ZeroCopy从新科技处理流血事件资料读书取催促，PageCache用量充沛时资料本来从PageCache拷贝到网坎，合理提较高了读书取反应时间。但是本来，PageCache的用量常常是极低的，因为它不但会至不算一个机械的寄存器。用量极低时，ZeroCopy就但会激活硬盘读书，硬盘读书不仅上都不定比较慢，还但会环境污染PageCache因素其他读书写出。

如绘出2-11之中左半之外简述，当一个推迟购买者者去拉取资料时，见到PageCache之中没它想要的资料，这个时候就但会激活硬盘读书。硬盘读书后但会将资料回写出到PageCache，随之而来PageCache环境污染，推迟购买者者购买者推迟不定比较慢的同时也但会随之而来另一个定时购买者所受因素。因为对于定时购买者而言，它始终读书的是最从重新资料，最从重新资料按长时间来说是时不应该激活硬盘读书的。

2）同型和决策

针对这个情况，我们这边在动手提议同型时透过了两种提议：

提议一，读书硬盘时不回写出PageCache，比如用到DirectIO，不过Java并不一定赞同；提议二，在寄存器和HDD中间加进之中间层，比如SSD。众所周知，SSD和HDD相比合乎较佳的随机读书写出能力，适于我们的用到一幕。针对SSD的提议我们也有两种同型：

提议一：可以基于Linux的内反应器借助，这种提议SSD与HDD硬盘自由空间按照固定微小模版，并且SSD与HDD建立映射联系，同时但会基于资料渐进性原理，Cache Miss后资料但会按LRU和LFU替换SSD之中之外资料，各行各业近似于提议最主要OpenCAS和FlashCache。其优势是资料链路对子种系统紫色，对统计分析方法代码格外动量小，并且社区知名可视性好；但是情况在于渐进性原理并不一定忽视于Kafka的读书写出特性，而且堆栈自由空间环境污染情况并仍未给与毕竟解决，因为它但会根据LRU和LFU去替换SSD之中的之外资料。

提议二：基于Kafka的子种系统去借助，实际就是Kafka的资料按照短时间尺度硬盘在不尽相同电子设备上，对于近定时资料本来放置SSD上，针对尤为久远的资料本来放置HDD上，然后Leader本来根据Offset从近似于电子设备读书取资料。这种提议的优势是它的堆栈思路顾及了Kafka的读书写出特性，确保近定时的资料购买者催促全都部落在SSD上，应有这之外催促处理流血事件的高于推迟，同时从HDD读书取的资料不回翻到SSD防范堆栈环境污染，同时由于每个笔记段都有唯一具体的完全，因此每次催促目的具体，不普遍存在因Cache Miss带来的额外精度岗位量。同时战争初期也很相比，能够在Server下端代码上展开加以改进，涉及的开发以及测试的支出不大。

绘出2-13 KafkaSSD从新堆栈框架

3）实际借助

请注意来解说一下SSD从新堆栈框架的实际借助。

首先从重新堆栈框架但会将Log内的多个Segment按短时间尺度硬盘在不尽相同的硬盘电子设备上。

如绘出2-14之中的红圈1，从新堆栈框架资料但会有三种近似于完全，一种叫Only Cache，常指的是资料刚写出进SSD，还仍未定时到HDD上；第2个是Cached，常指资料既定时到了HDD也有一之外缓普遍存在SSD上；第三种子类叫WithoutCache，常指的是定时到了HDD但是SSD之中不太可能会没堆栈了。

然后后台异步寄存器小需求量地将SSD资料定时到HDD上。随着SSD的小需求量写出入，当硬盘自由空间大幅提较高阈值后，但会按短时间以此类推格外正距理论上短时间最久的资料，因为SSD的资料自由空间有限。日志可根据可视性敦促敏捷开启应该写出入SSD。从HDD读书取的资料是不但会回翻到SSD上的，防范堆栈环境污染。

绘出2-14 SSD从新堆栈框架技术细节提较高较高效率

4）技术细节提较高较高效率

解说了实际借助以后，于是又来看一下技术细节提较高较高效率。

首先是关于笔记段定时，就是昨天说是到的Segment，只定时Inactive的笔记段，Inactive常指的是过去并没在写出的笔记段，高于效益解决资料正确性情况。其次是动手定时以内提较高较高效率，在SSD向HDD定时时是能够以内的，同时保护措施了两种电子设备，不但会因素其他IO催促的处理流血事件。

三、大需求量空降兵监管提较高较高效率

1、永久性思路

美团大资料网络服务的Kafka都由管理于多个金融业务，这些金融业务的Topic混布在一齐的话，很无论如何造形同不尽相同金融业务的不尽相同Topic中间相互因素。此外，如果Controller链路表同时担负起资料读书写出催促，当过载相比不定较高时，Controller可能会只能适时管控类催促，例如元资料格外动催促，终于可能会但会造形同整个空降兵愈演愈烈损坏。

针对这些相互因素的情况，我们从金融业务、角色和权重三个尺度来动手永久性提较高较高效率。

绘出3-1 永久性提较高较高效率

第一点是金融业务永久性，如绘出3-1简述，每一个大的金融业务但会有一个独立的Kafka空降兵，比如外卖、到芒果啡店、优选。第二点是分角色永久性，这里Kafka的Broker和Controller以及它们忽视的模组Zookeeper是部署在不尽相同机械上的，尽量避免中间相互因素。第三点是分权重，有的金融业务Topic可视性类别特别较高，那么我们就可以给它划定到VIP空降兵，给它格外多的森林资源举例来说去应有其可视性。

2、全都传输追踪

随着空降兵需求量减小，空降兵监管碰到了一系列情况，主要最主要两层面：

1）Broker下端反应时间测试方法只能适时加形同其他用户情况。

随着催促量的减小，Kafka理论上透过的Broker下端量值的TP99甚至TP999反应时间测试方法都可能会只能加形同短尾反应时间。 Broker下端的反应时间测试方法不是下端到下端测试方法，可能会只能加形同其他用户的普通人情况。

2）损坏潜意识和处理流血事件不适时。

绘出3-2 全都传输追踪

针对这两个情况，我们规避的思路是全都传输追踪。全都传输追踪抽取和追踪Kafka反应器心模组的测试方法和笔记。全都传输追踪框架如绘出3-2简述。当某一个HTTP读书写出催促不定比较慢时，我们通过全都传输追踪可以短时间内导向到实际比较慢在哪个即场，全都传输测试方法追踪如绘出3-3简述。

绘出3-3 全都传输测试方法追踪

绘出3-4是一个根据全都传输测试方法导向催促转折的请注意，可以可知都由管理下端RemoteTime占比最较高，这说是明历时主要花掉在资料拷贝。笔记和测试方法的解析都由管理可以自动定时潜意识损坏和比较慢链路表，大之外的损坏（寄存器、硬盘、Raid坎以及网坎等）和比较慢链路表都不太可能会赞同智能化处理流血事件，还有一类损坏是蓝绘出外的损坏，比如中区多个日志挂掉随之而来的不能用，移入Hang下到以及非预料的偏差笔记等，能够人工牵涉到处理流血事件。

绘出3-4 全都传输追踪测试方法请注意

3、都由管理休眠监管

绘出3-5 都由管理休眠监管

美团线上Kafka的都由管理器需求量在万分级，随着都由管理需求量的减小，我们对都由管理和机械本身的监管，也在大幅迭代。我们的智能化运维种系统并能处理流血事件大之外的机械损坏和都由管理比较慢链路表，但对于机械和都由管理本身的监管是割裂的，随之而来普遍存在两类情况：

完全句法普遍存在歧义，只能普通人体现种系统完全，常常能够借助笔记和测试方法去认出普通人种系统应该卫生或者反常。完全不全都面，反常Case需人工牵涉到处理流血事件，误配置后果极大。

为了解决这两类情况，我们加进了休眠监管机制，确保并能普通人体现种系统完全。休眠监管常指的大概都由管理开始运行到机械报废终止都由管理的全都漂程监管，并且动手到了都由管理完全和机械完全联动，无需人工定时格外动。而且从重新休眠监管机制的完全格外动由特定的智能化运维激活，严禁人工格外动。

4、TOR容灾

绘出3-6 TOR容灾同样

我们从廓建工程借助的某种程度，可分阐释了理论上另类绘出数学模型框架的基本范式，借助一套非标准框架，以期涵盖多种GNN框架。一般而言按照绘出的子类（都是绘出、非对称绘出和动态绘出）分别辩论。

绘出3-7 TOR容灾

TOR容灾应有同一个中区的不尽相同日志不在同一个Rack下，如绘出3-7简述，即使Rack1整个愈演愈烈损坏，也能应有所有中区可视。

四、仍预见新发展

过去一段短时间，我们围绕提较高都由管理下端的读书写出推迟动手了大量的提较高较高效率，但是在都由管理较高可视层面，过去有一些岗位能够展开时。仍预见一段短时间，我们但会将重心放置提较高鲁棒性和通过各种量值的永久性机制缩小损坏邻接。比如，让HTTP适时对一些损坏链路表展开不依，在都由管理下端通不必要字段的方法永久性反常催促，赞同都由管理下端热下盘，网络层适时反压与接入等等。

另外，随着美团定时测算金融业务整体而言的发展，定时测算涡轮引擎（近似于如Flink）和漂硬盘涡轮引擎（近似于如Kafka）融合部署的来进行日渐无法忽视于金融业务的需求。因此，我们能够在保持理论上效益不不定的完全对Kafka展开独立部署。这就意味着能够用格外不算的机械（在我们的金融业务来进行下，用这样一来1/4的机械）来承载不不定的金融业务漂量。如何在保障都由管理安定的完全，用格外不算的机械送走金融业务催促，也是我们陷入的同样之一。

最后，随着碧原生趋势的来临，我们也在探险漂硬盘都由管理的上碧之路。

作者丨海源、仕禄、肖恩、鸿洛、启帆、胡荣、李杰等

来源丨政府会号：美团从新科技团队（ID：meituantech）

dbaplus群组瞩目广大从新科技人员投稿，投稿邮箱：editor@dbaplus.cn

关于我们

dbaplus群组是围绕Database、BigData、AIOps的企业级专业人士群组。资深大芒果、从新科技熟食，每天精品原创篇名推送，每周线上从新科技互动，每月线下从新科技沙龙，每季度Gdevops&DAMS行业大但会。

重视政府会号【dbaplus群组】，获取格外多原创从新科技篇名和合辑工具上传

。

沈阳妇科专科医院哪家好
视疲劳滴哪个滴眼液好用
成都试管婴儿做方法
兰州白癜风医院哪个比较好
南昌比较好的男科医院

上一篇： 3·15消费维权直播 | 索尼100总重8K原装进口电视，直播带货1999元！已拼10万+，疑似“三无产品”

下一篇：俄称将公布英国参与炮轰黑海舰队的证据