顺网虚拟盘2000的一些问题和解决思路
先说下两个最严重的问题,基本上近期大部分嚷嚷卡机的,均是这两个问题交叉影响导致的。1.“日志爆炸”bug
当有错误发生时,2000版本的虚拟盘日志会持续输出到log文件。为了不错过异常信息,输出的日志很详细,而且是直接输出,当发现严重错误时,会短时间持续写到log文件,产生几百MB到十几个GB的日志问题,造成程序安装所在盘体的过载。
而顺网官方的推荐方案恰恰是一块500G的SATA普通机械盘,做系统+程序安装+IMG存放。这样做平时还好,一旦出现上面的日志涌出的问题,直接连累IMG读取困难,进而造成已经运行的客户机会出现秒卡、定屏,启动的客户机启动困难,白条,启动失败等等。因此这个bug最大问题在于会放大其他一些诸如 读盘 写盘超时引起的故障。
这个问题1100同样存在,但并不严重。因为1100服务端的IMG缓存以后,不再频繁读取IMG文件,而2000不管服务端缓存设置多大,对IMG盘依旧有持续读取。
2100测试版本,从4.25以后,已经解决了这个问题。
建议的解决办法:将IMG文件独立物理盘存放,不再受日志爆炸的影响。如暂时条件不允许,可以将服务器系统盘额外分一个区,单独存放IMG。
如果是同三层做在一起的服务器,建不用使用E盘为IMG 盘,避免三层配套程序默认放一些文件到IMG盘,造成干扰。
2.回写盘过载
这个问题在于一些仍在使用SAS/迅猛龙/普通SATA等机械盘的服务器上尤为常见。一些NXP\MZD\锐起改造而来的顺网无盘基本百分百了。
故障的具体表现为,部分使用中客户端卡机、蓝屏,由于日志爆炸bug的放大作用,常常进而表现为集体卡顿,启动困难,严重时集体挂掉。
故障起因:
2000版本较于1100系统虚拟盘的性能提升,其中一点在于取消了对客户端16MB/S的回写最大速度限制,进而“改进”为客户机回写超过5G以后,开始限速回写,顺网官方将其美其名曰“智能限速”。
顺网的写盘推荐是分盘回写,缘由是这样一方面可以提升写盘总体性能(因为RAID0写盘性能较单盘虽有提升,但并非1+1〉2),另一方面单个写盘负责一部分客户机,可靠性高,单个写盘故障只影响到它当时负载的客户机,RAID0的话 ,单个写盘挂了,整个RAID0集体崩盘。
很可惜,只是看起来很美。顺网的分盘回写并不能实现实时写盘性能上负载均衡,仅仅是简单且肤浅的,将每个盘负载的客户机数大体相近,算是“带机数负载均衡”。并且是,从开始网吧开始营业有负载开始,从第一块写盘开始带机,一些写盘不少的服务器,常常第一块性能老化最快,网吧人少的时候,甚至后面一两个写盘没使用。
当某个写盘带的机器里,突然有客户机短时间产生大量回写,直接造成服务器端对应写盘过载,并拖累其他同一盘带的客户机,所有的客户机的回写读写操作提示超时,报错,输出日志没完没了。
本来就是部分写盘的小问题,又让日志爆炸给放大了。
好了,日志爆炸以后,完美风暴形成了。
推荐的解决办法:
1.回写盘限速,用记事本打开\iCafe8\Diskless\Diskless下的ClientConfig.xml,将所有<WriteSpeed>0</WriteSpeed>替换为<WriteSpeed>16</WriteSpeed>,16表示16MB/S的回写峰值速度,有效值是16的整数倍,最低16.配置完后保存文件,重启服务。多台系统虚拟盘服务器的情况,只需要对主服务操作。
2.回写盘RAID0,对于一些改造过来的网吧,尤其是服务器已经用了一年多以上的,机械盘本身的性能已经衰减到差不多,客户机限速到16,依旧提示过载的,可以考虑所有写盘RAID0.虽然会减少写盘总体带机量,但起码不至于再人多人少都可能会卡。写盘数越多,越有必要RAID0.一些采用 40G G3之类的 SSD回写方案 ,也建议R0回写 。
RAID0的可靠性差,确实有,但远远低于单个写盘过载的概率,两者权其轻重,还是RAID0. 至于RAID0性能不如单盘,SSD RAID0基本不存在此问题,机械盘由于顺网回写算法的问题,回写盘较多的情况下,经常有部分盘闲置,也可以考虑通过RAID0回写,来负载均衡到每个盘上,如果担心可靠性太差,可以采取每个两个组建一个R0.
3.硬件升级,预算和网吧生意能支撑的范围内,尽可能扩大客户机和服务器内存,尽量使用SSD回写。SSD回写方案,按照最低单台预留2G回写空间,计算总容量 ,尽量采用大容量的单个写盘,减少写盘数数量,当然256/240G以上的SSD就不至于考虑了。
补充一下,服务器端系统虚拟盘缓存,可不是诸多蠢货级版主吹嘘的那样2G够用,多了没效果,缓存大了,实际写入写盘文件会少很多,当然压力也会很多。
此问题的彻底解决,需要顺网对分盘回写做到实时负载均衡,而不是现在这种懒省事的办法。缓存算法上,现在也存在很大问题。
内测版本2100 @4.28貌似做了些改进。
排查问题的服务器这部分的思路: 性能计数器看磁盘负载,硬盘哨兵看硬盘SMART信息。
彻底检查硬盘还是要用HDD SACN、Victoria4.46,整体扫描一遍盘体,看看绿块、红块,一般SATA 普通盘 、企业盘、迅猛龙有了绿快的话,就该考虑换掉,SAS盘用HDD SACN看下G-list,有没有成长坏道。如果是新接手的旧网吧改造,直接ERASE一遍所有盘。写盘有绿块的情况下,修复下大概也就能稳定一月多。
此外,最近天热了,柳絮乱飞,记得给服务器除尘,装个测温软件,别让硬盘在四五十度持续工作。
近期其他常见问题:
1. INTEL 520 SSD如何
建议短期内还是G3系列,SF主控产品高强度工作后性能剧烈下降是个惯病,520有配套的toolbox,虽然可通过定期“优化”进行性能回收,但间歇性的性能波动过大并不好,况且SF的铁杆OCZ已经开始在部分高端产品上使用Marvell主控了,SF主控的产品还是谨慎选择的好。
2. 关于SATA3接口YY党的纠结问题
弄了个SATA3写盘(一般都是YY得很爽的520),服务器主板不带,要不换主板啊,加SATA3拓展卡之类的。实际上对于写盘而言,很难有100MB/S以上的持续写入,绝大部分时候都是些零散的读写,SATA3 SSD@SATA2接口 做写盘并没有多大实际影响。SSD缓存的话,就有必要上SATA3,对于ASUS的服务器主板,SAS2008的卡,支持SAS2,相当于SATA3的服务器版,SATA3 SSD接上SAS就行了。
3. AHCI 能干吗用,如何开启AHCI?
都有SkyIAR在线驱动注入工具了,还有一帮SB纠结怎么开了不蓝屏。还有傻蛋认为只有SSD才飞得开启AHCI,机械盘开了也没用云云~~看不懂?问百度。
开启 AHCI能改善磁盘的IOPS,也就说并发操作能力。无盘这块碰到就开启吧。
4. TRIM问题,服务器系统对SSD tirm支持与否,目前就08R2一个服务器系统支持,08也是不支持的,当然还在beat的Windows Server2012也有支持。Trim可以减少SSD的写放大,也就是减少磨损,延缓性能下降速度。
TRIM和toolbox没直接关系,如果服务器操作系统支持TRIM了,toolbox优化间隔可以长点,就这么简单。
5. 大部分无盘施工人员不会用甚至根本不知道性能计数器。
这个是无盘 虚拟盘问题判断的重要工具,务必熟悉掌握。正好应验那个说法:无盘网吧的最终效果,多半看施工者的水平,软件都差据不大。一个越是SB的人越难承认和发现自己是个傻B,近些天通过给这些人打交道, 发现共同之处是:抱怨+懒=抱怨顺网无盘差,但也说不去哪里差,要么照搬论坛上一些知识库,不会思考,也懒得思考学习。告诉他解决措施,不做。
6.万兆骨干网的实际效果如何,
大部分受限于服务器端CPU,实际上都仅仅算是4Gpbs,这个时候D6C之类的鸡肋主板,食之有味的地方就出来了,双路四核还是有必要的。最新的E3 单路平台效果会更好些。
7.H3C S5000P交换机的鸡肋作用~
此系列交换机常见型号:5016P 5024P 5026P。无论升级到什么版本固件,性能表现很一般,稳定可以,性能难说优秀,主要是单机峰值速度偏低。还有一点,tunk端口H3C流控记得打开。
8.QQ以及QQgame游戏异常
主要是母盘中运行了QQ之类的程序,导致系统保留了一些注册表、dll注册信息。解决办法,临时去掉挂载的游戏虚拟盘,用注册表吸尘器、优化大师之类的清理注册表以及冗余dll,最靠谱的办法自然是重做系统了。
9.PNP信息丢失
表现为突然有部分客户机没声音(声卡驱动丢失)、显卡驱动丢失。服务器内存瑕疵,仔细清洁下内存金手指和插槽一般都能过来,如果是物理损坏,只好换硬件了。
页:
[1]