文章导读:
- 1、日志分析平台哪家好呢?袋鼠云日志分析服务和同行企业相比怎么样?
- 2、面对海量日志 合规性日志管理和安全审计要怎么做
- 3、智能运维是如何抑制告警风暴的?
- 4、网络故障的分类有哪些?
- 5、想了解一下IT自动化运维
- 6、海量日志分析怎么处理
日志分析平台哪家好呢?袋鼠云日志分析服务和同行企业相比怎么样?
具体要看企业需求,也可以倒过来先看看他们能为企业做什么,是不是你们想要的。那么袋鼠云日志分析能为企业做什么?
1)帮助用户进行海量日志集中采集、管理、分析,
产品可根据客户日志内容及需求快速抽象实际使用场景,以独立应用、仪表盘、告警等方式呈现,帮助企业完成业务监控分析、异常定位等,从而提升企业故障发现率、降低企业运维成本。
2)同时响应国家政策,满足网络安全法律法规(网络日志必须保存6个月以上)。
3)降低企业客户直接使用ELK开源产品的部署和使用成本(很大一部分群体 都接触过ELK,能明白配置、维护的学习成本)。
真实案例:某银行故障处理,需在机房排队等候,然后逐个系统排查、定位,通常需花费一下午或更长时间,通过云日志平台集中对日志进行分析,配置对应可视化监控场景后,故障处理仅需几分钟或更短时间,极大提升故障发现率,及运维效率。
区分对应的用户群体,针对性介绍,有的客户关注日志管理,那就着重介绍我们的可视化配置采集、数据源管理,有的客户关注日志分析、业务监控,就针对性介绍我们的数据解析、监控告警、应用生成过程,云日志并非什么都能做,也不能够什么都去做,找到对应的客户、对应的诉求,这个阶段不求大而全,若是有多个客户提及而确实缺乏的,再带回来考量;
袋鼠云云日志较各类型竞品是有差异的:
1)ELK类开源产品:配置、维护成本极高,功能单一,性能无法保障,云日志是一款相对成熟的商业化产品,配置均为可视化界面方式,提供标准数据自动解析,应用场景模版,且上层应用为企业服务过程中针对性的解决方案,如监控告警、权限管理、数据源管理、日志投递、数据脱敏等等,以及性能方面经过金融级客户环境历练可承载TB级别数据量。
2)日志易国内专注型产品:功能层面大同小异(运维行业ITOA方面做过更多探索,实际客户案例下我们会显弱势,数据可视化是日志易一弱点),可着重介绍公司整体能力,数据中台架构能力、数据可视化案例及能力支撑。
3)阿里云等云平台旗下日志产品:该类型产品多为管道性质,在数据采集转发、不同渠道数据源接收的能力上较强,价格低廉,但难以满足整体的日志分析平台需求,上层应用匮乏,云日志是完整的日志分析平台,提供数据集成—清洗、解析—上层应用搭建,完整的解决方案。
4)Splunk之类大外企:功能强大,行业影响力很深,不能硬刚,外企在中国市场灵活度不够,无法针对国内企业实际情况做相应调整,且价格昂贵。
面对海量日志 合规性日志管理和安全审计要怎么做
企业中的主机、服务器、防火墙、交换机、防毒墙、无线路由等等要维护的设备越来越多,日志管理与安全审计的工作也变得越来越复杂。
随着很多中小企业公司慢慢发展,变成了上市或准上市公司。以前单一的防毒、防黑简单要求也细化到了集身份认证和日志管理、安全审计、法规遵从等等立体化的必须选项。比如国外有很多法律法规需要上市公司遵从。很多海外上市的公司也面对着各种纷繁复杂的法律法规。
Verizon Business公司风险小组发布的《2010年数据泄漏调查报告》里面有一些令人惊讶的统计数字和细节内容。比如说,2010年报告声称:"我们一再发现,虽然日志十有八九可供企业使用,但通过分析日志来发现数据泄漏的仍然不足5%。"由此看来,日志管理分析和安全审计的重要性还远远没让那些企业所理解。
智能运维是如何抑制告警风暴的?
通常智能运维中的告警收敛场景,以机器学习算法为驱动,对海量的告警事件进行降噪和关联分析,辅助根因定位并可沉淀故障处理的知识,从而提升企业的运维效率,降低运维成本。 告警产生后,AIOps系统通过算法甄别 内容相关性(重复性、相似性)、时序相关性和拓扑相关
性 事件来进行告警事件的自动化抑制。这类收敛抑制,往往能得到99%的告警压缩率,极大地提高了告警有效性。
在一个完整的智能运维告警产品里,除了告警收敛,还可以基于故障传播链及拓扑信息 ( 可选 ), 智能发现突发故障场景;基于告警“熵值”算法,实现告警的动态优先级推荐;通过时序以及拓扑关系定位故障场景根因,并进行根因标记。当这些都可以完成时,由告警事件一步步引导的根因定位和排障,才是真正智能运维发挥了作用。
网络故障的分类有哪些?
网络故障共分为两类:
1、物理故障:物理故障指的是设备或线路损坏、插头松动、线路受到严重电磁干扰等情况。
2、逻辑故障:逻辑故障中最常见的情况就是配置错误,是因为网络设备的配置原因而导致的网络异常或故障。
扩展资料:
典型案例:
1、不能访问服务器
要先测试一下这一故障是否只影响一台工作站,这可以通过其他工作站访问服务器来证实。
如果有类似故障的工作站出现在同一网段或连接在同一交换机上,那么就要分析这一网段子网掩码是否设置正确,交换机是否正常工作。
除此之外,还要看一下服务器是否禁止了这一网段工作站的服务。
2、传输上百兆数据时出现“网络资源不足”的提示
按常规,网络故障一般不排除以下几点:网卡有问题、水晶头做得不规范、网线有问题、网卡驱动或网络协议有问题等。
但是根据故障现象来看,以上猜测都可以排除,因为任何一个地方存在问题,就不可能在微机之间进行数据传输,从而可以判断问题应该出在环境因素上。
由于大量的数据传输需要频繁的数据读取,这就要有一个相对平稳的传输环境,而网卡附近有干扰时,这种平稳的环境就会被破坏。
一般要确保网卡不插在离显卡很近的插槽上,现在的显卡一般都带有风扇,而显卡风扇将影响到网卡的工作,尤其是显卡在频繁工作时,影响将更加明显。
把网卡拔下来,插到离显卡一个较远的插槽上,即可解决大量数据传输时出现的问题。
参考资料:
百度百科-网络故障
想了解一下IT自动化运维
1、通过监控告警引擎,实现应用软件、中间件、数据库、主机、网络、存储、云资源的全方位监控告警。
2、通过自动化运维调度引擎所提供强大的自动化运维能力,可通过平台完成巡检、性能分析、文件下发、故障诊断等自动化运维任务。
3、通过大数据技术,对海量日志信息进行收集存储,并提供实时搜索功能,辅助快速定位故障,同时通过对海量日志的分析,得出系统运营情况。
这是目前我们的自动化运维平台可以做到的
海量日志分析怎么处理
海量日志分析有这几个关键问题zd:
1、采集海量日志(对技术、性能是考验)
2、采集后的数据结构化及存储(后期完成高复杂度的分析)
3、最后才是海量日志数据的搜索分析
实现海量日志分析,目前采用较多的方式是日志易、ELK等。
两者的区别点在于一个属于商业化产品(简单配置、操作方便、功能强大、灵活等),ELK产品则是开源(免费、需要部署多个产品、需要二次开发、耗费人工成本)。
)2、采集后的数据结构化及存储(后期完成高复杂度的分析)3、最后才是海量日志数据的搜索分析实现海量日志分析,目前采用较多的方式是日志易、ELK等。两者的区别点在于一个属于商业化产品(简单配置、操作方便、功能强大、灵活等),ELK产品则是开源(免费、需要部署多个产品、需要二次开发、耗