由于对定时任务所消耗的资源没有正确的预估,内存被过多的占用,致使数据库服务被迫下线,并导致节点宕机。
时间线
2018.9.13 14:26 日志显示数据库开始出现内存访问错误
2018.9.13 20:36 日志显示数据库服务下线
2018.9.14 10:00 发现无法连接节点,访问ssrpanel显示错误信息=》数据库拒绝访问,并发现页面显示了数据库的明文密码,遂手动下线节点服务器
2018.9.14 10:24 节点服务器上线
2018.9.14 10:30 SSRPanel服务上线
目前状态
已经恢复节点和管理面板
原因调查
由于US节点在SSRPanel外同时还运行着一个定时任务,设定的频率为5分钟一次,缓存的数据量逐渐累计并占用了大部分的内存和swap空间,导致数据库服务因为无法取得所需内存而下线,并进而导致SSRPanel和节点都无法与数据库通信,无法使用服务。
事件影响
SSRPanel服务下线10.5小时
另外,由于忘记关闭debug模式,导致SSRPanel的数据库及用户名密码在这10.5个小时中以明文方式显示在任何访问SSRPanel页面的人面前。当然,因为已经考虑到了会遇到这种情况,所以在配置节点通信的时候并没有在防火墙上对外开放3306端口,而是用Wireguard建立了内部网络,所以通过使用页面上的用户名和密码访问3306端口并不能连接数据库。现在已经关闭了debug模式。
There are no comments yet