logo
Published on

记录一下这个月发生的灾难

Authors

事情从什么时候开始发生的呢?
其实很早以前就有先兆了,有一天家里的外网突然断了
我排查了一下,发现是我的软路由系统盘出现了坏道,所以读写IO出了问题
当时重启了一下就好了,也和chatgpt整理了后续方案
备份虚拟机,买块新的nvme,再迁移过去
但是又不是不能用,而且总觉得自己的软路由系统盘也没什么东西
重新折腾一下也可以立项为一件事情,所以我懒癌犯了,就直接没管
毕竟当时还有很多别的事情要处理,而硬盘也在那个时候开始涨价了
然后快进到今年3月的一天,可能还是2月份的事情?openclaw小龙虾火热
我也投身于养虾热潮,编译源码,用claude/chatgpt修复bug,提交PR
刚出来的时候我也看过一眼,觉得和之前自己的项目类似,没有新的东西,打算不管的
后来一想,既然用户群体这么大,我接触一下也不是坏事,可能可以找找机会
说实话,还是落后了,如果那个周末我再跟进一下,我那个PR肯定被合了,到时候也能吹上一下
结果一个周末没管,被别人抢先了
由于openclaw权限的问题,不能随便安装在一台机器上,所以我的软路由PVE环境成为了最好的选择,我把它放在一个lxc容器里面,再加一层docker来做隔离
安全是安全了,但每次改动都要重新build镜像,过程中会产生一些临时镜像,对于我当时的系统盘空间有点压力
所以为了腾挪空间出来,我打算把一些其他docker容器的文件放到另一块存储硬盘中,这应该是很早以前我就计划好的,但是我一直没有做
我首先迁移的就是一个管理本子的服务器,里面有大量收藏的本子,都是我人工检阅,xp的表现
然而在移动这些细碎文件的时候,我的系统盘直接挂了
当时的表现是读写出了大量的IO ERROR,好在我的另外两台负责联网的VM都能继续工作,而我的另外一块单独的存储硬盘还安全
在我做了些检查以后,确认这块硬盘没救了,vm也没法备份出来,于是决定放置几天,先去买一块m2,
想起来了,那还是2月份的事情,还没有复工呢,我还在闲鱼找m.2.硬盘,后来还是京东买了一块
然后就是噩梦的开始
京东买的那块,安装上pve以后就开始不断的掉盘,基本坚持不到48小时,就这样又折腾了一段时间,还是受不了了,毕竟之前重来没有这么不稳定,怀疑是兼容性问题,于是退了,
又在闲鱼收了一块三星的,闲鱼这块呢,一开始就安装不上系统,看了下是温度过高,拿个风扇吹着才能稳定运行,第一天各种丝滑,但是依旧还是没能撑过48小时,这时候就开始出现各种网口失去响应/内存错误/系统掉盘
我跟着gemini/chatgpt,各种修改内核参数,开关各种特性,然而并没有软用
甚至其中有一次操作失误,把我的存储盘上的一个分区删了,那里是immich的备份盘和缩略图转码视频,immich是一个照片管理服务,虽然删掉的东西还是有办法回来的,但是又会牵扯到一个麻烦的1T数据的来回传输的问题,非常讨厌,于是我又花了一点时间在数据还原上,与此同时新的系统盘还是不断掉盘
后来我实在忍不了了,干脆放弃nvme了,直接使用我的存储用的ssd当作系统盘
好消息,不掉盘了,但是网口失去响应导致cpu卡住的问题还是存在,而且调试起来更麻烦了
时不时的就连管理端口都进不去了,实在没办法的我,只能找厂家去检测一下,看看问题在哪
结果怎么的,没查出任何问题,维修劝我直接闲鱼出了,反正他的测不出问题,别人也测不出的
这我还能说啥呢,等过会收到寄回来的机器,我再给他最后一次机会,如果还不行,就直接闲鱼吧,让我看看下一台机器用什么
所以我总结一下,我用的是n100的小机器,装的是pve,all in one,虚拟出两台vm,ikuai负责拨号,openwrt当旁路由,在一个lxc容器用来跑各种docker服务,以前还玩过windows直出,没啥用性能一般
我很喜欢pve这个方案,相当于给了这台小机器很大的可能性,你说这些功能一台linux能不能做?我觉得肯定是可以的,唉?要不过会试试这个方案能不能跑?可能问题出在pve本身的调度上?
先写到这吧,我的机器到了,继续折腾去吧