it-swarm.cn

最佳系统管理员事故

我正在寻找有关您遇到的系统管理员事故的有趣故事。删除CEO的电子邮件,格式化错误的硬盘等。

我将添加自己的故事作为答案。

87
Alan H

我发现linux“ killall”命令(杀死与指定名称匹配的所有进程,对于停止僵尸很有用)和solaris“ killall”命令(杀死所有进程并停止系统,对于停止生产服务器非常有用)之间的区别很有趣。在繁忙时间的中间,让您的所有同事嘲笑您一周。

133
Tim Howland

我负责我们的公司Web代理,当时是Netscape的产品。在管理表单中玩耍时(这是一个基于Web的界面),有一个大按钮(我发誓是红色的),它表示删除用户数据库。没问题,我想。让我们看看当我点击它时,它给我的选择是什么。如果没有选择,肯定会出现确认提示。

是的,没有确认。没有选择。没有更多的用户。

因此,走到Solaris Sysadmin先生那里,他说我非常需要从磁带还原,他回答说:“我不备份那个盒子。”

“呃,再来一次。”​​我反驳道。

“我不备份那个盒子。它在我要添加到备份循环中的清单上,但是我还没有解决。”

“该服务器已经投入生产将近8个月!”我尖叫。

他回答说耸肩。 “抱歉。”

73
squillman

很多年前,我工作的公司有一个客户端,该客户端每晚将其NT 4.0 Server备份到 Jaz驱动器 (例如大容量Zip磁盘)上。

我们设置了一个批处理文件,该文件作为计划的工作在一夜之间运行。每天早上,他们从驱动器中收集昨晚的磁盘,在晚上离开之前,他们将按顺序插入下一个磁盘。

无论如何,批处理文件看起来像这样(Jaz驱动器是驱动器F:)...

@echo off
F:
deltree /y *.*
xcopy <important files> F:

无论如何,有一天晚上,他们忘了放磁盘。更改驱动器F:失败(驱动器中没有磁盘),并且批处理文件继续运行。批处理文件的默认工作目录? C:。我第一次见过要备份的服务器的备份例程destroy

那天我学到了一些有关系统管理(和异常处理)的知识。

吉姆.

PS:解决办法? “ deltree/y F:\ *。*”。

66
Jim OHalloran

root @ dbhost#find/-name core -exec rm -f {} \;

我:“您无法进入?好。数据库名称是什么?”

铜:“核心。”

我:“哦。”

61
Dave

我喜欢每个人都以“我年轻/绿色的时候”来证明自己的故事的方式,就像他们永远不会再做那样。即使是经验最丰富的职业人士也可能发生事故。

我自己最糟糕的时刻是如此糟糕,我仍然感到心。

我们有一个SAN,上面有生产数据。对公司很重要。我的“导师”决定扩展分区以释放一些磁盘空间。您能看到它的去向吗? SAN)软件可以在生产时间内实时完成此操作,没有人会注意到。警钟本应该已经响起,但明显不发声。他说他做到了”之前没有问题。但这就是问题-他让我点击了表示“您确定吗?”的按钮!当我刚进入公司时,我以为这个家伙知道他在说什么。好消息是LUN扩展了,坏消息是……当我开始在Windows机器上看到磁盘写入错误时,我知道有个坏消息。

我很高兴我穿着棕色的裤子。

我们不得不解释为什么午餐时间1TB的数据消失了。那真是非常糟糕的一天。

实际上,这是一个好原则-在做您怀疑的事情之前,想象一下如果发生问题必须向管理层解释。如果您想不出一个好的答案来解释自己的行为,那就不要这样做。

60
PowerApp101

当工作时间开始说Nagios无法连接到非关键服务器时,Nagios对我们进行了ping操作。好的,爬到服务器机房。这是一台旧服务器,是在02年购买的Dell 1650,我们知道1650一直存在硬件问题。 PFY按下电源按钮。没有。再次击中它并保持五秒钟以“强制打开电源”……这将覆盖BMC的错误保护,因为如果没有DRAC,就无法在不打开机箱电源的情况下检查BMC日志。

机器启动POST,然后再次死机。我站在上面,走了,“我闻到烟味。”我们将服务器从其滑轨上拉出,其中一个电源感觉很热,因此PFY将其拉出并准备将箱子重新盖好。我说:“不,这不是电源烟雾,是主板烟雾。”

我们再次打开盒子,寻找燃烧气味的来源。产生了一个电感线圈和一个电容器,使主板上的稳压器炸毁,并在所有物体上喷洒了熔融的铜和电容器粘胶,使一堆东西短路,基本上造成了很大的混乱。

对我来说,最糟糕的是认识到我抽了足够的硬件来识别烧毁的主板和烧毁的电源之间的区别。

54
Karl Katzke

三天前(严重),我远程登录了学校服务器,并在Windows Server 2008文件服务器上安装了Service Pack 2。

我决定将所需的重新启动安排在深夜,届时教师将不会登录完成他们的年终报告卡。我输入了类似的内容:

 在23:59“关机-r -t 0” 

...可能效果很好。

但是后来我第二次猜到了自己。我的“关机”语法正确吗?我试图通过键入查看使用帮助

 关机/小时 

...并立即失去了我的RDP连接。惊慌失措,我用谷歌搜索语法。快速搜索显示,Server 2008版本的关机包含/ h开关,(您可能已经猜到过)该开关可使计算机进入休眠状态。

老师在几分钟之内开始打电话给我,报告他们无法打开或保存他们一直在处理的成绩单。由于我不在现场并且服务器室被锁定,因此我不得不直接打电话给学校校长,并带领她完成重新启动机器的过程。

今天,我以道歉的形式向大家带来了自制饼干。

47
Brent D

在上一份工作中,我们有一个出色的本地系统,该系统可以记录和存档进入,离开或停留在公司内部的每一封邮件。

吹走了整个邮箱?没问题!寻找某人一周/一个月/一年前发送给您的邮件,但您不记得是谁发送的或主题是什么?没问题!我们将从2月开始将您的所有内容重新分发到一个特殊的文件夹中。

在某个时候,公司首席执行官有必要监视怀疑是竞争对手和内部销售人员之间的邮件。因此,我们设置了一个脚本,然后每天晚上运行,然后将前一天的相关邮件发送给CEO。没问题!

大约一个月后,出现了双重紧急问题的消息从高处传下来。似乎首席执行官在阅读发送到$ OTHERCOMPANY的邮件列表时,发现了以下内容:

To: [email protected]$OTHERCOMPANY
From: CEO
Subject: CEO has read your message (subject line here)

自然,首席执行官是所有人的重要人物,他忙于在Outlook中单击所有那些“发送已读回执”对话框,并已将其客户端配置为仅发送所有这些。监视筛选器捕获的消息之一具有已设置的读取-接收请求。猜猜Outlook是做什么的?当然,增加了“秘密”监控的难度。

我们的下一个任务:将规则添加到邮件过滤器中,以阻止从CEO到该公司的传出已读回执。是的,这是最简单的方法。 :)

37
MikeyB

我的是大约10年前,那时我还没弄湿。我很高兴在所有程序员计算机上安装备用电池。他们还希望加载该软件以警告断电并正确关闭。

因此,我首先将其设置在计算机上以测试所有内容,并确保所有功能均正常运行。因此,我断开了电源线,屏幕上出现了该消息。 “外部电源丢失,开始系统关闭”。

所以我想,嘿,很有效。但是出于某种奇怪的原因,我什至不记得了,它以网络消息的形式发送了该消息,因此公司中的所有200多台计算机都收到了该消息,其中有100多个用户是程序员。

是的,谈论群众狂!

我在那个地方低头了一段时间!

36
jherlitz

我经常在Solaris机器上使用“ sys-unconfig”命令来重置机器名称服务I.P。地址和root密码。我在用户系统上,登录到建筑物安装服务器并以root用户身份进行了查找,然后忘记了我已登录另一台计算机(非描述性的“#”提示),运行了“ sys-unconfig”命令。

# sys-unconfig     
        WARNING

This program will unconfigure your system.  It will cause it
to revert to a "blank" system - it will not have a name or know
about other systems or networks.

This program will also halt the system.

Do you want to continue (y/n) ? y

Connection closed

#

该“连接已关闭”消息慢慢变成了紧急情况...运行该命令时我登录了哪台计算机。

最糟糕的部分不是同事给我的辛苦,而是一个月后我做了同样的事情。

35
Alan H

我有一个很好的。诚然,这早于我作为系统管理员的时间,但仍与技术有关,因此我想添加一下。

过去,我当时是美国空军的卫星通讯/宽带技术专家。我刚从技术学校毕业,后来发现自己定居在韩国。到达车站后不久,一个机会就出现了,与曾在这里住了一段时间并实际在某些实际设备(即“生产”)设备上工作的“大佬”一起向南走。

我和机组人员一起摔倒了,作为一个急切的年轻技术,他感到非常吃力,对我有机会获得可以传递实时军事语音和数据流量的实际设备的前景感到非常兴奋。

为了让我慢慢上手,他们递给我一本手册,转到预防性维护部分,并向我指出了装有四个大型数字多路复用器的四个机架的方向。设备足够简单,我们在技术学校学习了相同的设备。

手册第一页阅读; “为数字多路复用器通电。将两个后部开关都转到ON位置,等待设备上电,然后开始测试。”我抬起头,已经有力量了!

我肯定陷入了困境。不知道如何进行,我尽我最大的努力,“嗯。

他看着我,笑了,“不,不,没关系。您可以忽略清单的那一部分。”然后,当他注意到我脸上的表情时(由于我们在学校里教过NEVER,所以永远不要忽略清单的任何部分,如果这样做一定会导致死亡和破坏),他认真看了看自己的脸。面对,说道:“只剩下那一部分!跟随其余部分,直到这封信!”

尽职尽责,我经历了多步骤PM),作为蛤,而高兴,并为他们让如此低级的(尽管很聪明的)技术来完成这项重要工作而感到自豪。

在这些大型多路复用器的第五和第六次预防性维护清单之间的某个地方,我开始注意到我周围活动的增加。电话在响,人们在迅速移动。古怪的外表被交换了。

最终,一群人向我跑来,由一位使我失望的高级技术人员带领。

“嘿!我们看到数据通信量极大地中断了,我们已经隔离/跟踪了回到您正在使用的机架的路径!您是否发现任何异常。”

(那时,他被另一位疑难解答人员切断,后者一直前往我执行过PM的第一组多路复用器。)

“神圣的坚果!它们被关闭了!他已经关闭了它们!!!”

很快,我看着他们匆忙地完成了手册的第一步,“将两个后部开关都转到了ON位置……”当高级技术人员完成后,他来到我身边,不由自主地问我在想什么。通过关闭关键设备。

吓到我了,我把遵循的清单交给了他,发誓我并没有偏离。按照他的指示,我遵循了这句话。

过了一会儿,他笑了起来,指出问题出在哪里。

在手册中,预防性维护清单中的“最终”步骤为:

“记录探头的最终读数,擦拭前面板,清除所有灰尘和微粒,然后将两个后部电源开关都转到OFF位置。”

:)

27
Greg Meehan

我正在为某人重新加载系统,在手动备份过程中,我问他一个问题:“您还使用其他程序吗?”和“您在计算机上还有其他重要的事情吗?”

他几次说“不”。

我被说服并格式化了驱动器。

大约30分钟后,他说了“哦,我的天哪”,将双手放在头上。

原来,他已经在一个专门程序中从事书籍脚本工作超过10年。当程序用于将用户数据保存在其程序文件目录中时,这又回来了,而我却错过了。

哇哦。

他没有生我的气,但这是一种清醒的感觉。

26
MathewC

这是种系统管理员的事故。就系统管理员而言,偶尔不得不从A点到B点物理地拖运大量机器(其中A和B似乎总是在不带电梯的建筑物中被几段楼梯隔开)。在一天的第n次旅行中,我停了下来,从地下室的载物高度上飞了三个航班,与下楼的人聊天,支撑着我正站在空旷的楼梯间内部扶手上的全尺寸塔架/站而且...好吧,你猜到了...我对此失去了把握。它毫不费力地直接向下钻入井中,当到达底部时,呃……与其说是那个功能,不如说是!可维修的部件总数:两根RAM,一张软盘驱动器和一张ISDN卡(上帝保佑Hermstedt工程人员!)。其他所有东西都破裂,嘎嘎作响或粉碎成小块。

靠着上帝的恩典,没有人在下面走,谢天谢地,这是我上司的第一时间,所以我必须继续工作。虽然感到非常恶心一个小时左右。

道德:重力总会取胜!

26
avstrallen

我个人的最爱实际上不是我的,我对此感到非常高兴。 在这里看看。

23
RainyRat

我没有发生这种情况,但是…

我在一家公司生产的软件上工作,该软件可以在客户端提供的Linux机器上运行。实际上,我们将“接管”机器,将其完全配置为符合我们的规格,并进行所有管理和监视。本质上,我们是一个由10至15个系统管理员组成的团队,为数百个客户管理数千个服务器。错误肯定会发生。

我们的一个团队发现了服务器上的一些问题(我认为是备份),并决定他应该在服务器上运行fsck。他停止了所有相关服务,确保系统最近进行了备份,然后运行fsck,但它抱怨文件系统已安装。由于我们是远程的并且没有远程访问权限(DRAC,ILO等),因此他无法执行fsck,但是他非常确定,如果小心的话,在安装了文件系统的情况下这样做是安全的。

他决定自己尝试在根分区上运行fsck,以取得可预期的结果–他损坏了根分区,无法启动。

感到困惑,他走了过去,并与我们的团队负责人交谈。负责人说,他非常确定您无法做到这一点,团队成员说:“您一定可以!”,拿住了负责人的键盘,并告诉他您可以–通过在负责人的根分区上运行fsck。其中完全损坏了HIS根分区。

最终结果?由于团队成员的测试,没有丢失任何客户数据。损失了两天的员工工作效率,但价值却远远低于客户机器上的数据。并作记录?您可以在已安装的驱动器上运行fsck,但只能用于验证数据。不修。那是团队成员的错误。

-

要添加我自己的故事,我在同一家公司工作,并试图重置用户密码。我们的系统拒绝让我将其设置为他所需的密码,因为它跟踪了旧的密码哈希,并拒绝让您重复该密码。该机制很简单:它针对数据库中的最新哈希值验证了密码。

(为了记录在案,它必须是旧密码,因为它是一个共享帐户,并确保每个人都知道新密码不切实际)

我决定只进入用户数据库并删除新记录,以便使用较旧的记录。全部都是SQL(运行Sybase的旧版本),因此很容易。首先,我必须找到记录:

SELECT * FROM users_passwords WHERE username='someuser';

我找到了他想保留的旧唱片。前面还有两个。我决定要聪明一些,只删除比旧唱片新的东西。查看结果集,我发现数据库中的旧密码为ID#28,而新密码为ID#数千(非常繁忙的系统)。很简单,所有旧行都> 28,所以:

DELETE FROM users_passwords WHERE id > 28;

没有比做一些简单的行修剪并看到“ 212,500行受影响”更糟糕的了。幸运的是,我们有两个主数据库服务器(具有用户ID),但是Sybase(至少是我们的版本)不支持自动复制,因此它不会自动清除旧记录。转储users_passwords表并重新导入它是一件小事。不过,还有一个很大的“哦,天哪!”时刻。

23
Dan Udey

输入kill 1作为根。 init,她所有的孩子都死了。和他们所有的孩子。等等等等。

我的意思是kill %1

意识到自己的工作后,我跑到[〜#〜] big [〜#〜]羊毛分拣机的控制面板上,然后按下紧急停止按钮。因为我刚刚杀死了控制它的软件,所以这停止了机器的运转。

22
Jason Tan

客户的现场顾客数据库上的不带WHERE子句的DELETE语句。

22
Ian Boyd

我最喜欢的另一个:

在系统上安装计算机和本地激光打印机时,我有一个绝妙的主意将它们都插入计算机的UPS。您是否曾尝试将其插入台式机UPS中以打印到本地激光打印机?好吧,如果您不知道,它会拉动所有的放大器...这将重新启动计算机...并且打印作业永远不会完成...!

曾经接到电话:'每次打印时,它都会重新启动计算机,并且不打印!!'?

哎呀!

合资公司

22
JFV

我们正处于断电的中间,看到UPS正在以其配置负载的112%运行。当时我们在发电机上运行,​​这并不是什么大问题。

因此,我们四处拉动备用电源线以减少该UPS的电源使用(我们有两根,一根比另一根大得多)。我们转到运行服务器机房的网络交换机(这是该服务器机房,其中包含公司的所有内部服务器,而客户面对的服务器位于另一个服务器机房中)。该交换机是大型企业级交换机,其中装有三个电源。电源为N + 1,因此我们只需要两个电源即可运行交换机。

我们选了一根电缆并将其拔出。对于我们来说不幸的是,另外两个电源插头插入了一个电源板,当两个电源设备上的负载上升时,该电源板立即爆裂。然后,系统管理员惊慌失措并插入了第三根电缆。交换机试图启动,将交换机的全部负载分配给了单个电源。它没有关闭电源,而是在距离我不到12英寸的火花中爆炸,使我跳回到服务器机架中。

我本能地试图跳到一边,但是不幸的是我的左边是一堵墙,右边的两个是一个很大的6'4“设施家伙。而不是将整个Compaq机架(网眼薄的机架)放在机架中,也不要触摸设备人员。

21
mrdenny

在我职业生涯中的某个时候,我所在的公司进行了法律调查,要求我们从“今天”开始一直保留所有电子邮件,除非另行通知。在每天存储我们的交换环境的完整备份(每晚1TB)后,我们开始出现空间不足的情况。

交换管理员建议我们仅保留每8封电子邮件。为此,我们让他们还原了一天的交易数据库,提取了他们需要的电子邮件(已标记要调查的特定人员)并重新存档。他们每隔8天发送一次电子邮件来备份所有备份。选择第8天是因为交换具有参数集,其中“已删除项目”在数据库中保留8天。

他们完成每个存档后,我将回顾并删除所有早于其存档的备份。

TSM没有简单的方法来执行此操作,因此您必须手动从备份数据库中删除对象。

我编写了一个脚本,该脚本将使用今天和相关日期之间的差进行日期计算,从而删除所有早于某个日期的备份。有一天,我不得不删除大约一个月的备份,除了进行日期计算时,我打了一个错字并将日期输入为7/10/2007而不是6/10/2007,然后运行了脚本。我不小心删除了整整一个月的数据,这是一次非常重要的诉讼的一部分。

之后,我向脚本添加了一些步骤,以确认您要删除数据,并向您显示要删除的内容...

幸运的是,他们甚至从未使用过我们努力保存的任何数据,而我仍然有工作。

20
WerkkreW

经过漫长的一天或性能跟踪并调整了大型主机(您知道野兽花了几个小时才能使所有备用备份站点都同意确实重新启动并完全同步了),我伸出了手指,键入了满意的关闭提示-p现在在我的笔记本电脑Prompt中,合上盖子,将串行电缆从大型机中拉出,这是因为预期会有一瓶漂亮的冷啤酒。

突然,我听到手提电脑仍在快乐地显示X时,主机旋转的震耳欲聋的声音。

在等待机器再次完全联机时,我决定有时间让我的ACPI在笔记本电脑上工作,所以我从来没有想过关闭笔记本电脑。

20
Martin P. Hellwig

我误删了某人的帐户,把名字和我想删除的名字混在一起了。 Opps

最酷的部分是他们永远不知道发生了什么。接到他们无法登录的电话,一分钱掉进了我删除的帐户。

与他们通电话时,我迅速重新创建了他们的帐户,将他们的旧邮箱重新连接到该帐户(很高兴,Exchange不会立即删除邮箱),并将其指向他们的旧用户文件。

然后我责怪他们忘记了我刚刚为他们重置的密码:)

16
SpaceManSpiff

在我的Gentoo Linux机器上错误地将tar.gz文件安装在错误的位置,并且到处都有文件。一定是在1999年左右,当时是19岁(感谢下面的评论)

作为我的极客,我决定尝试编写脚本,以摆脱手动检查每个文件的工作。

所以我尝试了:

tar --list evilevilpackage.tar.gz | xargs rm -rf

我花了很长时间才注意到tar也列出了程序正在使用的所有目录,其中包括“/usr,/ var,/ etc”以及其他一些我确实不想消失的目录。

CTRL-C! CTRL-C! CTRL-C!太晚了!一切都消失了,重新安装时间。幸运的是,盒子里没有任何重要的东西。

16
Andrioid

这次事故没有发生……但是值得一提:

我被送往一个经常使用的数据中心,对新电路进行带宽测试。我到达了分界室/ IDF,在我的测试路由器的一个机架上找到一个位置,进行了连接,然后开始了测试。不幸的是,我完全没有注意到生产中的边界路由器不仅完全在下一机架上(几乎处于同一水平),而且与我的测试路由器也具有相同的品牌和型号。

测试完成后,我开始将电源开关按到关闭位置(...以慢动作想象...),我发誓,正当我施加压力时,它突然意识到我要使用的路由器关闭是生产中的那个。我的心停了下来,我几乎...好吧,用你的想象力。

我离开了数据中心的MDF看上去很吓人而且脸色苍白,但同时感到高兴的是我还有一份工作!

16
l0c0b0x

在我前世的一小部分时间里,我管理着公司的文件服务器,即网络软件4:11。几乎几乎不需要任何输入,但是如果需要,则可以打开一个远程控制台窗口。

习惯于一直使用DOS,当我完成后,我自然会键入“ Exit”。对于Netware,“退出”是关闭操作系统的命令。幸运的是,除非您先“关闭”服务器,否则它不会让您关闭。(使其无法用于网络/客户端)因此,当您在控制台中键入“退出”时,它会很有帮助地说:“您必须先键入”向下”,然后退出”

问我1:在控制台会话中键入了多少次; 2:顺从地键入了“ Down”,然后键入了“ Exit”,这样我就可以“完成我想做的事情”了

然后电话开始响.....

LOL

12
Bob

我工作的最后一个地方,我的同事在服务器机房里带了他的孩子们(为什么?我没有想法!)。

他确保它们与服务器之间的距离较远,并向5岁的孩子解释说,他不应该触摸任何服务器,尤其不要触摸任何电源开关。

实际上,他把它们放在门边……(你能看到它要去哪里吗??)

这个男孩没有碰任何服务器电源按钮...不,这太容易解释了。取而代之的是,他击中了门附近的大红色按钮。该按钮关闭了整个服务器室的电源!

电话线立即开始点亮,想知道为什么无法使用Exchange,文件服务器等...想象一下,试图向CEO解释一下!

-JFV

11
JFV

另一个没有发生的故事(phe):

我们每天都认真地对磁带机进行增量备份。

我们碰巧写了一个包含数据的磁带,以将其发送给其他人。他们说:“我们看不清您的磁带”。实际上,我们也不能。或实际上任何磁带。

我们买了另一个磁带机,屏住呼吸,直到安装完它。

故事的道德启示。始终确保测试您的备份。

11
Matthew Farwell

我曾经与APC UPS监视软件打架。作为一家小公司,我们有几个小型UPS,并且设置了各种服务器来监视它们。大多数服务器是Linux,但有少数服务器运行Windows,因此它们是使用的服务器,因为APC软件仅是Windows。

但是,当时的APC软件已经过硬编码,以假定它正在与之交谈的UPS也为正在运行的PC供电!该服务器不是这种情况,但是我发现为时已晚,无法停止运行。同样不幸的是,首席程序员正在向合作伙伴展示公司产品-这是一个基于Web的应用程序,运行在我不希望APC软件关闭的同一服务器上...

10
staticsan

我在北美的一家无线提供商工作,并为我团队中的某个人进行了一些培训,以完成工作指令。我熬夜的头几天(我们在维护窗口中做了所有事情),但他表现不错,并说他必须自己学习,所以我放开了他,把手机和寻呼机留在了上面。第二天早上8点起床时,我登录并检查了配置。

更改是,我们为 BlackBerrys 添加了新的IP地址池,我们添加的池约为10000个地址。为此,我们在路由器上添加路由,该路由指向执行所有呼叫处理的刀片服务器上的处理器地址(本质上它就像代理一样工作)。此外,我们登录到处理器并配置IP池,然后链接要用于我们的无线用户的IP池。但是,为了进行测试,我们通常在一个处理器上进行配置(实际上是启动手机并测试所有功能),然后将配置移至我们希望使用的实际处理器上。

快进了两个星期,我们的控制中心打来电话,说有很多关于间歇性BlackBerry问题的电话,他们看过的几个BlackBerry似乎是在一个公共池中循环,但是没有真的确定发生了什么事。我只花了大约5分钟的时间就意识到这是我的同事在两周前才添加的新池。不久之后,路由器便出现了两条路由,一条进入测试处理器,一条进入正确的呼叫处理器。就是这样,他忘了删除通往测试处理器的路由,它取代了正确的路由。

本质上,BlackBerry将连接到网络,连接到代理以获取其IP地址,代理将使用错误的路由从池中为其提供地址,然后BlackBerry将尝试与 [〜# 〜] rim [〜#〜] 中继,并且响应将被路由到测试代理,并且永远不会返回给用户,这实质上意味着没有连接。

尽管我们很幸运,但是由于BlackBerry的行为是如果他们无法联系中继,它们将断开/重新连接到网络,但是尽管如此,某些RIM设备长达数小时都无法使用,直到能够循环使用。池。我回想起来,当我再次检查工作时,我只检查了这个人的新代理配置,我从未检查过路由配置,因为这个人以前在骨干团队中工作,而路由是他的职责。糟糕!

我修好了设备,并在那天下午给他打电话,他的日子过得很好,但我开始时很抱歉,但是我要毁了你整个星期。一年后,这个故事仍然围绕啤酒展开。

8
Kevin Nisbet

在跌落在机架后面的塔式服务器上绊倒时,我的头撞到了主要Cisco路由器背面。从而揭示了电源线实际上在 Catalyst 65 前面的电源中的松动程度。

是的现在,我们在服务器机房中安装了安全帽。上面有我的名字。

8
Bill B

我正在给新的系统管理员介绍Service Manager应用程序。我说:“如果您需要停止此服务,请单击此按钮,但白天绝对不要这样做。”您将永远不会相信她的鼠标按钮多么敏感!

两分钟后,服务再次启动,似乎没有人注意到。

8
Antony

我姑姑要我修理他们的电脑。他们说它不会启动,并且已经有两个星期了。我怀疑它是BIOS还是OS。

我坐在他们的电脑前。我蹲下,按下电源按钮。我抬头.

BIOS通过。那很好。

操作系统启动。那很好。

我四处移动鼠标,以为输入设备可能有问题。输入设备没有问题。

我打开了她的文字处理器。跑了.

我打印测试打印机。它打印了。

此时,我站起来,告诉我的姑姑(正在看着我的)计算机没有问题。她声称在我坐下之前不是那样的。

我现在可以向我的家人宣称我是如此,这样我就可以坐在一台计算机前修理任何计算机。

7
MrValdez

当我由首席管理员首次聘请为系统管理员时...在第一周内,我们收到了一台全新的Dell服务器... Windows Server 2003 ...这是他的小宝贝,直到我在午夜被秘密叫到服务器机房一个星期六晚上从中清除了许多恶意软件实例,因为他在部署网络之前就没有恶意地使用它浏览网络!

恶意软件清理是我有很多经验的事情,但是由于这是一台服务器,因此我进行了格式化并重新安装以确保更加安全。

我从没对他说过一句话。他知道他已经把王室搞砸了。

7
cop1152

与系统管理相比,个人脚本更重要,但是...

我正在编写一个Perl脚本,就像一个宏一样,它将从 Banshee 中检索正在播放的信息,并使用“ xte”程序逐个字符地将其作为键盘事件输入。这样,我可以让它在程序中运行而无需任何特殊的交互,就像我键入它一样。

好吧,我几乎完美地编写了代码。我决定在一些随机游戏中对其进行测试。发起聊天的按键是 shift + enter。现在,要做到这一点,我需要按住它 shift, 按 enter,然后释放 shift。不幸的是,我匆忙忘了“释放转变”。我运行了脚本,这导致我的Shift键被锁定了,这带来了一些滑稽的副作用。我以为“没问题,我会去终端并手动输入行以释放班次”。不幸的是,众所周知,Linux区分大小写。它不会接受所有大写字母的命令,因为我必须输入它。我无法“反制”之类的。

这导致我花了五分钟时间搜寻我访问的网站,并使用鼠标将单个小写字母复制并粘贴到终端中,以形成我需要将其关闭的命令。

7
DWilliams

这不是一个大问题,但肯定是10年前的“我脸上的鸡蛋”早晨。我一直在检查旧的硬件清单,然后重新映像磁盘,以准备卸载硬件。为了找到最有效的方法,我使用了Norton Ghost副本和要应用的映像构建了一个CDRom。您已打开机器电源,并在开机状态下将CD放入驱动器中。机器将启动CD并自动重新映像本身。运作良好。

当我制作CD的副本时出现了问题,这样我就可以使更多的计算机并行运行。我完成了最后一张CD的刻录,关闭了台式计算机,然后回家了一天。好吧,你可以猜测第二天早上发生了什么。我进来,打开电脑,去煮咖啡...

当我出于某种原因回来时,我的机器不在域内,并且不接受密码...

我刚刚弄清楚发生了什么事,当其他人赶来的时候开始发誓。是的,他们没有让我住一段时间。

7
Sam

过去,当我很绿的时候,我需要在用户PC上安装AV软件,因为似乎没有人安装它。因此,我花了一些时间弄清楚如何进行远程安装,而不是在40或50个台式机上戳。远程安装运行得很好,并且一切似乎都很好,直到我的办公室里有很多经理掉落抱怨他们无法登录。

原来,有几人在他们的计算机上安装了Symantec AV,但这与我使用的McAfee软件并不共存,并且在尝试登录后会锁定计算机。

幸运的是,如果您在尝试登录计算机之前就已登录该计算机,则可以远程禁用该服务,因此我设法获得了解决问题的方法,而不必重建所有高级管理人员的PC。

7
user2278
6
Rook

由我的一名员工完成。为什么清楚地标记服务器的完美示例:

将我的员工发送到Colo,以重建辅助MSSQL数据库服务器(该服务器上没有当前数据)。主要的一个正在积极使用中。您可能可以预言该故事的其余部分...在那里,他重新启动服务器,开始安装并重新格式化驱动器,只是让我打电话给他,问他为什么主数据库服务器不再响应。 (d)

6
skraggy

我的事发生在6个月前。我们刚刚切换到用于PHP/MySQL Web应用程序的新服务器。由于必须选择操作系统,因此选择了我最熟悉/最熟悉的操作系统:Ubuntu。

我们有许多备份脚本,这些脚本将按小时,每天等方式由cron运行。过渡非常顺利。当我将MySQL数据库从旧服务器转移到新服务器并交换IP时,停机时间只有大约2分钟。

几周后,我在命令行上使用MySQL并删除了一些不再需要的旧测试记录。由于我首先是程序员,其次是sysadmin,所以我养成了先输入分号(;),然后输入命令的习惯。好吧,当我要在我的DELETE查询中添加WHERE子句时,我不小心按下了回车键。 ...哎呀。

Query OK, 649 rows affected (0.00 sec)

“没什么大不了的,”我想。 “每小时备份仅在4分钟前完成。总共可能丢失3条记录。我迅速转到备份目录并进行了还原。问题已解决。

...然后我注意到备份的时间戳。 已经17天了。没有其他备份。在不到17天的时间里,我刚刚清除了系统中输入的所有内容。

事实证明,Ubuntu的cron守护程序中存在一个错误,该错误导致它不在名称中任何位置运行带点(。)的脚本文件。它不会引发错误,因此没有证据表明存在问题。它只是拒绝运行它。我们所有的备份脚本的名称中都有点。他们以前,但现在不是完美的工作。

我吸取的教训:

  1. 在您实际要运行查询之前,请不要在MySQL的命令行上放置分号。
  2. 检查备份文件上的时间戳之前恢复它们。
  3. 测试您的备份脚本,并确保它们确实有效。
6
Andrew Ensley

比我想像的要早,我是公司的技术人员,并且与一些安装应用程序的顾问一起工作。硬件是DEC VAX,并使用了HSC50存储服务器。顾问花了大部分时间进行安装,离开后,我决定使用HSC50的逐位复制实用程序将系统磁盘备份到空磁盘。复制完成并尝试重新引导后,我发现我已经颠倒了源磁盘和目标磁盘的名称,因此将空白磁盘一点一点地备份到了系统磁盘上。

我能够在系统磁盘上重建VMS,并重新安装许多应用程序,但我认为它永远无法正常工作。从那时起,如果我要进行复制/备份等操作,则在继续操作之前将对源磁盘进行写保护。 (现在不再有写保护开关,我看一下命令之前,我按下了Return键。)

6
JonP

我打电话来调查来自Windows计算机的警报,该警报指示监视系统没有许可证文件。我打开命令提示符,开始调查问题,发现基本的Windows命令甚至都没有。

曾经远程运行脚本的sysadmin编写了一个脚本,该脚本使用del命令删除具有根和子文件夹指定的文件夹以及环境变量中指定的文件夹。如果未设置环境变量,它将以静默方式删除整个分区。

当被告知时,系统管理员感到非常惊讶,以至于他们通过在自己的笔记本上运行该脚本来确认该操作,因此也将其丢弃。

令人惊讶的是,在我们重新启动服务器之前,Windows运行良好。只有小气的监控软件抱怨。

它是一个政党的辅助Active Directory服务器。哎呀。

5
Stuart Woodward

向防火墙添加绕过规则,以加快某些BitTorrent下载的速度。事实证明,使用的绕过规则不太稳定的系统导致防火墙崩溃。这是城市中每所学校的Internet连接的边界防火墙。更糟糕的是,重新启动仅足以导致防火墙的硬盘驱动器失效。有趣?没那么多。壮观的失败?绝对是.

4
Mark

我的是标签团队的努力。

管理层指示我将一个DBA登录到服务器,以便他可以进行某种清理。他进行查询后,我们两个传呼机都立即退出,这提示了我们两个人都发了话。

事实证明,清理实际上是删除数据库,并且应该在其中一台开发服务器上完成。但是,我收到的指示使我相信这是一个较小的清理任务,应该在生产中进行。

幸运的是,我们能够以最小的数据丢失从备份中恢复。

获得的经验教训:确保您始终完全了解与生产服务器打交道时应该做的事情。如果存在不确定性,则最好弄清楚。

4
Bill B

好。要在美式键盘上获得&,请按Shift-7。要在瑞典语键盘上获取它,请按Shift-6。因此,在瑞典语键盘上按Shift-7会得到什么?您得到/

几年前,瑞典的布局并不常见。我个人的喜好是使用美国布局。有一天,我想删除目录中的一堆文件和子目录。

我打:

rm -fr *

但是太慢了,所以我很快就打了:

Ctrl-C rm -fr * &

还是我?好吧,我没有。我花了几秒钟才意识到自己在瑞典键盘上。参见上文以解码发生的事情。那场灾难是事实。

那天我学习了命令:

dd

最终,我基本上从磁盘转移到了磁带,只花了整夜。第二天,我得知该系统无论如何都将被重新安装。

我很幸运,但是我学到了一些东西。

4
fredarin

当大多数服务器机群仍为Windows NT时,使用的主要远程方法是pcAnywhere。我们遇到了一个“众所周知的”错误,有时使用pcAnywhere时服务器会突然重新启动,最终用户被告知了这个众所周知的错误。

错误是pcAnywhere(至少我们使用的是哪个版本)在“从主机断开连接”按钮旁边有一个“重新引导主机”按钮。所以时不时地...:D

4
marty

VNC进入200英里外的Win 2k服务器,去添加IP地址,所以...右键单击系统托盘中的网络图标,单击“禁用”而不是“属性”-DOH!..。 ....上车。不开心!如果他们在该菜单选项上只有“您确定”!

麦克风

4
Mike McClelland

2002年夏季。

我无意间部署了IE 6.0,并在当天中间强制重启到16,000个用户。

实际上,我发现了自己的错误并输入了有史以来最快的速度 odadmin关闭所有 (Tivoli命令停止所有部署服务器)。

3
Shawn Anderson

在Linux和FreeBSD上hostname -s将“显示简短的主机名。这是在第一个点处剪切的主机名”。

在Solaris 9上,hostname -s将主机名设置为“ -s”。

因此,我的同事管理员运行了一个脚本来审核我们的所有120个系统,包括在Solaris 9上运行的10个关键任务Oracle数据库服务器。

for Host in `cat all-hosts`; do
ssh $Host "hostname -s"
done

我们所有的Oracle服务器立即失效。失败的速度确实非常惊人。我们花了大约20秒钟的时间才能从此错误中恢复过来,但为时已晚。一切都失败了。

具有讽刺意味的是,几天前我们的数据中心遭受了严重的电源故障,并且我们正在更新“断电/加电”电子表格,以确保更快地恢复任何将来的电源故障。

3
Stefan Lasiewski

不是我,而是和我一起工作的人。他们在AV服务器上创建了一个策略,该策略在process字段中包含*。用外行的话来说:不允许对包含名称*的任何进程进行读写,执行。

然后,该策略被复制到1,500台服务器,这又关闭了RDP和任何其他进程。要修复此问题,意味着要一个接一个地安装每个服务器硬盘并删除该策略。由15人组成的团队48小时。

3
stuart Brand

我是一名程序员,所以我所有的错误都属于Stack Overflow。但是,以下是我目睹的一些系统管理员错误。

  1. 撤消Windows NT域上所有用户的登录权限。 (遗憾的是,除了PDC上的内置管理员外,只有设置域的承包商才知道密码,并且密码早已消失了)我实际上并不知道如何实现。我确实知道我必须与开发人员坐在一起聊天几个小时。

  2. 意外删除成员服务器 [〜#〜] ou [〜#〜] 。从磁带还原完成后,又聊了几个小时。

  3. 我们的管理员旨在授予所有域管理员使用CD和软盘驱动器访问的权限。 (我们当时使用SecureNT来控制对可移动媒体的访问。)可悲的是,他使组成员身份倒退了,而是还为所有可移动媒体用户赋予了完全的域管理员权限。我发现它的原因是,某些表出现在用户不应该能够创建的生产SQL数据库中。当我告诉有问题的管理员时,我喜欢看着他的脸从不,那是正确的方向,一直到哦,****。值得庆幸的是,没有造成严重伤害。

3
pipTheGeek

哈,我的第一个真正的大事故是当我在开发服务器上编写一个小的SVN Admin面板时,该软件完全不安全,只能用于更新内部的“ Development”网站。

有时SVN存储库会损坏,因此我编写了一个按钮,该按钮将调用PHP)文件,该文件将清除请求的整个SVN目录,并且看起来像这样。

<?php
$directory=$_GET['dir'];
$result = Shell_exec("Sudo rm -Rvf /".$direcory);
echo $result;
?>

对于那些看不到的人–我在Shell_exec中拼写错误的“ $ directory”,导致系统运行“ Sudo rm -Rvf /”..。起初,我认为该网页只是花时间删除存储库中的所有文件。大约10-15分钟后,我发现我已销毁了超过1/2的文件系统。

哎呀。

2
grufftech

前雇主的故事很棒。一些细节被更改以保护无辜者。我有一个问题员工,称他为弗雷德(Fred),他一直有很多生产力问题,但似乎已经赎回了自己,并获得了一些特权。唯一的问题是,当恢复他的特权时,配置脚本中的错误为他提供了一些额外的特权。

我当时正处于一个大项目的中间,所以我要求Fred打包应用程序所需的Windows修补程序。 (这是在爆炸前的日子,人们没有像今天这样虔诚地打补丁)。因此,弗雷德在我们的实验室进行了测试,一切正常。

弗雷德然后问了几个问题:

"Who should I Push it to?" (Mind you, this is a patch for some custom VB app)

"Everyone", I respond

"Ok, what time should it start?"

"How about 2AM?", I answer. (Figuring I'd have time to look over everything before I left for the day!)

那么接下来会发生什么呢?他使用我们的软件分发应用程序设置了一个工作,以“推向所有人”,甚至还很友好,可以选中该产品支持的每个平台的复选框。然后,设置2AM的开始时间,就像过去大约12个小时的2AM一样。

结果?一切都会重新启动,并尝试安装一些VB5运行时修补程序。星期五下午大约2:45 PM。一切。

一切?像40,000台PC?是。 3,000台Windows服务器?是。 300 HP,Sun和IBM Unix机器?是。一个AS/400集群?是。

唯一没有重启的是Windows DC,因为AD家伙出于某种原因禁用了我们的应用程序。神圣的噩梦。经过一周的清理,我简直不敢相信自己仍然在工作。

要点?弗雷德(Fred)晋升为一份工作,他再也受不了任何伤害。

2
duffbeer703

也许更像是一个深夜的大脑放屁。

一位开发人员在Solaris框上运行Java探查器时遇到麻烦。探查器抱怨说有Libc的两个副本;一个在/lib/usr/lib。因此,在几个lds之后,我们将一个从/lib,因为所有内容都指向/usr/lib,所以他们说。

但是突然没有任何效果。否ls,否cd,否cpmv。经过大约20分钟的“哎呀,哎呀”,我们发现其中一个开发人员在该盒子上有一个当前正在运行的Emacs副本,我们能够打开备份的/lib Libc副本,并用原始名称写回。瞧!一切正常。学过的知识;将Libc保留在希望的位置,不要在凌晨2点根据开发人员的请求进行更改!

2
beggs

不久前我有一个。在某些Oracle ODBC)桥接部署中,我不得不在大约500个用户帖子上修改路径。

确实,这是一个非常简单的操作。太糟糕了,我忘了那些报价。人们收到一些奇怪的乱码消息(ODBC安装失败)之后,就开始响起铃声,然后似乎重新启动计算机就等于需要了。

当然,其他一些先前的安装会在系统变量中加上(!!!)某些程序文件路径(带空格和全部,不带引号),因此新路径就此停止了,位于c:\ Program(当然,存在的%ProgramFiles%仍被完全忽略)。没有系统,没有system32,没有Shell。因此也没有登录脚本。

重新启动的人不再具有任何网络访问权限,并且没有自动脚本可以修复损坏。当然,一旦我去找一些抱怨的用户,环顾四周并检查了路径,我就感到..沉没的感觉。

在大约30分钟的时间内,我有了另一个脚本,该脚本具有最标准的路径值,可以随时发送给所有人(电子邮件仍然有效)。用户甚至回电以确保补丁是真实的,因为他们没有被使用来发送带有神秘理由的神秘exe来应用它们,而且大多数人甚至都不知道发生了什么。

第一个版本比较杂乱(每次执行时都使用新的分号),但是它记录了所有可能的路径值,因此我很快就获得了带有可能路径的数据,因此我只需要创建一些聪明的东西来检查所有路径,最后就可以很好地获取路径了到位。

总而言之,它只持续了大约45分钟,而我很幸运地把一切恢复正常。但是,当一条破败的道路突然冒出时,我仍然可以责备;)

2
Berzemus

我最好的备份是在备份服务器处于管理状态时发生的-老板正在“辩论”它是否应该留在办公室,不在服务器机房外(出于某种原因不进行备份)或是否它应该安装在服务器机房中以节省大量带宽。我似乎记得,这种边缘状态已经存在了几个月。

我们的网络服务器具有RAID 5阵列,用于存储网站。在三个驱动器中的第二个发生故障之前,它似乎已经以降级模式运行(没有通知我,原因不明或我不记得了)。我不得不整夜把服务器放回原处。我们的客户不满意他们的网站消失了,他们需要从自己的备份中恢复。尤其是那些没有自己的备份的人。

老板问我的问题是:“ RAID阵列怎么会那样失败?我以为他们不应该这样!”和“为什么我们没有网络服务器的备份?”

但是,这一教训并未引起人们的注意。当我建议升级到我们的邮件服务器时应该包括一个带有热备用磁盘的RAID 1阵列(而不是跟我争论额外费用,而他通常会这样做)时,我的老板很合作。当然,备份服务器可以在短时间内正常工作。

2
Ernie

如何了解Exchange Server 2007“删除邮箱”和“禁用邮箱”功能之间的区别?特别是当我要删除每个人的旧邮箱以处理损坏的数据库时?

...

在Exchange Server上还原...不好玩...必须还原Exchange Server和Active Directory ...双重不好玩。

星期五早上11:00 AM做这件事……无价。

2
IceMage

我试图释放站点RedHat 5 Web服务器主分区上的一些空间。我是Linux的新手,但是使用DOS已有很长时间了。

我设法将整个/ bin文件夹移到另一个分区,取出了生产网站,并使自己没有任何可访问的系统命令。我吓坏了,我无法重命名,复制,移动任何东西,因为我已经移动了所有有用的可执行文件。

值得庆幸的是,我能够使用启动盘并撤消了我的工作。

2
Darth Continent

我是RAID 5的新手,仍在学习它的工作原理。当时,我是一家非常小的公司中唯一的IT人员。所有人访问的所有文件都仅存储在一台服务器上。服务器空间不足,RAID阵列中只有3个驱动器,所以我认为增加第4个会增加空间和响应能力。我在上班时间做了这个。我还没有学过下班后维护的概念。

该阵列开始重建,并表示将在36小时内完成。我以为那太久了。我找到了一个控制重建优先级的滑块,并将其设置为最低设置。我将其设置为中。时间减少到8小时。硬盘驱动器指示灯闪烁的速度加快了一点,但我仍然认为对于80GB的数据来说,这仍然太长了。因此,我将优先级设置为高。硬盘驱动器指示灯一直亮着,我想“那更像是它!”然后,我正在使用的GUI停止了响应。它远程连接到盒子。我试图将其备份,但是找不到服务器。

我开始听到大厅里有人抱怨他们无法进入服务器。我去服务器登录以查看发生了什么。黑屏需要5分钟才能变为背景。再过五分钟,登录提示出现。每按键一次需要5分钟才能注册。我将优先级设置得很高,以至于服务器不会响应任何内容。阵列重建花费了2个小时。幸运的是午餐前一个小时,所以没人真正关心那么多。当时我的经理是位非常酷的女士,并说没什么大不了的。首席设计工程师确实给了我一个卑鄙的眼神。我出汗了两个小时。学过的知识。

2
Joseph

我有一个员工抱怨他的笔记本电脑运行缓慢,所以我检查了硬盘碎片,这是(迄今为止)我所见过的最糟糕的情况。尝试对驱动器进行碎片整理是徒劳的,因为没有足够的可用空间。我尝试清理临时文件(不知道为什么我不只是将内容临时移到服务器上),然后愚蠢地删除了他的整个Outlook.pst,以为这是他电子邮件的备份,而不是他的实际电子邮件。他原谅了我,但从未让我忘记它。

(这发生在多年前,我大学毕业不久。现在我的能力更加强大。)

2
Scott

非常愚蠢的错误。我当时在Linux工作站上编写了一个脚本,该脚本可以处理许多文件,但是只要文件很多,那是什么类型的文件都没有关系。因此,我认为将/etc复制到要进行测试的目录中是一个好主意。出现问题时,我删除了该副本并将/etc复制到我的测试目录中。进行了一段时间,然后输入

rm -rf /etc 

代替

rm -rf etc/  

好的,没什么好担心的,我仍然可以在工作站上执行操作,并认为可以通过从其他工作站或其他工作站复制来恢复它。或者,在一天结束时重新安装。首先,喝点东西,由于公司政策,我锁定了屏幕。该死,我需要密码才能解锁,该密码在/ etc/.....中。

愚蠢的错误:

  • 做太多的事(我有很好的理由O :))。
  • 输入/etc而不是etc/
  • 使用/etc进行测试
2
blauwblaatje

曾经有一次我不小心删除了Unix机器上的“ bin”用户。当然,删除用户也会导致其主目录也被删除。

您能猜出bin的主目录是什么吗?

/箱

1
Barry Brown

几家公司之前,我们有一个Windows NT 4盒作为运行一切的主服务器,作为备份,它具有一个镜像硬盘驱动器。

我不小心删除了一些重要文件,没问题,只需重新启动包装盒,从SCSI菜单中选择磁盘2,我们就可以在一分钟之内备份并运行副本。

然后,我启动了命令以重建镜像驱动器。事实证明,尽管Windows现在有了新的C:和D:驱动器,但聪明的镜像软件并不会因此而被愚弄。它使用SCSI ID号作为源和目标,并愉快地复制了1-> 2。

谢谢Adaptec!

1
Martin Beckett

一周结束时,每个人都快要离开大楼了,我进入服务器机房,将新的磁带装入自动转换器中,以进行整个周末的完整备份。我认为AC太冷了,请将其关闭(服务器机房只是一面墙上装有AC的房间-没有资金用于任何严重的活动)。因此,我装入磁带,确保TBU正确读取条形码,然后出发。

第二天,我早上醒来,有一个宿醉(嘿,这是周末!),看着我的手机,看到一堆SMS消息“ $ server down down”。另一个“主UPS停机”。

我抓住钥匙,开车去办公室,打开服务器室,发现那里大约60摄氏度,所有设备都关闭了。

最终在我什至无法开始AC工作之前就拖了一些风扇以驱除热空气,更不用说UPS和40多个服务器和通讯设备了。当然还要在办公室度过一个周末。还要感谢所有神灵提供的智能U​​PS单元,如果环境温度过高,它可以很好地将所有东西拉下来。从那以后我一直在附近穿连帽衫,从不关闭交流电源

1
dyasny

十多年前,我从事的项目需要SOCKS代理。我一直在使用一个名为WinGate的程序,除了SOCKS代理外,它还提供了带有NAT,DHCP和其他一些功能的漂亮的小型Internet网关功能。这是在Windows进行Internet连接共享之前,因此WinGate允许您与以太网共享拨号调制解调器。

我安装了该软件,并开始使用SOCKS客户端功能。那天晚些时候,我们失去了互联网连接。突然之间,它停止了,没有人可以访问公司外部。我们打电话给我们的ISP,连接一切正常。路由器工作正常。我们只是不知道出了什么问题。我对TCP/IP有所了解时曾提出过建议,但并没有取得任何进展。

第二天,我们的IT人员发现DHCP服务器已将路由器的地址提供给某人的机器,并且每个人都将它用于没有任何地方的默认网关。那天晚些时候,我们的IT人员来到我的办公室,我问:“那么,您能找出谁提供了错误的IP地址吗?”他说:“是的,是你!”

WinGate默认情况下运行DHCP服务器,并将路由器地址分配给先前地址已过期的第一个客户端。我脸红了一阵子。

1
David Smith

在我小的时候,我试图变得“有帮助”,并试图将128 MB/s的线路上的250 MB数据同时复制到86个不同的站点上……在营业时间)。在执行此操作时,我听到有人问为什么一切都花这么长时间。

不用说,我杀死了转移,(幸运的)没有人知道是我!

1
JFV

我们在Unix机器上为客户构建了交钥匙IVR系统。一次,开发人员将所有代码都放在/ devel中。他们要求我删除开发目录和文件箱,并在星期日的星期日(我休息日!)将服务器带到机场。我急忙删除了/ dev/*。立刻看到我的错误,坐下来思考了一分钟。不知道如果内核没有钩到系统设备,系统是否会死机,所以我查看了同一台机器上的/ dev目录,然后mknod [c | b] major minor还原了键盘,tty,scsi驱动器, fd0和null然后在另一台机器/ dev上制作了一张软盘,并进行了挂载和复制,以获取其余部分。

仍然不知道如果我不理会事情会怎样,但是我很确定重启后会很不高兴:)

获得的经验教训-开发目录不会被称为/ devel。

1
schemathings

当我刚从uni开始我的第一个支持工作时,就发生了这种情况,当时我连接到客户的2003服务器,试图在用户抱怨连接问题后继续使用其中一台计算机。

通过一些基本的故障排除方法与她交谈,并注意到她具有静态IP,因此开始通过将其设置为DHCP来与她交谈。我跟她说了怎么办时,我打开了服务器局域网连接上的属性以供使用。让她尝试将其重新设置为DHCP之后,它仍然具有静态IP,因此要求她禁用连接并重新启用它。

现在,我已经完成了告诉服务器上的所有操作,而没有实际更改任何设置,直到我要求她右键单击LAN连接并单击“禁用”为止,然后我也继续这样做。

花了我大概半秒钟的时间才意识到我刚刚做了什么。

在其他工程师不得不开车一个小时才能在客户站点重新启用NIC)之前,其他工程师花了10分钟时间停止嘲笑我。

1
Darren Mac

我曾经照顾一堆数据库服务器,每个数据库服务器都有明确的开发和测试周期。我们的职责是将开发人员提供的更改(使用他们的文档从测试环境中滚动到客户的测试环境中,以便在上线之前进行客户测试)进行滚动。作为一部分,客户测试环境是根据实时环境的最新备份构建的。

所有这些都被整齐地记录下来,以及在客户签署变更后将变更滚动到实际环境中的过程。

我们在团队中有了一个新的起点,在他和我们在一起几个月之后,我们让他参加了多个变更周期,直到一个命运重大的夜晚,我们让他亲自完成了。客户测试进行得很顺利,客户愉快地签署了变更。

然后,新起点完全按照他每次将更改引入测试环境时所做的工作,并确信他不需要遵循我们其余人员所做的文档。步骤(1),从先前的备份重建...

第二天早上,客户注意到前一天的工作不见了,很快我们就发现了发生了什么。幸运的是,数据库启用了更改日志记录,因此我们能够恢复所有活动。新的开始至少学会了珍视文档并在将来遵循它。

1
Cry Havok

上周我发生了一件好事。

我让我的一个人为我们正在构建的测试平台构建了一个临时DNS服务器,我要求我们的DNS来更新特定的测试域以指向该新的临时DNS服务器,但是该人更新了实时记录,而不是测试中的实时记录。 。

突然,这台服务器(幸运的是,这是一个合理的规格的新包装)可以为将近500万用户的每个DNS请求提供服务,第一天就有4亿个请求! -幸运的是TTL只有24小时,所以现在大部分时间都流失了。

1
Chopper3

完全不同的尺寸,但这仍然是系统管理员的意外。

抱歉:您需要了解一些意大利语语才能获得此功能。无法翻译。您需要内心了解它

我被要求在意大利那不勒斯的Solaris服务器上修复某些问题。我需要root密码,当时我不会说很多意大利语。伙计们似乎不愿意告诉我那是什么。最终其中一个人低声说道:

- sticazzi

我说:啊哈,'sticazzi'。您如何拼写?,然后给了他一张纸+笔。

一年后,我又遇到了M.*o B.*(嗨!-如果您读过此书)。当时我的意大利语好多了。我告诉他,我现在知道一些意大利语。

那是一个很难的笑。

这个故事的寓意:如果需要用一种您不知道的语言来请求root密码,一旦给了您更好的笑声,脸红并看起来很侮辱。

1
fredarin

每个人的rm -rf /偶然都在某个位置。我的作业是在我最后一次数据结构分配到期前两天试图删除主目录中的一些额外文件。

从专业上来说,到目前为止我还没有遇到任何灾难性的后果。

1
sclarson

这不是我发生的事,但我想这是一个非常好的故事。

这些人正在使用那些旧的Solaris全塔式服务器之一,据我所知,该服务器正在容纳该公司拥有的多个Informix数据库的数据库。这是一家基本公用事业公司,因此您可以想象这意味着多少数据。

曾经有一点,通过服务器的几种配置被复制到软盘上,然后在服务器之间传递。使用服务器后,他们只需弹出软盘,再移至下一张。

在sysadmin组的另一个人的陪同下,这个人正在研究这些配置,因为他们谈论随机的东西。他完成了自己的步骤,因此按了按钮以弹出软盘。

-“等等!不要松开按钮!”

当他再次看时,他错误地按下了重置按钮,而不是弹出按钮。当他释放该按钮时,公司的整个数据库系统将立即关闭。 (我以为这些按钮是瞬时的...但是这就是故事的过程。)

因此,每个系统管理员都停止了他打电话给部门经理的工作,并“告诉所有人现在注销系统。”而这个家伙看起来用手指将一切都附着在服务器上。

1
Alpha

在Debian机器上的/etc/network/interfaces中设置静态IP地址时,某人意外切换了IP地址行和网关行上的IP地址。

猜猜当您“窃取”核心交换机的IP时会发生什么?

1
prestomation

哦,有一天我无意中删除了一个PostgreSQL数据库,并从日志文件中恢复了它;)

0
maciek

值得庆幸的是,我能够轻松地从与您分享的内容中恢复过来。所以你听说过臭名昭著的

rm -rf /
deltree/y/s/b \

我的问题是我输入了该密码并知道它是错误的,所以我去按了退格键,但是用胖手指按了它,然后按了回车键!我实际上只花了2秒钟就意识到自己做了什么,所以我开始反复反复按ctrl-c来中止操作。到我停止它的时候,文件系统的一半都消失了。

朋友们,救救我吧!除了重新启动外,没有其他停机时间。从某种意义上说,那天我真的很幸运,因为我有大量的备份。

0
jftuga

在系统管理的早期,我发明了一些新方法来为零售店进行库存处理(盘点)。我拿了很多笔记本电脑,并在它们上连接了条形码扫描仪,通过用笔在纸上书写所有文章,使该过程比平时快了十倍。我还购买了一些Symbol PDT DOS手持终端。为了延长Symbol终端电池的使用寿命,我手工制作了自己的电池组并连接了电线。那天晚上和第二天早上,我为自己感到骄傲,而我为孔雀在办公室里走来走来,说我有多聪明而感到骄傲。

当我向服务器发送数据以进行库存和清单的计算和比较时,噩梦开始了。其中一台带有额外电池组的Symbol设备已闪烁,因为其中一根电线掉了,并且该设备长时间没电了。

现在,大约100名雇主的所有工作陷入了困境。如果我没有全部13台或15台设备,它们的目的是什么?我怎么知道缺少什么库存。

为了更详细地描述我的灾难,一年中我们只有几天假。当我们关闭商店进行盘点时,该事件使我们的公司付出了很多金钱和精力。

对我来说幸运的是,那年重试的总监和厨师一直是合理的,并且接受了当年计算机上的清单。

之后,在工作仍在进行时,我总是制作两个数据副本,就在我们完成清单处理之后,当然,我不再吹牛了。

0
adopilot

我是一个新手/最喜欢的系统管理员,我的服务器上仅托管30-40个站点​​,所以还算不错。我正在删除目录/ bin/xxx中所有文件的执行权限,它们都以开头。

所以我采取了明显的行动

chmod -R a-x .*

哇。当您删除bin目录上的执行权限时,清理起来很麻烦。数据中心技术人员必须引导到实时CD中进行修复。最好的部分是我必须带领他们逐步解决问题。最糟糕的是他们仍然知道足以嘲笑我:P

0
Brandon Wamboldt

在Internet的早期,我在SGI Challenge S服务器上运行所有内容。有一次,在我不知情的情况下,“美术部门”从IKON订购了一台演示渲染打印服务器。走进一个早晨,挑战赛表现得很滑稽,管理员打入服务器机房,我们进行了例行诊断,等等,最后我说这必须是电源。当然,我们没有空余。我回到总公司-看到借贷机并意识到-它也是SGI-打开它,拧开电源,重新启动服务器-宾果游戏!我们订购了一夜的备用电池,销售代表在上午出现,问我们对演示的满意程度,我们必须等待30分钟,直到联邦快递(FedEx)出现为止,然后我们重新交换电源并将演示盒滚出门。全天工作。

0
schemathings

很久以前,我决定更改数据分区的安装点。因此,我创建了一个新目录,更改了/ etc/fstab中的挂载点,并删除了先前挂载的目录。

事情是,我仅意识到当nautilus向我显示进度条(应该删除4Kb)时,分区仍会挂载在旧目录中。值得庆幸的是,我能够在造成重大损害之前将其取消,但确实丢失了一些文件。

0
Flávio Amieiro

在同一地点的维护期间,我拔了主DNS电源线。当时我要更换辅助设备,并且在关闭机架之前一定要拉扯电缆。我们所有的站点开始快速下降,我不得不回到同一位置,将愚蠢的东西重新插入。

0
Snipper

在我的第一个安装任务上(很多年前,在DOS时代),我不小心删除了属于公共机构主管的计算机上的几乎所有系统文件和一半应用程序文件。但这不是我的错。我尝试删除C:/ TEMP文件夹中的非重要文件以释放一些空间。删除开始...过了一会儿,我在屏幕上看到根目录和DOS文件夹中一些熟悉的名称在屏幕上滚动...按Ctrl + Break很难...但是太晚了...

这是了解FAT文件系统上的交叉链接文件问题的更困难的方法。

0
miHost

我们在明尼苏达州北部为我们的工程师提供了一个冷测试设备。大约10年前,我们在那儿的T1没电了。我们已将服务器从该设备移至主数据中心,因为我们安装了速度更快的产品线,因此那里的几乎所有东西都无用。来了解一下,明尼苏达州中部的一些农民已经用一些农具刺穿了纤维。我们对那个设备甚至可以访问该光纤并且没有将其埋得更深感到很高兴。

0
squillman

想象一杯咖啡。这是一整杯,加糖。将其严重放错在机架的可伸缩键盘托上。装有服务器的机架。托盘以某种方式被推入机架。杯子进入架子,然后翻倒。

那是我的错,那时我是一位经验丰富的管理员,所以我没有任何借口。附近有一间浴室,我可以用纸巾擦去大部分脏乱的东西。幸运的是,服务器内没有足够的咖啡,所以我关闭了它们并进行了清洁。仅400个用户受到影响。 !

然后又发生了另一起事故,那是我的一个朋友。在过去的十年中,他致力于建立自己的公司。他有大约15名员工,公司的所有数据都在这台服务器上。这包括所有过去和现在的项目,大量客户数据,与他保持安全相关的合同信息,所有联系信息等。所有这些都使用LUKS进行了很好的加密。我一直在困扰他很长一段时间,以使他开始做备份,但他从来没有做过。太忙了,资金短缺,您就会明白。他相信自己的RAID1可以救他。他的最后备份是8个月大。那也是他的服务器正常运行时间。他在上次重新启动前(即8个月之前)更改了LUKS密码。现在,他重新启动了服务器,然后意识到他没有写下新密码,并且他不记得了。他只记得那是很长的,它有几个单词,大约以某种方式排列,并带有某种大写字母,可能还会加上符号。

您可以想象他的员工士气低落,以及必须重新发送信息以进行处理,从而得知他们的数据“暂时”不可用的客户的愤怒。简而言之,我花了大约40个小时的工作,花了14天的运行时间,并花了一个专门的程序来生成和测试超过一百万个密码,最终找到他的LUKS密码。

0
joechip

几年前,当时的iSeries管理员正在对IBM iSeries服务器位于机房中的区域进行一些清理。大约是早上8:30。就像我开始处理当时的工作一样。几秒钟后,屏幕开始变黑,开始有电话打进来。

找出来,当他移动桌子时,电源线缠绕在腿上,刚好足以使他移动桌子时出来。

系统断电后大约两个小时,人们可以再次工作。

0
Mike Wills

几年前,我们有点混乱。上午中旬,用户开始报告有关访问我们的SQL Server托管应用程序时的锁定错误的负载。该应用程序完全停止运行-没有人可以做任何事情。我们没有花时间去找出原因,而是进行了紧急重启,一切都重新开始。然后,我开始整理各种日志,以查看可能是什么触发了它,然后在一切变得糟透之前,我在主表上找到了一个没有相应COMMIT的开放式命名事务。

原来,我的同事已经在查询分析器中编写了一些SQL来更正主表中的一些错误数据,然后将其放在事务中。但是,他不只是按下F5来运行它,而是突出显示了整个内容,然后按下F5。除非他没有quit突出显示所有内容...他错过了实际提交事务的结尾...使表锁定了。

0
MartW