Oracle [orakel]ar - kelar
Weekend ini gue, TN, WI, sama Candra dikerjain sama Oracle dan Microsoft 
Gara-gara ada masalah listrik di client perusahaan gue, masalah sinkronisasi dari genset ke PLN, ada trouble di mesin cluster Windows 2000. Padahal mereka udah pakai UPS untuk ngatasin masalah-masalah kayak gini. Yang bikin panik adalah software yang running di mesin yang bermasalah ini adalah server untuk produksi, software ini mengatur "kanban" sistem, just in time process di sebuah pabrik. Waktu datang dan ngelihat truk-truk yang ngebawa bahan baku dan yang mau ngambil barang produksi pada ngantri, macet, gue bilang dalam hati "hell, we will stay in this weekend in the server room again"
Nothing wrong with the design, software dan server-server ini sudah berjalan hampir 6 tahun tanpa banyak komplain. Waktu kita buat sistem ini dengan Windows 2000 Cluster, yang "iklannya" adalah High Availability menurut si Bill, dan pakai Oracle database kita yakin sekali sistem ini akan tahan ujian dan cobaan, walaupun kita tahu kadang-kadang si Ora ini kurang suka juga sama si Mic. Hardwarenya sendiri walaupun high-end di tahun 2002, tapi masih handal untuk kondisi sekarang. Shared disknya pakai RAID ARRAY, yang belum obsolete. Sekali lagi nothing wrong for mission critical system.
Tadinya kita pikir ini masalah cluster, tapi waktu kita test read/write ke shared Itu service Ora gak mau jalan-jalan. Emangnya si Ora punya kaki apa mau jalan-jalan
Gue sama TN coba-coba tulis di shared disknya, terus kita pindah-pindahin nodenya. No problem. Jadi kesimpulan kita clusternya OK. It’s around 9 PM Saturday night now. Giliran si Candra jajal kemampuan di si Ora, dengan sqlplus dan command line toolsnya yang gue kagak ngerti. Eh si Ora pundung gak mau konek. Gue lihat di Perf window itu proses read ke shared disk manteng di 100%. Gue dan Candra terus cari-cari error message nya si Ora ke temen kita mas Google. Intinya mas Google bilang itu si Ora gak mau baca karena dia menganggap udah ada session dan user yang ngebaca database, jadinya access deny.
Kesimpulan sementara ada masalah either di shared disk (bad sector, whatever) atau di proses instance-nya si Ora. OK kita sepakat untuk deinstall si Ora dan format ulang shared disk.
Deinstall si Ora sih gampang, sampai registrynya kita bersihin sekalian di node 1 dan 2. Terus kita matiin node2, karena kita mau format shared disknya. Eh si Cluster managementnya protes. Setelah pusing-pusing, mas Google ngasih tahu kalau mau format share disk di cluster windows, si cluster harus dibohongin. Caranya waktu pengecekan disk di cluster service harus dipanjangin. Kita set jadi 10 menit, baru si format mau kerja. he..he..he… gue bo’ongin lu. Gue tambahain chkdsk /f /r biar yakin gak ada bad sector di shared disk.
Sekarang tugas Candra untuk reinstall si Ora sama instancenya terus create ulang database dan restore. Jam udah 01.00 AM Minggu pagi. Setelah 2 jam berkutat dia nyerah. Selalu gagal berhenti di create database. Itu Disk read perfnya manteng di 100%. Gue amat-amatin lagi nih si node. Akhirnya gue ambil kesimpulan OK kita uninstall cluster servicenya dan kita create ulang. Supaya gak salah si TN gue minta capture semua Cluster admin ke bmp terus gue check satu-satu network card MAC Address dan IP Address. Jam 4.30 AM gue berhenti Subuhan dulu. Habis Subuhan gue lanjutin lagi dan karena ngecheck MAC Address satu-satu gue nemuin anomali di Hartbeatnya si cluster. Ternyata setting speednya NIC gak sama. Wah ini nih sumber masalahnya 

Jadi rupanya karena electrical instability, ini NIC ngereset akibatnya private ip untuk heartbeat gak sama speednya, yang satu 100Mbps/Full Duplex yang satu lagi Autosense, which is gak boleh. Gue inget waktu ngerjain cluster di Linux kalau heartbeatnya gue set di Autosense selalu aja gak jalan. Jadi gue set dua-duanya ke 100Mbps/Half-Duplex. Gue restart ulang kedua node, dan gue minta Candra untuk coba create database dan ngecopy backup datanya. Jam 07.30 AM Minggu pagi.
Jam 08.45 ini proses copy database ora kelar juga. Gue ngambil kesimpulan bahwa masalah yang terjadi adalah instabilitas pada Raid Array dan Fibre Channel mengakibatkan proses I/O yang ora kelar-kelar sehingga mengacaukan Cluster dan databas. Gue putuskan untuk ambil server cadangan di kantor untuk backup siapa tahu kita gak bisa ngejinakin yang pada pundung ini. Ternyata gak mudah juga ngatur orang di hari Minggu. Yang megang kunci kantor masih tidur, terus Bang Sahlan driver kitalagi nganterin TN pulang ke Depok, maklum istrinya lagi hamil muda jadi kita nggak bisa maksa dia untuk terus kerja. Eh gak tahunya Bang Sahlan ketiduran di Depok, jadinya itu server baru dateng ke Sunter jam 11.00 siang. Begitu saya periksa si server ini pakai harddisk SAS yang nggak ada drivernya di Windows 2000. Time is running out, gak sempat nyari-nyari di internet. Akhirnya sekitar jam 3 sore kita ambil lagi server lain di kantor yang harddisknya SATA. Kita install OS dan database. Terus ngedump data. Sementara itu gue terus juga ngebenerin si RAID ARRAY dan Cluster Server.
Singkat cerita jam 02.00 pagi hari Senin kita berhasil ngesetup server backup dengan database dan aplikasi yang siap dipakai untuk produksi hari Senin. Sementara itu gue perhatiin Cluster Server dan Raid Array yang gue benerin juga udah mulai berbaik hati sama gue, dia gak lagi ngabisin waktu untuk proses I/O yang gak jelas walaupun masih terasa cukup lama dibandingkan proses I/O di server backup. I give up dan saya usul untuk ngebawa orang prinsipal untuk nganalisa hardwarenya.





