"CEPH Kurulumu" sayfasının sürümleri arasındaki fark
(→CEPH Kümesi Kurulum ve Yapılandırma) |
(→CEPH Bileşenleri İndirme ve Yapılandırma) |
||
118. satır: | 118. satır: | ||
===CEPH Bileşenleri İndirme ve Yapılandırma=== | ===CEPH Bileşenleri İndirme ve Yapılandırma=== | ||
− | ceph-deploy üzerinden tüm | + | Kurulum için bir sunucu kurulum sunucusu olarak seçilmelidir. Biz zula209'u kurulum sunucusu olarak kullanacağız. Kurulumda, ceph-deploy programı üzerinden tüm sunucularda gerekli paketleri indirmek için ceph-deploy adında bir kullanıcı oluşturulur ve bu kullanıcı üzerinden tüm kurulum işlemleri yapılır.Ceph-deploy kullanıcısına sudo ile root olma yetkisi verilir.Burada dikkat edilecek nokta ceph-deploy kullanıcısının sudo komutunu kullanırken parola istenmeyecek şekilde yapılandırılmasınıdır. Kullanıcı sudo grubuna eklenecek ise /etc/sudoers dosyası |
%sudo ALL=(ALL:ALL) NOPASSWD: ALL | %sudo ALL=(ALL:ALL) NOPASSWD: ALL | ||
124. satır: | 124. satır: | ||
şeklinde yapılandırılmalıdır. Kurulum yapılacak diğer sunucularda da benzer şekilde ceph-deploy kullanıcısı yaratılır ve sudo ile root olabilmesi için gerekli ayarlar yapılır. | şeklinde yapılandırılmalıdır. Kurulum yapılacak diğer sunucularda da benzer şekilde ceph-deploy kullanıcısı yaratılır ve sudo ile root olabilmesi için gerekli ayarlar yapılır. | ||
− | + | Kurulum sunucusundan diğer tüm sunuculara ceph-deploy kullanıcısından erişim şifresiz bir şekilde yapılacak şekilde yapılandırılmalıdır.Bunun için kurulum sunucusundaki ceph-deploy kullanısının ssh key'leri ssh-copy-id komutu ile diğer sunuculara kopyalanmalıdır. | |
+ | |||
+ | ceph-deploy@zula209:~$ ssh-copy-id ceph-deploy@zula211 | ||
+ | ceph-deploy@zula209:~$ ssh-copy-id ceph-deploy@zula212 | ||
+ | ceph-deploy@zula209:~$ ssh-copy-id ceph-deploy@zula213 | ||
+ | |||
+ | Kurulum için my-cluster adında bir dizin oluşturulur ve bu dizinde ceph.conf yetki dosyası, yetkilendirme için gerekli keyring dosyaları ve log burada yer alır. | ||
su - ceph-deploy | su - ceph-deploy |
05:59, 2 Ağustos 2018 tarihindeki hâli
İçindekiler
- 1 İşletim Sistemi Kurulum Öncesi Yapılandırılması
- 1.1 İşletim sistemi Güncelllenmesi
- 1.2 /etc/hosts Dosyasının Düzenlenmesi
- 1.3 NTP ile Saat Senkronizasyonu
- 1.4 SSD Diskler İçin I/0 Scheduler ve Rotation Değerlerinin Değiştirilmesi
- 1.5 Apparmor Yazılımının Kapatılması
- 1.6 Updatedb Programın İptal Kapatılması
- 1.7 Disk read_ahead değerinin Arttırılması
- 1.8 XFS Dosya Sistemi Yapılandırması
- 2 CEPH Kümesi Kurulum ve Yapılandırma
- 2.1 Paket Kurulumları
- 2.2 CEPH Bileşenleri İndirme ve Yapılandırma
- 2.3 OSD Disk Ekleme ve Yönetimi
- 2.4 CEPH Servisleri Oluşturma
- 2.5 POOL Oluşturma, PG_NUM ve REPLICA Ayarları
- 2.6 Block Image Oluşturma/Silme ve Benchmark testi
- 2.7 Benchmark Ceph Object
- 2.8 POOL, OSD KULLANIM ve PERFORMANS metrikleri, KOTA Tanimlama
İşletim Sistemi Kurulum Öncesi Yapılandırılması
İşletim sistemi Güncelllenmesi
/etc/hosts Dosyasının Düzenlenmesi
Sunucuların birbirinden haberdar olması için /etc/hosts dosyasına sunucu bilgileri IP hostname olacak şekilde eklendi.
NTP ile Saat Senkronizasyonu
/etc/security/limits.conf Dosyası Dosya Açma Limitlerinin Arttırılması Kullanıcıların açabileceği maksimum dosya tanımlayıcısı (file descriptor) sayısını /etc/security/limits.conf dosyasına aşağıdaki satırları ekleyerek arttırıyoruz.
* soft nofile 65000 * hard nofile 65000
SSD Diskler İçin I/0 Scheduler ve Rotation Değerlerinin Değiştirilmesi
SSD disklerin scheduler’i atanmış değerinden SSD diskler için daha uygun olan noop’a değiştirmek için: (SSD disk sde)
echo noop > /sys/block/sde/queue/scheduler
yazmak yeterli. SSD diskler klasik diskler gibi dönen hareketli parçalardan oluşmadığı için SSD diskleri kullanan işletim sistemlerinin I/O operasyonlarını bu durumu göz önüne alarak gerçekleştirmeleri gerekiyor. Bu nedenle SSD disklerin rotation değeri 0 olmalı. Mevcut durumu görmek için:
root@ceph1:/home/ceph# cat /sys/block/sde/queue/rotational 1
komutunu kullandığımızda değerin 1 olduğunu görüyoruz. Normalde işletim sisteminin diskin SSD olduğunu anlayıp bu değer 0 yapmasını bekliyoruz. Manüel olarak 0 yapmak için:
echo "1" > /sys/block/sde/queue/rotational
yazmak yeterli. Açılışta geçerli olması için echo ile başlayan komutları satırı /etc/rc.local’a ekleyebilirsiniz.
Apparmor Yazılımının Kapatılması
invoke-rc.d apparmor kill update-rc.d -f apparmor remove
Updatedb Programın İptal Kapatılması
Disk read_ahead değerinin Arttırılması
Disklerin atanmış değerleri olan 128, 2048 olarak değiştirildi. Mevcut değeri görmek için:
root@ceph1:/home/ceph# cat /sys/block/sde/queue/read_ahead_kb 128
Yeni değerin atanması:
root@ceph1:/home/ceph# echo 2084 > /sys/block/sde/queue/read_ahead_kb root@ceph1:/home/ceph# cat /sys/block/sde/queue/read_ahead_kb 2084
OSD diskleri için değerleri açılışta geçerli kılmak için aşağıdaki satırları /etc/rc.local dosyasına ekleyebilirsiniz.
echo 2084 > /sys/block/sdb/queue/read_ahead_kb echo 2084 > /sys/block/sdc/queue/read_ahead_kb echo 2084 > /sys/block/sdd/queue/read_ahead_kb echo 2084 > /sys/block/sde/queue/read_ahead_kb echo 2084 > /sys/block/sdf/queue/read_ahead_kb
read_ahead_kb değerinin arttırılması sıralı okuma (sequential read) performansınızı arttıracaktır. I/O örüntünüze göre bu değeri daha arttırarak performans kazanımı sağlayabilirsiniz. Bu değerin arttırılması hafıza kullanımının artmasına neden olacağı için bellek kullanımı üzerinde bir baskı oluşturabilir
XFS Dosya Sistemi Yapılandırması
Ceph XFS Dosya Sistemi Yapılandırması
Ceph’te ext4,btrfs ve xfs dosya sistemi olarak kullanılabiliyor. Btrfs’in henüz production için kullanımı önerilmiyor. Ceph belgelerinde production sistemler için xfs kullanımı önerildiği için kurulumu xfs üzerinden gerçekleştiriyoruz. Dosya sisteminin ne olacağı, mkfs ve mount opsiyonları ceph.conf dosyasında tanımlanıyor.
Dosya Sistemi Yaratılması
Disklerin dosya sistemini yaratırken mkfs.xfs programında ilk olarak size=2048 argümanını kullanıyoruz. Bunun nedeni ceph tarafından kullanılan Extended Attributes (XATTRs) daha fazla alan açmak. Size argümanı inode büyüklüğü tanımlamak için kullanılıyor. Atanmış değeri (default) 256 ki buda 256Byte’a karşılık geliyor. 512 Byte inode kullanımında ortalama 350 Byte’lık bir alan xattr kullanımına kalıyor. Bu değeri 2048 yaptığımızda yaklaşık1900 Byte alanı xattr için ayırmış oluyoruz.
mkfs.xfs programına argüman olarak kullandığımız opsiyonlardan bir diğeri finobt=1. Bu argüman xfs’in boş inode’ların takibini btree algoritması ile yapılmasını sağlıyor. Bu özelliği kullanmak için çekirdek sürümünüzün 3.15 xfsprogs sürümünüzün 3.2 ve üzeri olması gerekiyor.
Ubuntu 14.04 ile xfsprogs sürümü 3.1.9 olarak geliyor. xfsprogs 3.2 ve üzerinde gelen finobt argümanının kullanabilmek için xfsprogs paketini aşağıdaki komutları kullanarak güncelliyoruz
wget -c http://mirrors.kernel.org/ubuntu/pool/main/x/xfsprogs/xfsprogs_3.2.1ubuntu1_amd64.deb dpkg -i xfsprogs_3.2.1ubuntu1_amd64.deb
mkfs.xfs programında kullandığımız üçüncü argüman crc=1. Bu argüman xfs’in metadatadaki bozulmaları karcı CRC32 algoritmasını kullanarak denetlemesini sağlıyor. Hepsi bir arada komut sdb diski için dosya sistemi yaratmak istersek:
mkfs.xfs -m crc=1,finobt=1 -f -i size=2048 /dev/sdb
halini alıyor.
Dosya Sistemi Mount Opsiyonları
Örnek olarak verdiğimizi sdb diskinin fstab’a eklemek için:
/dev/sdb /disk1 xfs rw,noatime,inode64,logbsize=256k,delaylog 0 1
Kullandığımız mount opsiyonları açıklamaları:
- noatime: Dosya sisteminin en son erişim zamanı bilgisini tutmaması için
- inode64: 1TByte üzeri disklerde kullanılması önerilen ve inode’ların 64 bit olarak tanımlanması
- logbsize=256k : Çok fazla okuma yazma yapan dosya sistemleri için artırılması öneriliyor. Atanmış değeri 32k
- delaylog: Metadata bilgisinin bellekte mümkün olduğunca tutulup yapılan I/O miktarını azaltan bir opsiyon.
Ceph’te dosya sistemini yaratılırken hangi opsiyonların kullanılacağını ceph.conf’ta [osd] başlığı altında tanımlıyoruz. Elle mkfs yapmanıza yada mount etmenize gerek yok.
[osd] osd mkfs type = xfs osd mkfs options xfs = -m crc=1,finobt=1 -f -i size=2048 osd mount options xfs = rw,noatime,inode64,logbsize=256k,delaylog
CEPH Kümesi Kurulum ve Yapılandırma
Paket Kurulumları
Ubuntu 16.04 işletim sistemi üzerinde güncel olan CEPH Mimic (13.2.0) kurulumu burada anlatılmaktadır.
- Kurulum dökümanı her bir OSD host üzerinde 12 adet fiziksel disk bulunan, ayrıca nvme SSD yer alan 4 ayrı sunucu üzerinde anatılmaktadır (zula209, zula210, zula211 ve zula212).
- Her bir fiziksel sunucu 10G ve 40G kartlara sahiptir, dolayısıyla client/pulic network 192.168.56.0/24 10G interface üzerinde yapılandırılırken replika vb işlemler için trafiğin daha fazla olacağı cluster network 192.168.200.0/24 40G interface ile yapılandırılacaktır.
- zula209 ceph-admin olarak seçilip tüm kurulumlar ceph-deploy ile diğer hostlar üzerinde de yapılacaktır.
- Yönetim ağı ise gigabit interface olup 172.16.2.0/24 networkünde yer almaktadır.
Kurulum için öncelikle repoların düzenlenmesi gerekmektedir. Aşağıdaki komutları tüm depeloma sunucularında çalıştırarak CEPH repolarını ekleyiniz ve ceph-deploy programını kurunuz.
wget -q -O- 'https://download.ceph.com/keys/release.asc' | sudo apt-key add - # ceph release: mimic, ubuntu release: xenial sudo apt-add-repository 'deb https://download.ceph.com/debian-mimic/ xenial main'
CEPH bileşenlerinin kurulumu ve yapılandırılması ceph-deploy aracı ile tek bir host üzerinden kendi ve diğerleri üzerine gerçekleştirilecektir.
sudo apt update sudo apt install ceph-deploy
Bunun yanında tüm sunucuların /etc/hosts dosyasına sunucuların IP adreslerini yazınız.
192.168.56.209 zula209 192.168.56.210 zula210 192.168.56.211 zula211 192.168.56.212 zula212
CEPH Bileşenleri İndirme ve Yapılandırma
Kurulum için bir sunucu kurulum sunucusu olarak seçilmelidir. Biz zula209'u kurulum sunucusu olarak kullanacağız. Kurulumda, ceph-deploy programı üzerinden tüm sunucularda gerekli paketleri indirmek için ceph-deploy adında bir kullanıcı oluşturulur ve bu kullanıcı üzerinden tüm kurulum işlemleri yapılır.Ceph-deploy kullanıcısına sudo ile root olma yetkisi verilir.Burada dikkat edilecek nokta ceph-deploy kullanıcısının sudo komutunu kullanırken parola istenmeyecek şekilde yapılandırılmasınıdır. Kullanıcı sudo grubuna eklenecek ise /etc/sudoers dosyası
%sudo ALL=(ALL:ALL) NOPASSWD: ALL
şeklinde yapılandırılmalıdır. Kurulum yapılacak diğer sunucularda da benzer şekilde ceph-deploy kullanıcısı yaratılır ve sudo ile root olabilmesi için gerekli ayarlar yapılır.
Kurulum sunucusundan diğer tüm sunuculara ceph-deploy kullanıcısından erişim şifresiz bir şekilde yapılacak şekilde yapılandırılmalıdır.Bunun için kurulum sunucusundaki ceph-deploy kullanısının ssh key'leri ssh-copy-id komutu ile diğer sunuculara kopyalanmalıdır.
ceph-deploy@zula209:~$ ssh-copy-id ceph-deploy@zula211 ceph-deploy@zula209:~$ ssh-copy-id ceph-deploy@zula212 ceph-deploy@zula209:~$ ssh-copy-id ceph-deploy@zula213
Kurulum için my-cluster adında bir dizin oluşturulur ve bu dizinde ceph.conf yetki dosyası, yetkilendirme için gerekli keyring dosyaları ve log burada yer alır.
su - ceph-deploy mkdir my-cluster cd my-cluster
ceph-deploy komutu bir dizi komut serisini çalıştırıp logları ekrana basar. Ola ki bu süreçte bir sorun yaşandı yaptığı işlemleri geri almaya çalışır. Aşağıda böyle bir işlem sonrasında yarım kalan işlerin temizlenmesi için çalıştırılması gereken komutlar gösterilmektedir.
ceph-deploy purge {ceph-node} [{ceph-node}] ceph-deploy purgedata {ceph-node} [{ceph-node}] ceph-deploy forgetkeys rm ceph.*
- İlgili dizin altında aşağıdaki komutu calistirilir, ceph.conf dosyasi dizinde olusur.
ceph-deploy new zula209
Bu dosyaya cluster ve public ip leri asagidaki sekilde eklenir. Ayrıca yeni bir pool oluşturulduğunda bu pool için default ayarlar burada verilebilir. Örneğin parametre verilmeden oluşturulacak bir pool için replika sayısı 3, pg ve pgp sayısı 64 olarak ayarlanması için kullanınlan ceph.conf dosyası:
[global] fsid = ccfe4242-c679-44c2-ba49-88c4234f44e1 mon_initial_members = zula209 mon_host = 192.168.56.209 auth_cluster_required = cephx auth_service_required = cephx auth_client_required = cephx public network = 192.168.56.0/24 cluster network = 192.168.200.0/24 # the number of replica is 3 osd pool default size = 3 # Write an object 3 times. osd pool default min size = 3 # Allow writing two copy in a degraded state. # the number of pg per osd is 100 osd pool default pg num = 64 osd pool default pgp num = 64
osd pg sayısını hesaplamak için (OSD sayısı * 100) / Replika sayısı formülü çıkan sonuç en yakın ikini katına yuvarlanarak kullanılabilir. 48 OSD üç replika için 48 * 100 /4 = 1600. En yakın 2 nin kuvvet 2048 olduğu için 2048 kullanılabilir.
ceph.conf dosyası düzenlendikten sonra her bir host için kurulum işlemlerine aşağıdaki komutla başlanabilir. Burada dikkat edilmesi gereken paket kurulumları esnasında ekrana basılan loglarda CEPH sürümü ve tüm fiziksel sunuculara ilgili paketlerin kurulumlarının eksiksiz yapılmasıdır.
ceph-deploy install zula209 zula210 zula211 zula212
Kurulumlardan sonra gerekli yetkilendirme dosyalarının dizine aktarılabilmesi için aşağıdaki komut çalıştırılır.
ceph-deploy mon create-initial
$ ls -ll total 64 -rw------- 1 ceph-deploy ceph-deploy 113 Jun 7 07:25 ceph.bootstrap-mds.keyring -rw------- 1 ceph-deploy ceph-deploy 113 Jun 7 07:25 ceph.bootstrap-mgr.keyring -rw------- 1 ceph-deploy ceph-deploy 113 Jun 7 07:25 ceph.bootstrap-osd.keyring -rw------- 1 ceph-deploy ceph-deploy 113 Jun 7 07:25 ceph.bootstrap-rgw.keyring -rw------- 1 ceph-deploy ceph-deploy 151 Jun 7 07:25 ceph.client.admin.keyring -rw-rw-r-- 1 ceph-deploy ceph-deploy 267 Jun 7 07:23 ceph.conf -rw-rw-r-- 1 ceph-deploy ceph-deploy 30148 Jun 7 07:25 ceph-deploy-ceph.log -rw------- 1 ceph-deploy ceph-deploy 73 Jun 7 07:21 ceph.mon.keyring -rw-r--r-- 1 root root 1645 Oct 15 2015 release.asc
Aşağıdaki komut ile cephcli komutlari bulundugumuz nodda yetkilendirilir. Boylece yetkilendirme istenen ceph komutlari calistirilir. Ornegin zula210 dedigimizde zula209 uzerinde olusturulan anahtarlar ilgili sunucuda /etc/ceph/ceph.client.admin.keyring dosyasina yazilarak erisim yetkisi o sunucuya da taninmis olur. Ayrıca Luminious versiyonu ve sonrası kurulumlar için mgr oluşturulur.
ceph-deploy admin zula209 zula210 zula211 zula212 ceph-deploy mgr create zula209
Böylece tüm temel bileşenlerinin kurulumları ve temel seviyede yapılandırılması tamamlanmış olur. Artık ceph -s veya ceph health komutları ile ceph kümesinin durumlarına bakılabilir.
cluster: id: 1521e924-1b18-4192-92b2-448dd9524038 health: HEALTH_OK services: mon: 1 daemons, quorum zula209 mgr: zula209(active) osd: 0 osds: 0 up, 0 in data: pools: 0 pools, 0 pgs objects: 0 objects, 0 B usage: 0 B used, 0 B / 0 B avail pgs:
OSD Disk Ekleme ve Yönetimi
Yukarıda çalıştırılan komutun çıktısına bakıldığında ayakta ve çalışan osd sayısı sıfır olarak görülmektedir. Dolayısıyla ceph kümesinde kullanılabilir alan ve kapasite de bulunmamaktadır. Bu başlık altında her bir host altında yer alan 12 ayrı HDD disk yapılandırılıp kullanılabilir hale getirilecektir. Burada storage backend olarak sahip olduğu pekçok avantajı nedeniyle Bluestore storage backend olarak kurulacaktır. Mimic versiyonunda default olarak FileStore değil BlueStore artık gelmektedir. Bu storage backendleri ile ilgili bilgiler aşağıdan erişilebilir.
İlgili sunucular üzerinde kurulum yapmadan önce eskiden kalan ceph lvm volumeler var ise silinmelidir, diğer türlü hata verecek ve osd diski kümeye eklemeyecektir.
vgscan vgremove ceph-c6cc6d67-0de2-4cd0-b9fa-384ecbfc6a00
Bluestore yapılandırılırken block.db ve block.wal dosyaları performans artırmak için nvme ssd diskler üzerinde (partition) aşağıdaki komut ile tutulabilir, ancak birden fazla osd'nin aynı partition kullanması başlangıçta çalışıyorken ilerleyen zamanlarda bir hata alması durumunda o sunucu üzerindeki tüm OSD'lerin id maplerini karıştırmasi nedeniyle büyük bir soruna neden olabilir. Bu konuda wiki sayfasında ayrıca bir başlıkta bu tecrübelere yer verilecektir.
- block.db ve block.wal islerini nvme ssd diski uzerinde yapabilmek icin sirasiyla 120 ve 240G partition fdisk ile olusturulur. Ardından ceph-deploy komutu ile osd disk oluşturulur.
Device Start End Sectors Size Type /dev/nvme0n1p1 2048 251660287 251658240 120G Linux filesystem /dev/nvme0n1p2 251660288 754976767 503316480 240G Linux filesystem sudo ceph-deploy osd create zula209 --data /dev/sdb --block-db /dev/nvme0n1p1 --block-wal /dev/nvme0n1p2
- block.db ve block.wal eğer block verinin yazılacağı diskte oluşturulacaksa aşağıdaki komut çalıştırılır. Böylece fiziksel sunucu üzerinde yer alan bir fiziksel disk osd disk olarak kümeye eklenir.
sudo ceph-deploy osd create zula209 --data /dev/sdb
Benzer sekilde diger osd disklerde olusturulur ve ceph osd tree komutu ile durumlarina bakilir.
for i in `echo sdc sdd sde sdf sdg sdh sdi sdj sdk sdl sdm`; do ceph-deploy osd create zula209 --data /dev/$i; done
zula210, zula211 ve zula212'de de benzer komutla diskler olusturulur ve osd'lerin durumuna bakilir.
Var olan osd diskler asagidaki sekilde gorulebilir.
$ sudo ceph osd tree ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF -1 7.39459 root default -3 7.39459 host zula209 0 hdd 7.39459 osd.0 up 1.00000 1.00000
Ayrica ceph dizini sembolik linkleri de asagidaki sekilde kontrol edilmelidir. Bu yapılandırmada .db ve .wal dosyaları ssd üzerinde oluşturulduğundan sembolik linkle bu disk bölümüne bağlanmıştır. type dosyasi icerisinde bluestore yazilidir. Bunun disinda block wal ve db nvme linklidir. vgscan ile bakildiginda ceph-3f... volume grubu olusturulmustur. Ek kontroller icin lsblk ve blkid komutlari da kullanilabilir.
$ sudo ls /var/lib/ceph/osd/ceph-0 -ll total 56 -rw-r--r-- 1 ceph ceph 189 Jun 7 07:32 activate.monmap lrwxrwxrwx 1 ceph ceph 93 Jun 7 07:32 block -> /dev/ceph-3f44b49a-ff3e-489a-bbf9-af3dd2ffd642/osd-block-ec84a9fa-0b1a-4f33-8ad2-b1a956e4fe4f lrwxrwxrwx 1 root root 14 Jun 7 07:32 block.db -> /dev/nvme0n1p1 lrwxrwxrwx 1 root root 14 Jun 7 07:32 block.wal -> /dev/nvme0n1p2 -rw-r--r-- 1 ceph ceph 2 Jun 7 07:32 bluefs -rw-r--r-- 1 ceph ceph 37 Jun 7 07:32 ceph_fsid -rw-r--r-- 1 ceph ceph 37 Jun 7 07:32 fsid -rw------- 1 ceph ceph 55 Jun 7 07:32 keyring -rw-r--r-- 1 ceph ceph 8 Jun 7 07:32 kv_backend -rw-r--r-- 1 ceph ceph 21 Jun 7 07:32 magic -rw-r--r-- 1 ceph ceph 4 Jun 7 07:32 mkfs_done -rw-r--r-- 1 ceph ceph 41 Jun 7 07:32 osd_key -rw-r--r-- 1 ceph ceph 15 Jun 7 07:32 path_block.db -rw-r--r-- 1 ceph ceph 15 Jun 7 07:32 path_block.wal -rw-r--r-- 1 ceph ceph 6 Jun 7 07:32 ready -rw-r--r-- 1 ceph ceph 10 Jun 7 07:32 type -rw-r--r-- 1 ceph ceph 2 Jun 7 07:32 whoami
Bu arada sorun olmasi durumunda kalan osd'yi cikarmak icin asagidaki komutlar kullanilir. Ornek id 0'da olan osd icin:
sudo ceph osd down 0; sudo ceph osd destroy 0 --yes-i-really-mean-it;ceph osd rm 0
Ayrica stderr: Device /dev/sdd not found (or ignored by filtering) gibilerinden bir hata almasi durumunda asagidaki islem yapilir. Onceden fdisk ile disk partitionlara bolunup silinse dahi mpt bilgisinin silinmesi gerekiyor. Bu arada osd yapmak istediginiz diskin isletim sisteminin yuklu oldugu root diski olmadigindan emin olmak gerekir.
dd if=/dev/zero of=/dev/sdd count=1 sudo ceph-deploy osd create zula209 --data /dev/sdd --block-db /dev/nvme0n1p1 --block-wal /dev/nvme0n1p2
Son olarak osd disklerin ve ceph kümesinin durumu aşağıdaki komutlarla kontrol edilip diğer sürece başlanır.
sudo ceph osd tree ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF -1 354.94043 root default -3 88.73511 host zula209 0 hdd 7.39459 osd.0 up 1.00000 1.00000 1 hdd 7.39459 osd.1 up 1.00000 1.00000 2 hdd 7.39459 osd.2 up 1.00000 1.00000 3 hdd 7.39459 osd.3 up 1.00000 1.00000 4 hdd 7.39459 osd.4 up 1.00000 1.00000 5 hdd 7.39459 osd.5 up 1.00000 1.00000 6 hdd 7.39459 osd.6 up 1.00000 1.00000 7 hdd 7.39459 osd.7 up 1.00000 1.00000 8 hdd 7.39459 osd.8 up 1.00000 1.00000 9 hdd 7.39459 osd.9 up 1.00000 1.00000 10 hdd 7.39459 osd.10 up 1.00000 1.00000 11 hdd 7.39459 osd.11 up 1.00000 1.00000 -5 88.73511 host zula210 12 hdd 7.39459 osd.12 up 1.00000 1.00000 13 hdd 7.39459 osd.13 up 1.00000 1.00000 14 hdd 7.39459 osd.14 up 1.00000 1.00000 15 hdd 7.39459 osd.15 up 1.00000 1.00000 16 hdd 7.39459 osd.16 up 1.00000 1.00000 17 hdd 7.39459 osd.17 up 1.00000 1.00000 18 hdd 7.39459 osd.18 up 1.00000 1.00000 19 hdd 7.39459 osd.19 up 1.00000 1.00000 20 hdd 7.39459 osd.20 up 1.00000 1.00000 21 hdd 7.39459 osd.21 up 1.00000 1.00000 22 hdd 7.39459 osd.22 up 1.00000 1.00000 23 hdd 7.39459 osd.23 up 1.00000 1.00000 -7 88.73511 host zula211 24 hdd 7.39459 osd.24 up 1.00000 1.00000 25 hdd 7.39459 osd.25 up 1.00000 1.00000 26 hdd 7.39459 osd.26 up 1.00000 1.00000 27 hdd 7.39459 osd.27 up 1.00000 1.00000 28 hdd 7.39459 osd.28 up 1.00000 1.00000 29 hdd 7.39459 osd.29 up 1.00000 1.00000 30 hdd 7.39459 osd.30 up 1.00000 1.00000 31 hdd 7.39459 osd.31 up 1.00000 1.00000 32 hdd 7.39459 osd.32 up 1.00000 1.00000 33 hdd 7.39459 osd.33 up 1.00000 1.00000 34 hdd 7.39459 osd.34 up 1.00000 1.00000 35 hdd 7.39459 osd.35 up 1.00000 1.00000 -9 88.73511 host zula212 36 hdd 7.39459 osd.36 up 1.00000 1.00000 37 hdd 7.39459 osd.37 up 1.00000 1.00000 38 hdd 7.39459 osd.38 up 1.00000 1.00000 39 hdd 7.39459 osd.39 up 1.00000 1.00000 40 hdd 7.39459 osd.40 up 1.00000 1.00000 41 hdd 7.39459 osd.41 up 1.00000 1.00000 42 hdd 7.39459 osd.42 up 1.00000 1.00000 43 hdd 7.39459 osd.43 up 1.00000 1.00000 44 hdd 7.39459 osd.44 up 1.00000 1.00000 45 hdd 7.39459 osd.45 up 1.00000 1.00000 46 hdd 7.39459 osd.46 up 1.00000 1.00000 47 hdd 7.39459 osd.47 up 1.00000 1.00000
CEPH Servisleri Oluşturma
Birden fazla monitör servisinin eklenmesi gerekmektedir, bir tanesi gittiğinde ceph kümesi diğer kalan monitörler üzerinden devam edebilmektedir. Bu örnekte osd hostlar üzerinde birden fazla monitör servisi çalıştırılmaktadır. Ayrı bir sunucu üzerinden çalışması daha iyi olabilecektir. Bunun dışında mgr ve rgw gibi servislerde bu fiziksel sunucular üzerinde yedekli olacak şekilde basitçe yapılandırılmıştır.
$ sudo ceph -s cluster: id: b49d69c7-e017-4f9f-b69b-57d3efe7987b health: HEALTH_WARN too few PGs per OSD (2 < min 30) services: mon: 4 daemons, quorum zula209,zula210,zula211,zula212 mgr: zula209(active), standbys: zula212 osd: 48 osds: 48 up, 48 in rgw: 1 daemon active data: pools: 4 pools, 32 pgs objects: 219 objects, 1.1 KiB usage: 5.7 TiB used, 349 TiB / 355 TiB avail pgs: 32 active+clean
Tum OSD'ler calisiyor ve ayakta. zula210,zula211 ve zula212'ye monitor eklemek icin
ceph-deploy mon add zula210 ceph-deploy mon add zula211 ceph-deploy mon add zula212
mgr ve rgw nodlarini eklemek icin sirasiyla asagidaki komutlar calistirilir.
ceph-deploy mgr create zula212 ceph-deploy rgw create zula209
POOL Oluşturma, PG_NUM ve REPLICA Ayarları
Replika sayisi 3, eger o an PG degraded durumunda ise yine 3 olacak sekilde (degrade durumunda kalan osd sayisi, veri kritik islerde yuksek tutmakta fayda var) conf dosyasi duzenlenir. Ayrica default pg sayisini belirlemek icin her bir osd icin 100 pg onerilmistir. Buna gore pg sayisi (OSD sayisi x100)/replika sayisi yani (4x12x100)/3=1600 olarak verilmistir. 2'nin kati olacak en yakin sayi 2048 oldugundan bu kapasitede bir CEPH kümesi için her pool'a toplamda verilebilecek pg sayısı en fazla 2048 olmalıdır.
[global] osd pool default size = 3 # Write an object 3 times. osd pool default min size = 3 # Allow writing two copy in a degraded state.
osd pool default pg num = 64 osd pool default pgp num = 64
Her bir pool için defaultta oluşturulacak pg sayısı 64 olarak yukarıda verilmiştir. Sahip olacagimiz toplam pg sayisi ise hesaba göre 2048'dir. Her bir pool icin bu sayiyi dagitmak dikkat isteyen diger bir istir. Bunun icin https://ceph.com/pgcalc/ sayfasinda bir hesaplama araci verilmistir. Buna gore pool'un gelecek yil buyume orani, kapasitenin ne kadarini kullanabilecegi ve replika sayisi gibi parametreler verilmistir. Yeni bir pool olustururken buna dikkat etmekte fayda var.
NOT: PG sayisi artirilabilir, ancak asla ilgili poolu yok edip olusturmadan azaltilamaz. Degisiklik isleminin cluster performansi uzerinde buyuk etkisi vardır.
Bunlarin disinda sudo ceph -s komutu ile clusterin durumuna bakildiginda:
cluster: id: b49d69c7-e017-4f9f-b69b-57d3efe7987b health: HEALTH_WARN too few PGs per OSD (2 < min 30)
hatasi gorulmektedir. Bu pg sayisinin OSD bazında oldukca az olmasindan kaynaklidir. sudo ceph osd lspools komutu ile olusturulmus olan pool'lar listelenebilir. 1 .rgw.root 2 default.rgw.control 3 default.rgw.meta 4 default.rgw.log
Bunlarin pg sayisi ise asagidaki komutla alinir.
sudo ceph osd pool get .rgw.root pg_num pg_num: 8 sudo ceph osd pool get .rgw.root pgp_num pgp_num: 8
Her bir pool'da pg ve pgp sayisi 64 olacak sekilde asagidaki sekilde guncellendi.
sudo ceph osd pool set .rgw.root pg_num 64 set pool 1 pg_num to 64 sudo ceph osd pool set .rgw.root pgp_num 64 set pool 1 pgp_num to 64
Son olarak block device icin 1024 pg ve pgp sayisina sahip alan olusturuldu. Default'ta replika sayisi(size) 3 oldugundan dokunulmadi.Ancak degraded durumunda sayi 2'den 3'e artirildi.
sudo ceph osd pool create rbd 1024 sudo ceph osd pool get rbd pgp_num sudo ceph osd pool set rbd min_size 3 set pool 5 min_size to 3
cluster durumu tekrar kontrol edildiginde artik OK olarak guncellendi.
sudo ceph -s cluster: id: b49d69c7-e017-4f9f-b69b-57d3efe7987b health: HEALTH_OK services: mon: 4 daemons, quorum zula209,zula210,zula211,zula212 mgr: zula209(active), standbys: zula212 osd: 48 osds: 47 up, 47 in rgw: 1 daemon active data: pools: 5 pools, 1280 pgs objects: 219 objects, 1.1 KiB usage: 5.6 TiB used, 342 TiB / 348 TiB avail pgs: 1280 active+clean
Böylece 342TB kapasiteli, 48 osd diske ve 1280 pg sayısına sahip bir CEPH kümesi kuruldu ve kullanıma hazır hale getirildi.
Block Image Oluşturma/Silme ve Benchmark testi
Kernel'lar arasi sorunu gidermek icin asagidaki komut calistirilir. Block device image map aderken sorun olmasin diye de --image-feature layering ile imaj olusturulur.
ceph osd crush tunables legacy
Yukaridaki komut calistirilmadiginda image olusturulsa bile map isleminde hata veriyor. legacy'ye cekildiginde ceph -s komutu ile bakildiginda asagidaki 2 hatayi veriyor.
crush map has straw_calc_version=0 application not enabled on 2 pool(s)
Bunlar rbd map islemi sonrasinda sirasiyla duzeltilecek.
Sonra pg ve pgp_num 128 olan rbdbench adında bir pool oluşturulur. Bu block device üzerinden bir imaj oluşturularak ext4 dosya sistemi üzerine atanır. Son olarak mount edilerek rbd üzerinden kullanılması sağlanır. benchmark testi icin ssd ve hdd poollari icin ayri ayri image olusturulup benchmark testi yapilabilir.
ceph osd pool create rbdbench 128 128 rbd create image01 --size 1024 --pool rbdbench --image-feature layering sudo rbd map image01 --pool rbdbench --name client.admin
sudo /sbin/mkfs.ext4 -m0 /dev/rbd/rbdbench/image01 sudo mkdir /mnt/ceph-block-device sudo mount /dev/rbd/rbdbench/image01 /mnt/ceph-block-device
islem bittikten sonra once optimal'e cekilir. sonra da her bir pool icin application seviyesinde rbd olacak sekilde izin verilir. Sonra ceph -s komutu ile durumu kontrol edilir. Örnek olarak rbdhdd ve rbdssd adında 2 pool oluşturulmuş ve ayarları aşağıda yapılmıştır.
ceph osd crush tunables optimal ceph osd pool application enable rbdhdd rbd ceph osd pool application enable rbdssd rbd
df -h Filesystem Size Used Avail Use% Mounted on /dev/rbd0 99G 60M 99G 1% /mnt/ceph-hdd-block-device /dev/rbd1 99G 60M 99G 1% /mnt/ceph-ssd-block-device
- MIMIC oncesi versiyonlarda asagidaki komut kullanilir.
rbd bench-write image01 --pool=rbdbench
rbd: bench-write is deprecated, use rbd bench --io-type write ... bench type write io_size 4096 io_threads 16 bytes 1073741824 pattern sequential SEC OPS OPS/SEC BYTES/SEC 1 24816 21333.36 87381441.21 2 51888 25952.03 106299523.23 3 88480 29498.70 120826687.85 4 130704 32647.39 133723721.53 5 176560 35315.24 144651237.79 6 221088 40585.66 166238855.38 elapsed: 7 ops: 262144 ops/sec: 37427.80 bytes/sec: 153304276.10
- MIMIC ve sonraki versiyonlarda asagidaki komut kullanilir.
rbd -p rbdhdd bench imagehdd --io-type write --io-size 8192 --io-threads 256 --io-total 8G --io-pattern seq rbd -p rbdssd bench imagessd --io-type write --io-size 8192 --io-threads 256 --io-total 8G --io-pattern seq
Tüm bu işlemlerden sonra benchmark için oluşturulmuş block pool ve imajlarını kaldırmak için aşağıdaki komutlar çalıştırılır.
umount /mnt/ceph-block-device rm -rf /mnt/ceph-block-device/ rbd unmap rbdbench/image01 rbd rm rbdbench/image01
koruma mekanizmasini devre disi birakmak icin ceph tell mon.* injectargs --mon-allow-pool-delete=true ceph osd pool delete rbdbench rbdbench --yes-i-really-really-mean-it ceph tell mon.* injectargs --mon-allow-pool-delete=false
Benchmark Ceph Object
RADOS üzerinden object gw ile benchmark testi yapabilmek için yeni kurulan ortamda öncelikle bir kullanıcı oluşturmak, yetkilendirmek ve bu kullanıcının test yapacağı pool oluşturmaktır. Aşağıda python swift kütüphanesi test işleri için kullanılabilir.
apt install python-swift swift-bench
benchmark id sinde kullanıcı oluşturmak için:
radosgw-admin user create --uid="benchmark" --display-name="benchmark" radosgw-admin subuser create --uid=benchmark --subuser=benchmark:swift --access=full radosgw-admin key create --subuser=benchmark:swift --key-type=swift --secret=guessme radosgw-admin user modify --uid=benchmark --max-buckets=0
Yetkilendirme için swift.conf dosyası örnekte olduğu gibi oluşturulur.
[bench] auth = http://192.168.56.209:7480/auth/v1.0 user = benchmark:swift key = Passw0rd auth_version = 1.0
Son olarak rados ile benchmark testi 10 saniye boyunca 4M, 16 thread ile islem yapmak için aşağıdaki komut çalıştırılır.
swift-bench -c 64 -s 4096 -n 1000 -g 100 swift.conf
POOL, OSD KULLANIM ve PERFORMANS metrikleri, KOTA Tanimlama
Son olarak yapilan islemi kontrol etmek icin herbir poolun detaylarina bakmak gerekir. Asagidaki komutla crush rule setleri ile birlikte pg ve pgp sayilari kontrol edilebilir.
ceph osd pool ls detail pool 13 'rbdssd' replicated size 3 min_size 3 crush_rule 1 object_hash rjenkins pg_num 128 pgp_num 128 last_change 458 flags hashpspool stripe_width 0 pool 14 'rbdhdd' replicated size 3 min_size 3 crush_rule 0 object_hash rjenkins pg_num 128 pgp_num 128 last_change 462 flags hashpspool stripe_width 0
Tum bunlarin disinda
ceph df detail
komutu ile her bir pool'a ait kullanim bilgileri izlenebilir. Buna gore rbdssd icin kullanilabilir maksimum alan 471GB iken rbdhdd icin 111TB alan ayrilmistir. Henuz kullanima baslamadigindan herhangi bir kullanim alani gorunmemektedir. Iligli pool'a maksimum atilabilecek obje sayisi ve tutulabilecek en fazla olan kota olarak tanimlanabilir. Ornegin rbdssd pool'i icin en fazla 100K obje, 256 GiB alan ici asagidaki komutlar sirasiyla calistirilabilir,
ceph osd pool set-quota rbdssd max_objects 100000 ceph osd pool set-quota rbdssd max_bytes 274877906944
ceph df detail GLOBAL: SIZE AVAIL RAW USED %RAW USED OBJECTS 351 TiB 351 TiB 55 GiB 0.02 221 POOLS: NAME ID QUOTA OBJECTS QUOTA BYTES USED %USED MAX AVAIL OBJECTS DIRTY READ WRITE RAW USED .rgw.root 9 N/A N/A 1.1 KiB 0 111 TiB 4 4 27 B 4 B 3.4 KiB default.rgw.control 10 N/A N/A 0 B 0 111 TiB 8 8 0 B 0 B 0 B default.rgw.meta 11 N/A N/A 362 B 0 111 TiB 2 2 0 B 3 B 1.1 KiB default.rgw.log 12 N/A N/A 0 B 0 111 TiB 207 207 45 KiB 30 KiB 0 B rbdssd 13 100 k 256 GiB 0 B 0 471 GiB 0 0 0 B 0 B 0 B rbdhdd 14 N/A N/A 0 B 0 111 TiB 0 0 0 B 0 B 0 B
ceph osd df komutu ile de benzer sekilde osd'lere ait kullanimlar listelenebilir. Her bir pool ve osd icin kullanim oranlarinin gosterilmesi yaninda performans metrikleri de incelenebilir.
rados df
komutu her bir pool icin disk iops ve throughput islemini verecektir. watch komutu ile birlikte gercek zamanli cluster'in durumu izlenebilir.
ceph pg dump komutu da ceph clusterin durumunu izlemek icin kullanisli bir komuttur.
Her bir pool'a ait pg sayisi artirilabilir ancak azaltilamaz. O yuzden pg sayisini belirlerken bu noktaya dikkat etmek gerekir. Onceki ornekte olusturulan rbdssd ve rbhdd icin pg sayilarini 128'den 256'ya cikarmak icin asagidaki komutlar kullanilir. Boylece osd basina en az olmasi gereken pg sayisi 30'un uzerine cikarilmis oldu.
ceph osd pool set rbdhdd pg_num 256 ceph osd pool set rbdhdd pgp_num 256 ceph osd pool set rbdssd pg_num 256 ceph osd pool set rbdssd pgp_num 256