BÜYÜK VERİ İŞLEME HAKKINDA HERŞEY
Bilişim teknolojilerindeki ilerleme, büyük veri miktarının ve yapay zeka kullanımının
artması sonucunda artık asıl kütlenin kendisinin yani büyük verilerin işlenmesi de kaçınılmaz bir durum
olarak karşımıza çıkmıştır. Bu etkinlikte Büyük Veriyi İşlemenin inceliklerine değiniyoruz.
Etkinlik boyunca büyük verinin önemi ile ilgili her detay ayrıntılı bir biçimde vurgulanacaktır ve büyük verinin literatürdeki diğer çalışmalardan ve grubumuzun sahip olduğu deneyimlerinden faydalanılarak, büyük veri analitiğinin sağladığı üstünlükler ve/veya karşılaşılan güçlükler anlatılacaktır.
Veri Mühendislerimiz ve Analizlerimiz projelerinize değer katmaya devam ediyor. Veri merkezli endişeleriniz, çağdaş arayüz geliştirmelerimizin temelini oluşturur. Platformdan bağımsız uygulamalarınız için
bu webinarı kaçımayın.
TensorFlow, PyTorch, PyTensor gibi kütüphaneler ve kütüphaneleri ile geliştirdiğimiz veri deneyimlerimizi sizlerle paylaşıyoruz. Web tabanlı uygulamalarınızın arayüzünü sizin için yükseltebiliyoruz.
Büyük veri teknolojinizin neye ihtiyacı olduğunu analiz edebiliriz.
Neler Öğreneceksiniz?
- Nesnelerin İnterneti ve Bulut teknolojilerine ait genel kavramları tanımlayabileceksiniz.
- Güncel yaklaşımlardan Konum (Location) Analitiği ve Akış (Streaming) Analitiği hakkında genel bilgi edineceksiniz.
- Makine öğrenme yöntemlerinin açıklanabilir yapay zeka ile nasıl yorumlanabildiğini öğreneceksiniz.
- Sanal örgütlerin yapısı ve özelliklerini tanımlayabileceksiniz.
- Veri güvenliği ve mahremiyeti için oluşturulan hukuki düzenlemeler ile ilgili bilgi sahibi olacaksınız.
Hedefler
- Nesnelerin interneti, Bulut Bilişim, Konum ve Akış Analitiği kavramlarını tanımlamak
- Açıklanabilir Yapay Zeka hakkında genel bilgi sunmak
- Sanal örgütlerin yapısı ve özellikleri hakkında bilgi vermek
- Veri güvenliği ve mahremiyetini sağlamak için ulusal ve uluslararası alanda gerçekleştirilen hukuki düzenlemeleri açıklamak.
McKinsey Global Institute’ün hazırladığı raporda, büyük verinin önemi ile ilgili detay aşağıdaki maddelerde ayrıntılı bir biçimde vurgulamaktadır
- Kurumsallaşmış yapılar ancak büyük verilere sahip olduklarından, bu kurumlar veri biliminden faydalanarak, sahip oldukları verileri değere dönüştürebilirler.
- Büyük veriler kullanım amacına göre kısa vadede bir sonraki adımı hesaplamak için kullanılı
- Uzun vadede mevcut performansın arttırılması, daha efektif kaynak planlanmasının yapılması, kaynak tüketiminde minimizasyon, yeni stratejilerin belirlenmesi gibi daha özel sonuçların elde edilmesinde kullanılabilir.
- Büyük veri sistemlerini ve analiz tekniklerini kullanmak ve bu sayede yeni değerler elde etmek kullanıcıya üstünlük sağlayacağından kurumsal bazda yeni fırsatları da beraberinde getirmektedir.
- Büyük veri ticari kurumların yanı sıra bireysel açıdan kişinin karar verme sürecini de olumlu olarak etkileyebileceğinden, kişisel gelişime de özel katkılar sağlayabilir.
- Günümüzde büyük verilerin iyi bir biçimde işlenmesi ile hiç beklenmedik kritik sonuçlar elde edilebileceği hatırda tutulmalıdır.
- Her veri değerlendirilmeye çalışılmalıdır. Önemsi görülen verilerden hazine niteliğinde sonuçlar elde edilebileceği unutulmamalıdır.
- Büyük veri analizi ile; sağlık, istihdam, sanayi, suç araştırma ve güvenlik, doğal afet gibi alanlarda etkin sonuçlar elde edilmektedir.
Dikkat edilmesi gerekenler
- Büyük veri sistemleri, bu kadar faydasının yanı sıra oldukça büyük bir dezavantaja da sahiptir.
- Uygun güvenlik altyapılarının bulunmadığı yerlerde, sahip olunan verilerin aktarılması, sızdırılması veya güvenlik zafiyetleri oluşturabilmektedir. Bu hususa özellikle dikkat edilmelidir.
- Büyük veri toplama aşamasında, bireylere ait olan fakat paylaşmayı tercih etmedikleri veriler, ticari maksatla kurum ve kuruluşlar tarafından toplanarak, bireyin eksiklikleri ve zaafları gibi spesifik durumları kullanarak kötü amaçlı bir biçimde kullanılabilir. Bu hususa dikkat edilmeli, büyük verilerin etik kurallar çerçevesinde toplanması, kullanılması ve paylaşılması gereklidir.
Büyük Veri Araçları
Büyük veri, veri tabanlarından bağımsız yapılandırılmamış verilerin analizi olarak tanımlandığı için bilindiği gibi SQL türevi bir dille analize uygun değildir. Bu sebeple bu süreçte NoSQL tabanlı araçlar kullanılmaktadır. Bu araçlardan en çok kullanılan ve en iyi bilinenleri MongoDB, CouchDB, Cassandra, Redis, BigTable, Hbase, Hypertable, Voldemort, Riak, Zookeeper olarak gösterilebilir.
Büyük veri analitiğinden bahsedildiğinde MapReduce kavramından bahsetmemek imkânsızdır. MapReduce kavramı, dağıtık mimari üzerinde çok büyük verilerin kolay bir şekilde analiz edilebilmesini sağlayan bir sistemdir. Map aşamasında analiz edilen veri içerisinden almak istediğimiz veriler çekilir, Reduce aşamasında ise bu çektiğimiz veri üzerinde istediğimiz analiz gerçekleşir.
Bu aşamada kullanılan araçlar Hadoop, Hive, Pig, Cascading, mrjob, Caffeine, S4, MapR, Acunu, Flume, Kafka, Azkaban, Oozine, Greenplum olarak gösterilebilir
Büyük veriyi depolayabilmek için kullanılan araçlar S3, HDFS (Hadoop Distributed File System) olarak gösterilebilir. Depolama sürecinde kullanılan sunuculara EC2, Google App Engine, Elastic, BeanStalk ve Heroku örnek verilebilir.
Büyük verinin analitiği işleme sürecinde Python, R, Yahoo Pipes, Mechanical Turk, Soir/Lucene, ElasticSearch, Datameer, BigSheets, Tinkerpop gibi araçlar kullanılabilmektedir