Flamboyan


Data perdebatan dengan Apache Kafka dan KSQL

Aspek ilmu Data dasarnya melibatkan mengambil data yang telah dikumpulkan, membersihkannya dan mengubahnya ke dalam format yang berbeda, yang dapat meningkatkan nilainya. Data perdebatan berarti mengubah data mentah Anda ke dalam bentuk yang Anda dapat lebih mudah use.It ini tidak cukup hanya memiliki data dalam Anda kepemilikan-Anda perlu membuat sesuatu itu, benar memanfaatkan data dan mengubahnya menjadi sesuatu yang Anda dapat menganalisis. Sebagai hasilnya, Anda akan dapat nilai yang lebih besar berasal dari it.In artikel ini, kita akan melihat bagaimana untuk menarik data dari sumber REST, membersihkan dan melakukan data bertengkar dengan KSQL, maka aliran itu kepada kedua Google Cloud penyimpanan serta Google BigQuery untuk analisis dan visualisasi di Google data Studio. Kami menggunakan konfluen Cloud ™ untuk menjadi tuan rumah broker Kafka kami, tetapi akan bekerja pada gugus lokal Sebaliknya jika Anda ingin to.the kunci pesan penting karena mendefinisikan partisi di mana pesan disimpan dalam Kafka dan digunakan dalam setiap KSQL bergabung. Saat ini tidak ada set kunci, sehingga data untuk stasiun yang sama dan jenis membaca bisa tersebar di seluruh partisi. Selama beberapa baris data ini mungkin tidak peduli, tapi karena volume meningkat menjadi lebih penting untuk dipertimbangkan. Ini juga berhubungan dengan jaminan pemesanan ketat yang Kafka menyediakan, yang hanya berlaku dalam partisi.
Kita mungkin memiliki kasus penggunaan tunggal dalam pikiran ketika awalnya bangunan itu, dan salah satu cara untuk melakukan hal ini akan membangun satu aplikasi yang tarikan data dari endpoint SISA sebelum membersihkan, perdebatan dan menulis itu untuk target awal. Sebaliknya, dengan memecah proses dan membangun mereka di seluruh Kafka, menambahkan target lain untuk data adalah yang sederhana seperti mengkonsumsi data berubah dari sebuah topik Kafka. Tapi sekarang jika kita ingin menambahkan target lainnya, kita harus memodifikasi aplikasi itu, yang menjadi lebih kompleks dan risky.You'll perlu menyiapkan Google Cloud Platform Anda, dan juga memastikan bahwa proyek BigQuery dan eksis dataset pertama. Kami akan menggunakan lain konektor masyarakat Kafka Connect, yang ditulis oleh WePay untuk streaming data dari Kafka topik untuk BigQuery. Untuk analisis kami, kita akan mendarat data ke BigQuery, alat awan data warehouse Google. (source)