現場で使える!pandasデータ前処理入門 機械学習・データサイエンスで役立つ前処理手法 発売予定

翔泳社(出版社) , 株式会社ロンバード 増田 秀人(著)

商品番号
160670
販売状態
発売予定
納品形態
宅配便にてお届け
発売日
2020年04月20日
ISBN
9784798160672
判型
A5
ページ数
696
キーワード
Python  データ分析  機械学習  AI & TECHNOLOGY

販売価格:¥4,180(税込)

ポイント:380pt (10%)
詳細はこちら

送料無料 お取り寄せ品

ほしい物リストに追加

機械学習エンジニア&テータサイエンティスト必携!
初学者でもpandasによる前処理手法がわかる

【本書の背景】
機械学習やデータサイエンスでは、いかに「きれいなデータ」を用意できるかが非常に重要です。データクレンジングともいわれますが、実際の現場のデータは、機械学習やデータ分析にすぐ利用できるデータは皆無に等しく、エンジニアによりデータの前処理が必須となってきています。

【本書の概要】
本書は、機械学習やデータサイエンスの現場では、データ処理に必要な定番のライブラリ「pandas」を用いて、前処理の基本と様々な前処理手法について、あますところなく解説した書籍です。
初学者向けにシンプルでわかりやすいサンプルを用いていますので、pandasの基本操作方法やデータ構造、さらに前処理の基本の理解についてもしっかり学ぶことができます。
pandasを理解することで、様々な機械学習・データ分析タスクがスムーズに行えるようになります。

【本書の対象読者】
・機械学習エンジニア(初学者)
・データサイエンティスト(初学者)

【著書からひとこと】
機械学習では「Garbage In, Garbage Out(略、GIGO)」と言う概念があります。これは「無意味な(ゴミのような)データを入力すると無意味な結果が戻される」の意味です。
GIGOの概念でも解る通り、機械学習エンジニアは様々な手法で収集された膨大なデータの分析を行い、意味のある結果を得るために、多種多様な手法の前処理/分析を行います。
機械学習において約7割の時間はデータの前処理に費やされると言われていますが、その多くは「pandas」を使ったものです。
CSVファイルの読み込みから始まり、要約統計量や欠損値・外れ値・重複データの確認、さらにデータのマージやグループ化などの様々なタスクをpandasで行います。
本書では機械学習「初学者向け」にpandasの基本的な操作を解説しています。初歩的な要約統計量の算出やグループ化やダミー変数、さらに文字列や時系列データの基本操作など、幅広い範囲をカバーしています。
日々、データを業務で取り扱う機械学習エンジニアやKaggle等のデータ分析競技をやられている方に向けて、pandasを使ったデータ前処理のお役に立てばと思い執筆いたしました。

第1章 pandasの概要とPythonの基本操作
第2章 pandasのデータ構造
第3章 データ参照と読み込み
第4章 データ集計と並び替え
第5章 データ変形
第6章 欠損値・外れ値・重複
第7章 関数適用とグループ化
第8章 その他の操作
第9章 データ分析の基本

各種問い合わせは以下のリンクからご連絡ください

関連商品

なっとく!ディープラーニング

販売価格:2,860円(税込)

2020.03.16発売

エンジニアが学ぶ会計システムの「知識」と「技術」

販売価格:2,640円(税込)

2020.03.13発売

Pythonで動かして学ぶ!あたらしいIoTの教科書

販売価格:3,080円(税込)

2020.03.11発売

おすすめ特集

今月のクーポン

翔泳社の通販SEshopなら全品送料無料、ポイント還元、さらに毎月更新の割引クーポンでお得!

情報処理教科書シリーズ

情報処理技術者試験におすすめの参考書「EXAMPRESS 情報処理教科書シリーズ」で最短合格!

Web制作関連本特集

HTML/CSS、JavaScript、UI/UX、デザインまで。Web制作・フロントエンド開発に役立つ本。

Python特集

【今からはじめるPython特集】おすすめ本を入門~上級までレベル別にご紹介!

ITインフラ関連本特集

ネットワーク/サーバー/セキュリティを学ぶなら読んでおきたいおすすめの書籍。

おすすめイラストの本特集

人気イラストレーター作品集&メイキングブック、コピックテクニック本、デジタル作画参考書や素材集も!

特集をもっと見る