現場で使える!pandasデータ前処理入門 機械学習・データサイエンスで役立つ前処理手法【PDF版】

株式会社ロンバート(著)

商品番号
161440
販売状態
発売中
納品形態
会員メニューよりダウンロード
発売日
2020年04月20日
ISBN
9784798161440
データサイズ
約40.4MB
制限事項
印刷可・テキストのコピー可
キーワード
Python  電子書籍【PDF版】  データ分析  機械学習  AI & TECHNOLOGY

販売価格:¥4,180(税込)送料無料

ポイント:380pt (10%)
ポイントの使い方はこちら

在庫あり

\初回購入から使えるポイント500円分プレゼント/

紙の書籍を見る

今すぐ使える10%割引クーポン
(一部除外あり)

ほしい物リストに追加
  • 本製品は電子書籍【PDF版】です。
  • ご購入いただいたPDFには、購入者のメールアドレス、および翔泳社独自の著作権情報が埋め込まれます。
    PDFに埋め込まれるメールアドレスは、ご注文時にログインいただいたアドレスとなります。
    Amazon Payでのお支払いの場合はAmazonアカウントのメールアドレスが埋め込まれます。
  • 本製品を無断で複製、転載、譲渡、共有および販売を行った場合、法律により罰せられる可能性がございます。
  • ご購入の前に必ずこちらをお読みください。

機械学習エンジニア&データサイエンティスト必携!
初学者でもpandasによる前処理手法がわかる

【本書の背景】
機械学習やデータサイエンスでは、いかに「きれいなデータ」を用意できるかが非常に重要です。データクレンジングともいわれますが、実際の現場のデータは、機械学習やデータ分析にすぐ利用できるデータは皆無に等しく、エンジニアによりデータの前処理が必須となってきています。

【本書の概要】
本書は、機械学習やデータサイエンスの現場では、データ処理に必要な定番のライブラリ「pandas」を用いて、前処理の基本と様々な前処理手法について、あますところなく解説した書籍です。
初学者向けにシンプルでわかりやすいサンプルを用いていますので、pandasの基本操作方法やデータ構造、さらに前処理の基本の理解についてもしっかり学ぶことができます。
pandasを理解することで、様々な機械学習・データ分析タスクがスムーズに行えるようになります。

【本書の対象読者】
・機械学習エンジニア(初学者)
・データサイエンティスト(初学者)

【著書からひとこと】
機械学習では「Garbage In, Garbage Out(略、GIGO)」と言う概念があります。これは「無意味な(ゴミのような)データを入力すると無意味な結果が戻される」の意味です。
GIGOの概念でも解る通り、機械学習エンジニアは様々な手法で収集された膨大なデータの分析を行い、意味のある結果を得るために、多種多様な手法の前処理/分析を行います。
機械学習において約7割の時間はデータの前処理に費やされると言われていますが、その多くは「pandas」を使ったものです。
CSVファイルの読み込みから始まり、要約統計量や欠損値・外れ値・重複データの確認、さらにデータのマージやグループ化などの様々なタスクをpandasで行います。
本書では機械学習「初学者向け」にpandasの基本的な操作を解説しています。初歩的な要約統計量の算出やグループ化やダミー変数、さらに文字列や時系列データの基本操作など、幅広い範囲をカバーしています。
日々、データを業務で取り扱う機械学習エンジニアやKaggle等のデータ分析競技をやられている方に向けて、pandasを使ったデータ前処理のお役に立てばと思い執筆いたしました。

PDF版のご利用方法

  1. ご購入後、SEshopにログインし、会員メニューに進みます。
  2. ご購入電子書籍およびデータ > [ご購入電子書籍およびダウンロードデータ一覧]をクリックします。
  3. 購入済みの電子書籍のタイトルが表示されますので、リンクをクリックしてダウンロードしてください。
  4. PDF形式のファイルを、お好きな場所に保存してください。
  5. 端末の種類を問わず、ご利用いただけます。
機械学習エンジニア&データサイエンティスト必携!初学者でもpandasによる前処理手法がわかる。

機械学習エンジニア&データサイエンティスト必携!初学者でもpandasによる前処理手法がわかる。

本書は「pandas」を用いて、前処理の基本について、あますところなく解説した書籍です。初学者向けにシンプルでわかりやすいサンプルを用いていますので、pandasの基本操作方法やデータ構造、さらに前処理の基本の理解についてもしっかり学ぶことができます。pandasを理解することで、様々な機械学習・データ分析タスクがスムーズに行えるようになります。

本書の構成

Chapter 1 pandasの概要とPythonの基本操作
1.1 機械学習の分野でなくてはならないライブラリ「pandas」
1.2 pandasを利用する環境の構築
1.3 Pythonのデータ構造
1.4 Pythonの基本操作
1.5 Jupyter Notebookの基本操作

Chapter 2 pandasのデータ構造
2.1 シリーズ
2.2 データフレーム
2.3 インデックス
2.4 pandasを触ってみよう

Chapter 3 データ参照と読み込み
3.1 データ参照
3.2 ファイルの読み込み・書き出し

Chapter 4 データ集計と並べ替え
4.1 データ集計
4.2 データ並べ替え

Chapter 5 データ変形
5.1 追加と削除
5.2 データ連結とマージ
5.3 その他のデータ変形

Chapter 6 欠損値・外れ値・重複データ
6.1 欠損値
6.2 外れ値
6.3 重複データ

Chapter 7 関数適用とグループ化
7.1 関数処理
7.2 for文によるループ処理
7.3 データのグループ化

Chapter 8 その他の操作
8.1 文字列操作
8.2 データの可視化
8.3 階層型インデックス
8.4 時系列データ

Chapter 9 データ分析の基本
9.1 探索的データ解析(EDA)
9.2 整然データ(Tidy Data)
9.3 データ分析の実例(Bank Marketing)
9.4 データ分析の実例(Online Retail Data Set)

各種問い合わせは以下のリンクからご連絡ください

感想・レビュー

畠山 大有 さん

2021-10-06

pandas の関数の解説本。データ前処理のノウハウについての記述は少ない。最終章に微量がある程度。 私にとってコンピューター関連の本は、ページ数の割には読む時間は早い…

ais さん

2021-01-31

pandasの基本的な使い方を把握できたと思う。これからは辞書感覚で使う。

関連商品

情報処理教科書 システム監査技術者 2023~2024年版【PDF版】

販売価格:4,268円(税込)

2023.03.20発売

おすすめ特集

【2022年】SEshop人気書籍 ベスト20

【2022年SEshop人気書籍】ロングセラーのビジネス書を筆頭に、エンジニア必携書などベスト20をご紹介

最先端テクノロジー

【最先端テクノロジー特集】メタバース・NFT・ブロックチェーンの本を厳選紹介

情報処理教科書シリーズ

【2023年版】情報処理技術者試験におすすめの参考書「EXAMPRESS 情報処理教科書シリーズ」で最短合格

プレゼント本特集

出版社が選んだプレゼントにおすすめの本~誕生日やちょっとした贈り物に~

雑学本特集

面白い!ためになる!SEshop厳選雑学本特集

翔泳社のセミナー・講座

開発・ビジネス・マーケティング・EC運営・営業支援など、幅広いジャンルの講座を開催

特集をもっと見る